0

我正在探索 PyFlink,我想知道是否可以将 PyFlink 与 ML 工程师通常使用的所有这些 ML 库一起使用:PyTorch、Tensorflow、Scikit Learn、Xgboost、LightGBM 等。

根据这个 SO thread,PySpark 不能直接在 UDF 内部使用 Scikit Learn,因为 Scikit Learn 算法不是分布式实现的,而 Spark 是分布式运行的。

鉴于 PyFlink 类似于 PySpark,我猜答案可能是“否”。但我很想仔细检查,看看我需要做什么才能使 PyFlink 能够使用这些 ML 库定义 UDF。

4

1 回答 1

0

感谢您对 PyFlink 以及所有这些 ML 库的调查。IMO,您可以参考 flink-ai-extended 项目,该项目支持 Flink 上的 Tensorflow、Flink 上的 PyTorch 等,存储​​库 url 为https://github.com/alibaba/flink-ai-extended。Flink AI Extended 是一个将 Flink 扩展到各种机器学习场景的项目,可以和 PyFlink 一起使用。您也可以通过扫描README文件中涉及的二维码加入群。

于 2021-03-16T06:10:15.683 回答