我正在探索 PyFlink,我想知道是否可以将 PyFlink 与 ML 工程师通常使用的所有这些 ML 库一起使用:PyTorch、Tensorflow、Scikit Learn、Xgboost、LightGBM 等。
根据这个 SO thread,PySpark 不能直接在 UDF 内部使用 Scikit Learn,因为 Scikit Learn 算法不是分布式实现的,而 Spark 是分布式运行的。
鉴于 PyFlink 类似于 PySpark,我猜答案可能是“否”。但我很想仔细检查,看看我需要做什么才能使 PyFlink 能够使用这些 ML 库定义 UDF。