我有一个在 GCP AI Platform Pipelines(托管 Kubeflow)中运行的 TFX 管道。它运行了一段时间,但在 BigQuery ExampleGen 步骤中突然停止正常工作。
BQ ExampleGen 利用 Dataflow 从 BQ 读取数据并保存到 TRecords。数据流作业开始但没有做任何事情 - 它在启动/准备工作人员期间卡住。
工作人员日志显示正在使用 pip 安装 python 依赖项。问题是 pip 不断下载同一个包的不同版本以解决依赖冲突,但它没有显示冲突是什么。我在启动时连接到工作虚拟机,但它没有显示 pip 不断运行并消耗 100% CPU - 在停止工作之前我等待了一个多小时才完成。
TFX 版本:0.26.3(与 0.26.4 并列,结果相同) Apache Beam SDL:2.28(与 2.29 一起尝试,结果相同)
我什至尝试在 Apache Beam docker 映像(与 Dataflow 工作人员使用的相同)中进行 TFX 0.26.3 的 pip 安装,并且尝试安装它也被卡住了。
我尝试在 Apache Beam docker 映像中安装 TFX 0.30.0,它安装得很好,但我无法在我的 AI Platform Pipeline 中使用 TFX 0.30,因为似乎只支持 TFX 0.26。
其他人遇到过同样的问题,也许解决了这个问题?