0

我有一个在 GCP AI Platform Pipelines(托管 Kubeflow)中运行的 TFX 管道。它运行了一段时间,但在 BigQuery ExampleGen 步骤中突然停止正常工作。

BQ ExampleGen 利用 Dataflow 从 BQ 读取数据并保存到 TRecords。数据流作业开始但没有做任何事情 - 它在启动/准备工作人员期间卡住。

工作人员日志显示正在使用 pip 安装 python 依赖项。问题是 pip 不断下载同一个包的不同版本以解决依赖冲突,但它没有显示冲突是什么。我在启动时连接到工作虚拟机,但它没有显示 pip 不断运行并消耗 100% CPU - 在停止工作之前我等待了一个多小时才完成。

TFX 版本:0.26.3(与 0.26.4 并列,结果相同) Apache Beam SDL:2.28(与 2.29 一起尝试,结果相同)

我什至尝试在 Apache Beam docker 映像(与 Dataflow 工作人员使用的相同)中进行 TFX 0.26.3 的 pip 安装,并且尝试安装它也被卡住了。

我尝试在 Apache Beam docker 映像中安装 TFX 0.30.0,它安装得很好,但我无法在我的 AI Platform Pipeline 中使用 TFX 0.30,因为似乎只支持 TFX 0.26。

其他人遇到过同样的问题,也许解决了这个问题?

4

1 回答 1

1

我最终通过将 TFX 容器版本设置为 0.26.1 而不是 0.26.3 解决了这个问题,因为它在 TFX 模板中是默认设置的。

于 2021-05-20T17:53:47.630 回答