0

我正在基于 TFX 的 AI Platform 管道中运行管道。在 Evaluator 之前,所有组件都运行良好。它只是不想在 Dataflow 上运行,它在 Kubeflow pod 中运行,所以它失败了,因为那里没有足够的内存。

Apache Beam 配置设置为使用 Dataflow 作为运行器运行,因此 ExampleGen、StatisticsGen、ExampleValidator 等其他组件在 Dataflow 中都可以正常运行。

当涉及到 Evaluator 组件时,它甚至没有生成日志就失败了。抱怨错误(在 Kubeflow UI 中):

“此步骤处于失败状态,并显示以下消息:节点资源不足:内存。容器主使用 2093880Ki,超过其请求 0。容器等待使用 13492Ki,超过其请求 0。”

4

1 回答 1

0

我可以通过将 TFX 版本设置为 0.25.0 来解决此问题。

于 2021-05-28T10:20:10.863 回答