我正在基于 TFX 的 AI Platform 管道中运行管道。在 Evaluator 之前,所有组件都运行良好。它只是不想在 Dataflow 上运行,它在 Kubeflow pod 中运行,所以它失败了,因为那里没有足够的内存。
Apache Beam 配置设置为使用 Dataflow 作为运行器运行,因此 ExampleGen、StatisticsGen、ExampleValidator 等其他组件在 Dataflow 中都可以正常运行。
当涉及到 Evaluator 组件时,它甚至没有生成日志就失败了。抱怨错误(在 Kubeflow UI 中):
“此步骤处于失败状态,并显示以下消息:节点资源不足:内存。容器主使用 2093880Ki,超过其请求 0。容器等待使用 13492Ki,超过其请求 0。”