我正在使用 TFX 在 Vertex AI 上构建 AI 管道。我已经按照本教程开始,然后我将管道调整为我自己的数据,其中包含超过 1 亿行时间序列数据。由于内存问题,我的几个组件在中途被杀死,所以我只想为这些组件设置内存要求。我使用KubeflowV2DagRunner
以下代码在 Vertex AI 中编排和启动管道:
runner = tfx.orchestration.experimental.KubeflowV2DagRunner(
config=tfx.orchestration.experimental.KubeflowV2DagRunnerConfig(
default_image = 'gcr.io/watch-hop/hop-tfx-covid:0.6.2'
),
output_filename=PIPELINE_DEFINITION_FILE)
_ = runner.run(
create_pipeline(
pipeline_name=PIPELINE_NAME,
pipeline_root=PIPELINE_ROOT,
data_path=DATA_ROOT, metadata_path=METADATA_PATH))
Stack Overflow 上已经回答了一个类似的问题,这让我找到了一种在 AI Platform 中设置内存要求的方法,但是这些配置在 中不再存在KubeflowV2DagRunnerConfig
,所以我陷入了死胡同。
任何帮助将非常感激。
** 编辑 **
我们将组件定义为带有@component
装饰器的 python 函数,因此它们中的大多数是自定义组件。对于培训组件,我知道您可以使用本教程tfx.Trainer
中解释的类指定机器类型,尽管我的问题是针对不进行任何培训的自定义组件。