问题标签 [google-cloud-ai-platform-pipelines]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
390 浏览

tfx - 在 Vertex AI 中为单个 TFX 管道组件指定机器类型

我正在使用 TFX 在 Vertex AI 上构建 AI 管道。我已经按照本教程开始,然后我将管道调整为我自己的数据,其中包含超过 1 亿行时间序列数据。由于内存问题,我的几个组件在中途被杀死,所以我只想为这些组件设置内存要求。我使用KubeflowV2DagRunner以下代码在 Vertex AI 中编排和启动管道:

Stack Overflow 上已经回答了一个类似的问题,这让我找到了一种在 AI Platform 中设置内存要求的方法,但是这些配置在 中不再存在KubeflowV2DagRunnerConfig,所以我陷入了死胡同。

任何帮助将非常感激。

** 编辑 **
我们将组件定义为带有@component装饰器的 python 函数,因此它们中的大多数是自定义组件。对于培训组件,我知道您可以使用本教程tfx.Trainer中解释的类指定机器类型,尽管我的问题是针对不进行任何培训的自定义组件。

0 投票
1 回答
540 浏览

google-cloud-ml - 顶点管道:CustomPythonPackageTrainingJobRunOp 不提供 WorkerPoolSpecs

我正在尝试使用 Vertex AI 上的 Kubeflow 管道运行自定义包训练管道。我将培训代码打包在 Google Cloud Storage 中,我的管道是:

当我尝试在 Vertex AI 上运行此管道时,出现以下错误:

0 投票
0 回答
342 浏览

google-cloud-functions - 为什么在 Vertex AI 示例中 Cloud Function 无法访问元数据服务器?

我遵循了这个 Vertex AI 教程。但是,在最后一步,当云函数调用预测端点时,它会失败。

这意味着它甚至无法访问元数据服务器。即,不是权限失败(尽管我确实检查了myproject@appspot.gserviceaccount.com服务帐户确实具有指定的项目编辑角色)。严格来说,这也是 Functions 和 IAM 中的错误,而不是 Vertex.AI 或其他 ML 系统中的错误。

这里出了什么问题?

0 投票
1 回答
359 浏览

google-cloud-platform - 如何参数化 Kubeflow Pipelines 环境变量?

我正在探索 Vertex AI Pipelines 以运行机器学习训练作业。kubeflow管道文档清楚地说明了如何参数化容器的命令/参数。

是否也可以将输入传递给组件的环境变量或图像名称?组件的这种大摇大摆的模式表明可以做到这一点,但是这个例子失败了:

传递{inputValue}container.envcontainer.tag支持。或者,是否可以使用 V2 python DSL 添加环境变量或更改图像名称。

0 投票
0 回答
243 浏览

google-cloud-ml - 顶点 ai:ResourceExhausted 429 收到尾随元数据大小超过限制

我正在使用 google vertex AI 在线预测:为了发送图像,它必须是 unit8 格式的 JSON 文件,并且必须小于 1.5 MB,当我将图像转换为 uint8 时,它肯定会超过 1.5MB。

为了解决这个问题,我们可以将 unit8 文件编码为 b64,这使得 JSON 文件在运行预测时以 KB 为单位,我得到了Resource Exhausted: 429 received trailing metadata size exceeds limit 有没有人知道问题出在哪里?

0 投票
1 回答
340 浏览

google-ai-platform - 如何扩展 kubeflow 管道(使用顶点 ai),或者它只是自动完成

我正在运行一个包含不同组件的 kubeflow 管道,用于数据预处理、训练等阶段。

我知道我可以为每个阶段(组件)使用特定的图像。(例如不使用或使用 gpu 进行训练的图像。

我的问题是如何设置管道以针对不同阶段(组件)进行扩展?

或者它只是自动完成

谢谢。

0 投票
1 回答
400 浏览

google-ai-platform - 自动缩放 VertexAI 管道组件

我正在探索 VertexAI 管道,并了解它是 AI Platform 管道(您必须部署 GKE 集群才能运行 Kubeflow 管道)的托管替代方案。我不清楚的是 VertexAI 是否会根据负载自动缩放集群。在对类似问题的回答中,提到对于使用 GCP 资源(如 Dataflow 等)的管道步骤,将自动完成自动缩放。在google docs中,提到对于组件,可以设置资源,例如 CPU_LIMIT GPU_LIMIT 等。我的问题是,是否可以为任何类型的组件(即 Google Cloud 管道组件或自定义组件)设置这些限制,无论是基于 Python 函数还是那些打包为容器映像的组件?其次,这些限制是否意味着组件资源将自动缩放直到达到这些限制?如果甚至没有指定这些选项会发生什么,那么资源是如何分配的,它们会按照 VertexAI 认为合适的方式自动缩放吗?

相关文档和资源的链接将非常有帮助。

0 投票
0 回答
43 浏览

google-cloud-platform - 顶点ai中特征存储的备份

我们将顶点 Ai 特征存储用于 poc。我们想删除特征存储并备份已删除的特征存储,这样我们就可以从备份中检索数据并在将来使用它,从而降低成本。可能吗?由于顶点人工智能是谷歌的新产品,我们无法找到任何解决方案。有人可以帮我吗?

0 投票
0 回答
44 浏览

google-cloud-platform - 在 X 分钟不活动后自动关闭 Google Cloud AI Notebook

在使用 Google AI 笔记本一段时间后,我想知道是否可以将笔记本配置为在几分钟不活动后自动关闭。也欢迎任何其他在给定时间后自动关闭这些笔记本的方式。

我尝试并查看了设置,但只找到了自定义脚本作为解决方案(我不确定这是正确的解决方案)。

0 投票
1 回答
68 浏览

google-cloud-platform - Google Cloud 管道组件文档的工作链接?

有没有人有谷歌云管道组件文档的工作链接。“ReadTheDocs page”下的github 页面中的链接已损坏。尝试了其他一些教程笔记本,例如这个,“组件在此处记录”下的链接。好像也坏了。

编辑:

现在链接已经上线了。