“google-cloud-ai-platform-pipelines”的相关标签问题

0 投票

2 回答

390 浏览

tfx - 在 Vertex AI 中为单个 TFX 管道组件指定机器类型

我正在使用 TFX 在 Vertex AI 上构建 AI 管道。我已经按照本教程开始，然后我将管道调整为我自己的数据，其中包含超过 1 亿行时间序列数据。由于内存问题，我的几个组件在中途被杀死，所以我只想为这些组件设置内存要求。我使用KubeflowV2DagRunner以下代码在 Vertex AI 中编排和启动管道：

Stack Overflow 上已经回答了一个类似的问题，这让我找到了一种在 AI Platform 中设置内存要求的方法，但是这些配置在中不再存在KubeflowV2DagRunnerConfig，所以我陷入了死胡同。

任何帮助将非常感激。

** 编辑 **
我们将组件定义为带有@component装饰器的 python 函数，因此它们中的大多数是自定义组件。对于培训组件，我知道您可以使用本教程tfx.Trainer中解释的类指定机器类型，尽管我的问题是针对不进行任何培训的自定义组件。

tfx google-cloud-ai-platform-pipelines

2021-06-17T21:06:16.360

0 投票

1 回答

540 浏览

google-cloud-ml - 顶点管道：CustomPythonPackageTrainingJobRunOp 不提供 WorkerPoolSpecs

我正在尝试使用 Vertex AI 上的 Kubeflow 管道运行自定义包训练管道。我将培训代码打包在 Google Cloud Storage 中，我的管道是：

当我尝试在 Vertex AI 上运行此管道时，出现以下错误：

2021-06-21T23:48:45.937

0 投票

0 回答

342 浏览

google-cloud-functions - 为什么在 Vertex AI 示例中 Cloud Function 无法访问元数据服务器？

我遵循了这个 Vertex AI 教程。但是，在最后一步，当云函数调用预测端点时，它会失败。

这意味着它甚至无法访问元数据服务器。即，不是权限失败（尽管我确实检查了myproject@appspot.gserviceaccount.com服务帐户确实具有指定的项目编辑角色）。严格来说，这也是 Functions 和 IAM 中的错误，而不是 Vertex.AI 或其他 ML 系统中的错误。

这里出了什么问题？

google-cloud-functions google-iam google-ai-platform google-cloud-ai-platform-pipelines

2021-06-23T11:16:29.607

0 投票

1 回答

359 浏览

google-cloud-platform - 如何参数化 Kubeflow Pipelines 环境变量？

我正在探索 Vertex AI Pipelines 以运行机器学习训练作业。kubeflow管道文档清楚地说明了如何参数化容器的命令/参数。

是否也可以将输入传递给组件的环境变量或图像名称？组件的这种大摇大摆的模式表明可以做到这一点，但是这个例子失败了：

传递{inputValue}到container.env或container.tag支持。或者，是否可以使用 V2 python DSL 添加环境变量或更改图像名称。

google-cloud-platform kubeflow-pipelines google-cloud-ai-platform-pipelines

2021-06-24T20:19:17.413

0 投票

0 回答

243 浏览

google-cloud-ml - 顶点 ai：ResourceExhausted 429 收到尾随元数据大小超过限制

我正在使用 google vertex AI 在线预测：为了发送图像，它必须是 unit8 格式的 JSON 文件，并且必须小于 1.5 MB，当我将图像转换为 uint8 时，它肯定会超过 1.5MB。

为了解决这个问题，我们可以将 unit8 文件编码为 b64，这使得 JSON 文件在运行预测时以 KB 为单位，我得到了Resource Exhausted: 429 received trailing metadata size exceeds limit 有没有人知道问题出在哪里？

google-cloud-ml google-ai-platform google-cloud-ai-platform-pipelines google-cloud-vertex-ai

2021-07-07T06:16:43.360

0 投票

1 回答

340 浏览

google-ai-platform - 如何扩展 kubeflow 管道（使用顶点 ai），或者它只是自动完成

我正在运行一个包含不同组件的 kubeflow 管道，用于数据预处理、训练等阶段。

我知道我可以为每个阶段（组件）使用特定的图像。（例如不使用或使用 gpu 进行训练的图像。

我的问题是如何设置管道以针对不同阶段（组件）进行扩展？

或者它只是自动完成

谢谢。

google-ai-platform kubeflow-pipelines google-cloud-ai-platform-pipelines

2021-07-12T07:25:47.910

0 投票

1 回答

400 浏览

google-ai-platform - 自动缩放 VertexAI 管道组件

我正在探索 VertexAI 管道，并了解它是 AI Platform 管道（您必须部署 GKE 集群才能运行 Kubeflow 管道）的托管替代方案。我不清楚的是 VertexAI 是否会根据负载自动缩放集群。在对类似问题的回答中，提到对于使用 GCP 资源（如 Dataflow 等）的管道步骤，将自动完成自动缩放。在google docs中，提到对于组件，可以设置资源，例如 CPU_LIMIT GPU_LIMIT 等。我的问题是，是否可以为任何类型的组件（即 Google Cloud 管道组件或自定义组件）设置这些限制，无论是基于 Python 函数还是那些打包为容器映像的组件？其次，这些限制是否意味着组件资源将自动缩放直到达到这些限制？如果甚至没有指定这些选项会发生什么，那么资源是如何分配的，它们会按照 VertexAI 认为合适的方式自动缩放吗？

相关文档和资源的链接将非常有帮助。

google-ai-platform kubeflow-pipelines google-cloud-ai-platform-pipelines google-cloud-vertex-ai

2021-08-06T03:04:03.833

0 投票

0 回答

43 浏览

google-cloud-platform - 顶点ai中特征存储的备份

我们将顶点 Ai 特征存储用于 poc。我们想删除特征存储并备份已删除的特征存储，这样我们就可以从备份中检索数据并在将来使用它，从而降低成本。可能吗？由于顶点人工智能是谷歌的新产品，我们无法找到任何解决方案。有人可以帮我吗？

google-cloud-platform google-cloud-ml google-cloud-ai-platform-pipelines google-cloud-vertex-ai

2021-08-12T07:42:31.900

0 投票

0 回答

44 浏览

google-cloud-platform - 在 X 分钟不活动后自动关闭 Google Cloud AI Notebook

在使用 Google AI 笔记本一段时间后，我想知道是否可以将笔记本配置为在几分钟不活动后自动关闭。也欢迎任何其他在给定时间后自动关闭这些笔记本的方式。

我尝试并查看了设置，但只找到了自定义脚本作为解决方案（我不确定这是正确的解决方案）。

google-cloud-platform google-cloud-ai google-cloud-ai-platform-pipelines google-notebook

2021-08-13T07:17:51.450

0 投票

1 回答

68 浏览

google-cloud-platform - Google Cloud 管道组件文档的工作链接？

有没有人有谷歌云管道组件文档的工作链接。“ReadTheDocs page”下的github 页面中的链接已损坏。尝试了其他一些教程笔记本，例如这个，“组件在此处记录”下的链接。好像也坏了。

编辑：

现在链接已经上线了。

google-cloud-platform kubeflow-pipelines google-cloud-ai-platform-pipelines google-cloud-vertex-ai

2021-08-13T15:36:37.680

问题标签 [google-cloud-ai-platform-pipelines]

Reference