问题标签 [google-cloud-ai-platform-pipelines]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tfx - 在 Vertex AI 中为单个 TFX 管道组件指定机器类型
我正在使用 TFX 在 Vertex AI 上构建 AI 管道。我已经按照本教程开始,然后我将管道调整为我自己的数据,其中包含超过 1 亿行时间序列数据。由于内存问题,我的几个组件在中途被杀死,所以我只想为这些组件设置内存要求。我使用KubeflowV2DagRunner
以下代码在 Vertex AI 中编排和启动管道:
Stack Overflow 上已经回答了一个类似的问题,这让我找到了一种在 AI Platform 中设置内存要求的方法,但是这些配置在 中不再存在KubeflowV2DagRunnerConfig
,所以我陷入了死胡同。
任何帮助将非常感激。
** 编辑 **
我们将组件定义为带有@component
装饰器的 python 函数,因此它们中的大多数是自定义组件。对于培训组件,我知道您可以使用本教程tfx.Trainer
中解释的类指定机器类型,尽管我的问题是针对不进行任何培训的自定义组件。
google-cloud-ml - 顶点管道:CustomPythonPackageTrainingJobRunOp 不提供 WorkerPoolSpecs
我正在尝试使用 Vertex AI 上的 Kubeflow 管道运行自定义包训练管道。我将培训代码打包在 Google Cloud Storage 中,我的管道是:
当我尝试在 Vertex AI 上运行此管道时,出现以下错误:
google-cloud-functions - 为什么在 Vertex AI 示例中 Cloud Function 无法访问元数据服务器?
我遵循了这个 Vertex AI 教程。但是,在最后一步,当云函数调用预测端点时,它会失败。
这意味着它甚至无法访问元数据服务器。即,不是权限失败(尽管我确实检查了myproject@appspot.gserviceaccount.com
服务帐户确实具有指定的项目编辑角色)。严格来说,这也是 Functions 和 IAM 中的错误,而不是 Vertex.AI 或其他 ML 系统中的错误。
这里出了什么问题?
google-cloud-ml - 顶点 ai:ResourceExhausted 429 收到尾随元数据大小超过限制
我正在使用 google vertex AI 在线预测:为了发送图像,它必须是 unit8 格式的 JSON 文件,并且必须小于 1.5 MB,当我将图像转换为 uint8 时,它肯定会超过 1.5MB。
为了解决这个问题,我们可以将 unit8 文件编码为 b64,这使得 JSON 文件在运行预测时以 KB 为单位,我得到了Resource Exhausted: 429 received trailing metadata size exceeds limit
有没有人知道问题出在哪里?
google-ai-platform - 如何扩展 kubeflow 管道(使用顶点 ai),或者它只是自动完成
我正在运行一个包含不同组件的 kubeflow 管道,用于数据预处理、训练等阶段。
我知道我可以为每个阶段(组件)使用特定的图像。(例如不使用或使用 gpu 进行训练的图像。
我的问题是如何设置管道以针对不同阶段(组件)进行扩展?
或者它只是自动完成
谢谢。
google-ai-platform - 自动缩放 VertexAI 管道组件
我正在探索 VertexAI 管道,并了解它是 AI Platform 管道(您必须部署 GKE 集群才能运行 Kubeflow 管道)的托管替代方案。我不清楚的是 VertexAI 是否会根据负载自动缩放集群。在对类似问题的回答中,提到对于使用 GCP 资源(如 Dataflow 等)的管道步骤,将自动完成自动缩放。在google docs中,提到对于组件,可以设置资源,例如 CPU_LIMIT GPU_LIMIT 等。我的问题是,是否可以为任何类型的组件(即 Google Cloud 管道组件或自定义组件)设置这些限制,无论是基于 Python 函数还是那些打包为容器映像的组件?其次,这些限制是否意味着组件资源将自动缩放直到达到这些限制?如果甚至没有指定这些选项会发生什么,那么资源是如何分配的,它们会按照 VertexAI 认为合适的方式自动缩放吗?
相关文档和资源的链接将非常有帮助。
google-cloud-platform - 顶点ai中特征存储的备份
我们将顶点 Ai 特征存储用于 poc。我们想删除特征存储并备份已删除的特征存储,这样我们就可以从备份中检索数据并在将来使用它,从而降低成本。可能吗?由于顶点人工智能是谷歌的新产品,我们无法找到任何解决方案。有人可以帮我吗?
google-cloud-platform - 在 X 分钟不活动后自动关闭 Google Cloud AI Notebook
在使用 Google AI 笔记本一段时间后,我想知道是否可以将笔记本配置为在几分钟不活动后自动关闭。也欢迎任何其他在给定时间后自动关闭这些笔记本的方式。
我尝试并查看了设置,但只找到了自定义脚本作为解决方案(我不确定这是正确的解决方案)。