问题标签 [google-cloud-vertex-ai]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
89 浏览

google-cloud-platform - GCP - 顶点 AI 模型 - 访问 GCS 失败

我们有一个使用自定义图像创建的 Vertex AI 模型。我们正在尝试在启动时访问存储桶,但出现以下错误:

问题是我找不到错误中提到的服务帐户来授予它正确的访问权限..

0 投票
1 回答
419 浏览

google-cloud-platform - 如何在 Vertex AI 中访问 AIP_STORAGE_URI?

我上传了一个模型

在我访问的 docker 中AIP_STORAGE_URI。我看到这AIP_STORAGE_URI是另一个 Google 存储位置,所以我尝试使用下载文件,storage.Client()但它说我无权访问:

我正在使用默认服务帐户运行此端点。

https://cloud.google.com/vertex-ai/docs/predictions/custom-container-requirements#artifacts

根据上面的链接: The service account that your container uses by default has permission to read from this URI.

我究竟做错了什么?

0 投票
1 回答
91 浏览

google-cloud-platform - 当 Vertex AI 训练作业失败(尝试 3 次后)时,如何创建 Logs Router Sink?

我正在运行Vertex AI custom training job(使用自定义容器进行机器学习训练)GCP。我想Pub/Sub在作业失败时创建一条消息,以便我可以在 Slack 等聊天中发布消息。日志文件(Cloud Logging)看起来像这样:

我正在使用以下查询创建日志路由器接收器:

我面临的问题是 Vertex AI 在将作业声明为失败之前会重试作业 3 次,但在日志文件中消息是相同的。下面你有 3 个例子,只有最后一个失败了 3 次的例子最后真的失败了。 在此处输入图像描述

例如,在日志文件中,我没有任何计数 ID。知道如何解决这个问题吗?如果我需要在我的所有项目中这样做,那么创建一个 BigQuery 表来跟踪每次失败的次数resource.labels.job_id似乎有点过头了。有没有办法resource.labels.job_id在 Logs Router Sink 中进行分组和计数?

0 投票
0 回答
57 浏览

google-cloud-platform - 我可以重新训练 AutoML 表格模型吗

我在谷歌云上使用 AutoML 训练了一个表格数据模型。生成的模型是 25 个模型的集合。现在,当我获得增量数据时,谷歌是否允许重新训练,即使从头开始也可以,但是这个特定的集合?还是每次都必须进行全新的模型架构搜索,因为模型架构似乎不太可能快速更改,因此在计算方面非常浪费。我知道有几个类似的问题,但没有一个完全相同,而且我还没有看到直接适用于我的问题的答案。

0 投票
0 回答
102 浏览

mlops - 如何使用自定义 sklearn 代码创建 MLOps 顶点 ai 管道?

我正在尝试使用顶点 ai 构建 MLOps 管道,但未能部署它

gcc_aip.ModelDeployOp 抛出错误,应该传递正确的模型 ID 或名称

0 投票
0 回答
72 浏览

google-cloud-ml - 在 Vertex AI Auto ML 模型中设置自定义 IOU 阈值

调用模型端点时手动设置 IOU 阈值的最佳方法是什么?

在示例 API 中发出 python 请求时,很明显您可以设置置信度和最大预测数……但是如何设置 IoU 阈值?

IOU 阈值作为更改 Python 请求中的参数集的指标。

Google 提供的示例请求。 https://github.com/googleapis/python-aiplatform/blob/master/samples/snippets/predict_image_object_detection_sample.py

0 投票
0 回答
183 浏览

google-cloud-platform - 在 GCP 中创建参数化 Vertex AI 管道

在我们的应用程序中,我们目前公开了一个 UI,用户可以在其中选择一些基本设置(模型类型、输入特征、超参数)来指定预测模型。每次用户指定这样的模型时,后端 python 应用程序都会查看这些设置,从相关数据库中提取训练数据,训练相关模型并存储模型文件,然后在预测时使用该文件。然后根据固定频率重新训练模型。我们正在寻求用 GCP 替换整个流程,但我不确定这方面的正确方法。我最初的想法是将整个后端应用程序编写为单个 VertexAI 管道,只要用户指定模型,管道就会运行并创建和部署模型(自定义或 AutoML),然后在预测时使用该模型。我不确定我是否可以执行以下操作:

  1. 由于每次用户指定模型时都会运行一个管道,因此需要对管道进行参数化。假设用户为指标 A 指定模型,管道创建并部署模型 1,然后对于指标 B,管道部署模型 2,依此类推。所以管道需要参数化。
  2. 我们真的可以从管道中的不同来源(BigQuery、Cloud Storage 除外)提取数据吗?
  3. 我如何分别为每个模型安排管道运行,即模型 A 需要每两周训练一次,模型 B 需要每周训练一次等。由于只有 1 个管道和许多已部署的模型,我什至不知道如何设置管道的调度。

我对 GCP Vertex AI 和探索事物还比较陌生,所以我不确定我是否走在正确的道路上。这个用例的单个管道是否有意义,或者我是否应该考虑编写一个自定义 python 应用程序,然后在每次请求模型时创建一个新管道?

0 投票
1 回答
118 浏览

google-cloud-platform - Automl SDK 代码具有来自 bigquery 的文件位置,但在预测时出现问题

我正在使用 AI Platform 中的 GCP automl sdk 模块创建模型(使用 bigquery 表作为训练和预测的输入)并使用 batch_prediction 进行预测。问题是代码运行良好,但预测的输出表为空,并且错误表包含来自预测数据帧和添加列的所有系列,说明错误代码 3,错误是“时间序列没有要预测的值。时间序列已经排除在预测之外。”。

我用于模型训练的代码:

预测代码:

请建议这里可能出了什么问题。

0 投票
1 回答
400 浏览

google-ai-platform - 自动缩放 VertexAI 管道组件

我正在探索 VertexAI 管道,并了解它是 AI Platform 管道(您必须部署 GKE 集群才能运行 Kubeflow 管道)的托管替代方案。我不清楚的是 VertexAI 是否会根据负载自动缩放集群。在对类似问题的回答中,提到对于使用 GCP 资源(如 Dataflow 等)的管道步骤,将自动完成自动缩放。在google docs中,提到对于组件,可以设置资源,例如 CPU_LIMIT GPU_LIMIT 等。我的问题是,是否可以为任何类型的组件(即 Google Cloud 管道组件或自定义组件)设置这些限制,无论是基于 Python 函数还是那些打包为容器映像的组件?其次,这些限制是否意味着组件资源将自动缩放直到达到这些限制?如果甚至没有指定这些选项会发生什么,那么资源是如何分配的,它们会按照 VertexAI 认为合适的方式自动缩放吗?

相关文档和资源的链接将非常有帮助。

0 投票
1 回答
181 浏览

google-cloud-platform - 跟踪 VertexAI 管道使用的资源

是否可以跟踪 VertexAI 管道运行所消耗的资源,类似于对 Dataflow 的执行方式,它显示当前正在运行多少个节点以执行管道的实时图表?