“google-cloud-data-fusion”的相关标签问题

0 投票

3 回答

2932 浏览

google-cloud-data-fusion - 在云数据融合中转换为日期

我们如何在云数据融合中将字符串转换为日期？

我有一列的值为 20191120（格式为 yyyyMMdd），我想将其作为日期加载到 bigquery 中的表中。表列数据类型也是日期。

到目前为止，我尝试的是，我使用“parse-as-simple-date”将字符串转换为时间戳，并尝试使用 format-date 将其转换为格式为“yyyy-MM-dd”，但这一步将其转换串起来，最终加载失败。我什至尝试在 o/p 模式中将列作为日期明确提及为日期。但它在运行时失败。

我尝试将其作为时间戳保留在管道中，并尝试将日期加载到 Bigquery 日期类型中。

我注意到 op 出现的错误是字段 dt_1 与 avro 整数不兼容。在加载之前，数据融合是否在内部将提取物转换为 avro。AVRO 没有导致问题的日期数据类型？

google-cloud-data-fusion cdap

2019-12-07T11:55:02.430

0 投票

0 回答

328 浏览

google-cloud-data-fusion - 数据融合管道-牧马人转换不起作用

数据融合管道源是 GCS Wrangler 中的 csv 文件 --> 尝试验证如下所示的几列

Mobile_Number(column) --> 发送到错误 --> 值匹配正则表达式 ->^[0]?[789]\d{9}$

当添加类似的转换时，牧马人因错误而失败。以及如何检查在验证期间过滤的记录。我什至找不到哪个验证失败。

google-cloud-data-fusion

2019-12-10T11:56:57.347

0 投票

1 回答

336 浏览

google-cloud-data-fusion - Cloud Data Fusion Pipeline 中的 SCD 类型 2 实施

我需要在我的数据融合管道中应用 SCD2 ，我的源数据是 GCS ，目标是 BigQuery 。我已经创建了管道并且能够将数据加载到目标 BigQery 中，所以现在我想将合并和更新过程作为 SCD2 的一部分来实现。你能帮我吗，因为我是谷歌云数据融合的新手。

google-cloud-data-fusion scd2

2019-12-12T11:28:51.607

0 投票

1 回答

617 浏览

google-cloud-platform - 设置 Datafusion 实例以连接到安全的 Dataproc 集群

我们有一个安全的 Dataproc 集群，我们能够通过以下命令使用单个用户 ID 成功地通过 SSH 连接到其中：

但是，当我们创建配置文件并将其附加到 Data Fusion 实例并配置管道以运行时，它会引发连接超时：

我们如何配置 Data Fusion 管道以使用安全的 Dataproc 集群运行？请告诉我。

google-cloud-platform google-cloud-dataproc google-cloud-iam google-cloud-data-fusion

2019-12-13T12:06:40.307

0 投票

0 回答

56 浏览

google-cloud-data-fusion - 牧马人 - 选择数据

从下载的 json 导入管道后，当我单击 Wrangle 属性时，我得到以下无法加载页面。如何修改牧马人的数据？

谢谢，阿鲁娜·贾亚巴鲁

google-cloud-data-fusion

2019-12-17T10:50:33.810

0 投票

1 回答

1290 浏览

normalization - 使用 Data Fusion 将 BigQuery 表（源，包含 ARRAY/STRUCT）通过将“Wrangler”转换为相应的“规范化”BigQuery 表

(1)有一个 BigQuery 源表，例如 ...

从理性表的角度来看，“OrderId”应该是键。

(2)现在我想将 ARRAY/STRUCT 记录规范化为单独的表。为了实现这一点，我使用了变换“牧马人”。

注意：它是 Data Fusion 工作室传输部分的“牧马人”！当尝试通过汉堡菜单打开“牧马人”并选择 BQ 源表时，它告诉您：不支持 BigQuery 类型 STRUCT。

源表的输出链接到 Wrangler 的输入。

在牧马人我定义...

输入字段名称：*
前提条件：假
指令/配方：保持 combiOrderId,items,articleId,quantity
Output Schema (Name | Type | Null): -- （根据源表，下面附上JSON） combiOrderId | string | yes items | array | no record [ {articleId | string | yes}, {quantity | float | yes} ]

牧马人参数屏幕

现在，在运行管道（预览模式）时，将记录以下错误消息：

转换为输出记录的问题。原因：无法解码数组“项目”

（下面的完整消息）

任何提示或替代解决方案都将受到欢迎:-)

谢谢你。

牧马人输出模式的 JSON：

完整（第一个）错误日志：

normalization google-cloud-data-fusion

2019-12-18T11:48:25.550

0 投票

1 回答

343 浏览

google-cloud-data-fusion - regex_path_filter 如何在 GCP 中 DATA FUSION 管道的 GCSFile 属性中工作

在 GCP 的数据融合管道中，GCSFile 属性有一个名为“Regex path filter”的字段。它是如何工作的？。我没有得到这方面的适当文件。

google-cloud-data-fusion

2019-12-30T03:41:39.293

0 投票

2 回答

899 浏览

amazon-web-services - 如何允许 Google Cloud Data Fusion 连接到 AWS RDS MySQL 数据库？

我在 Google Cloud Data Fusion Pipeline 中配置数据库连接时出错。

“在获取查询架构时遇到 SQL 错误：通信链路故障最后一个成功发送到服务器的数据包是 0 毫秒前。驱动程序没有收到来自服务器的任何数据包。”

由于公司 IP 已在 AWS 安全设置中列入白名单，因此我们无法在公司大楼外进行连接。我可以在公司内部使用 mysql 工作台轻松查询，所以我猜我需要向我们的 AWS 安全组添加一些 IP 以提供数据融合权限？我找不到这方面的指导方针。我在哪里可以找到 AWS 中需要提供的 ip？（假设这可能会解决它）

我使用“mysql-connector-java-8.0.17.jar”添加了一个 mysql 插件工件，插件名称为“mysql-connector-java”。

amazon-web-services google-cloud-data-fusion

2020-01-02T02:03:53.007

0 投票

0 回答

72 浏览

plugins - 在 Datafusion 中上传 PostAction 插件的问题

我们正在尝试为 Datafusion 实现一个自定义的 post action 插件。插件构建成功。当我尝试上传 Jar 和 Json 文件时。它失败并出现以下错误

如何在构建时调试此问题，我们没有看到任何问题。

plugins google-cloud-data-fusion

2020-01-03T05:26:42.617

0 投票

1 回答

352 浏览

google-cloud-data-fusion - Cloud Datafusion 中的 SPARK 加入策略

在云Datafusion中，我使用连接器转换来连接两个表。

其中一个是一个大约有 87M 连接的大表，而另一个是一个只有约 250 条记录的小表。我在连接器中使用了 200 个分区。

这会导致以下故障：

org.apache.spark.SparkException：作业因阶段失败而中止：阶段 7.0 中的任务 50 失败 4 次，最近一次失败：阶段 7.0 中丢失任务 50.3（TID xxx，cluster_workerx.c.project.internal，执行程序 6）： ExecutorLostFailure（由于其中一项正在运行的任务导致执行器 6 退出）原因：执行器心跳在 133355 毫秒后超时 java.util.concurrent.ExecutionException: java.lang.RuntimeException: org.apache.spark.SparkException: Application application_xxxxx finished with failed status

仔细查看 Spark UI 的 200 个 Join 任务，87m 条记录中有近 80% 进入一个任务 O/P，该任务 O/P 因心跳错误而失败，而成功的任务几乎没有记录 O/P ~<10k记录

似乎 spark 执行了一个随机哈希连接，在 datafusion/cdap 中是否有一种方法可以强制广播连接，因为我的一个表非常小？或者我可以对集群配置进行配置更改以使此加入工作吗？

我可以在数据融合管道中进行哪些性能调整。我没有找到对配置的任何参考，在 Datafusion 文档中进行了调整

google-cloud-data-fusion cdap

2020-01-10T07:17:50.970

问题标签 [google-cloud-data-fusion]

Reference