问题标签 [google-cloud-data-fusion]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-data-fusion - 在云数据融合中转换为日期
我们如何在云数据融合中将字符串转换为日期?
我有一列的值为 20191120(格式为 yyyyMMdd),我想将其作为日期加载到 bigquery 中的表中。表列数据类型也是日期。
到目前为止,我尝试的是,我使用“parse-as-simple-date”将字符串转换为时间戳,并尝试使用 format-date 将其转换为格式为“yyyy-MM-dd”,但这一步将其转换串起来,最终加载失败。我什至尝试在 o/p 模式中将列作为日期明确提及为日期。但它在运行时失败。
我尝试将其作为时间戳保留在管道中,并尝试将日期加载到 Bigquery 日期类型中。
我注意到 op 出现的错误是字段 dt_1 与 avro 整数不兼容。在加载之前,数据融合是否在内部将提取物转换为 avro。AVRO 没有导致问题的日期数据类型?
google-cloud-data-fusion - 数据融合管道-牧马人转换不起作用
数据融合管道源是 GCS Wrangler 中的 csv 文件 --> 尝试验证如下所示的几列
Mobile_Number(column) --> 发送到错误 --> 值匹配正则表达式 ->^[0]?[789]\d{9}$
当添加类似的转换时,牧马人因错误而失败。以及如何检查在验证期间过滤的记录。我什至找不到哪个验证失败。
google-cloud-data-fusion - Cloud Data Fusion Pipeline 中的 SCD 类型 2 实施
我需要在我的数据融合管道中应用 SCD2 ,我的源数据是 GCS ,目标是 BigQuery 。我已经创建了管道并且能够将数据加载到目标 BigQery 中,所以现在我想将合并和更新过程作为 SCD2 的一部分来实现。你能帮我吗,因为我是谷歌云数据融合的新手。
google-cloud-platform - 设置 Datafusion 实例以连接到安全的 Dataproc 集群
我们有一个安全的 Dataproc 集群,我们能够通过以下命令使用单个用户 ID 成功地通过 SSH 连接到其中:
但是,当我们创建配置文件并将其附加到 Data Fusion 实例并配置管道以运行时,它会引发连接超时:
我们如何配置 Data Fusion 管道以使用安全的 Dataproc 集群运行?请告诉我。
google-cloud-data-fusion - 牧马人 - 选择数据
从下载的 json 导入管道后,当我单击 Wrangle 属性时,我得到以下无法加载页面。如何修改牧马人的数据?
谢谢, 阿鲁娜·贾亚巴鲁
normalization - 使用 Data Fusion 将 BigQuery 表(源,包含 ARRAY/STRUCT)通过将“Wrangler”转换为相应的“规范化”BigQuery 表
(1)有一个 BigQuery 源表,例如 ...
从理性表的角度来看,“OrderId”应该是键。
(2)现在我想将 ARRAY/STRUCT 记录规范化为单独的表。为了实现这一点,我使用了变换“牧马人”。
注意:它是 Data Fusion 工作室传输部分的“牧马人”!当尝试通过汉堡菜单打开“牧马人”并选择 BQ 源表时,它告诉您:不支持 BigQuery 类型 STRUCT。
源表的输出链接到 Wrangler 的输入。
在牧马人我定义...
- 输入字段名称:*
- 前提条件:假
- 指令/配方:保持 combiOrderId,items,articleId,quantity
- Output Schema (Name | Type | Null): -- (根据源表,下面附上JSON)
combiOrderId | string | yes items | array | no record [ {articleId | string | yes}, {quantity | float | yes} ]
(3) BQ sink table 以 Wrangler Output 作为 Input Schema,我将最终 schema 定义为 (Name | Type | Null)
combiOrderId | string | yes
articleId | string | yes
quantity | float | yes
现在,在运行管道(预览模式)时,将记录以下错误消息:
转换为输出记录的问题。原因:无法解码数组“项目”
(下面的完整消息)
任何提示或替代解决方案都将受到欢迎:-)
谢谢你。
牧马人输出模式的 JSON:
完整(第一个)错误日志:
google-cloud-data-fusion - regex_path_filter 如何在 GCP 中 DATA FUSION 管道的 GCSFile 属性中工作
在 GCP 的数据融合管道中,GCSFile 属性有一个名为“Regex path filter”的字段。它是如何工作的?。我没有得到这方面的适当文件。
amazon-web-services - 如何允许 Google Cloud Data Fusion 连接到 AWS RDS MySQL 数据库?
我在 Google Cloud Data Fusion Pipeline 中配置数据库连接时出错。
“在获取查询架构时遇到 SQL 错误:通信链路故障最后一个成功发送到服务器的数据包是 0 毫秒前。驱动程序没有收到来自服务器的任何数据包。”
由于公司 IP 已在 AWS 安全设置中列入白名单,因此我们无法在公司大楼外进行连接。我可以在公司内部使用 mysql 工作台轻松查询,所以我猜我需要向我们的 AWS 安全组添加一些 IP 以提供数据融合权限?我找不到这方面的指导方针。我在哪里可以找到 AWS 中需要提供的 ip?(假设这可能会解决它)
我使用“mysql-connector-java-8.0.17.jar”添加了一个 mysql 插件工件,插件名称为“mysql-connector-java”。
plugins - 在 Datafusion 中上传 PostAction 插件的问题
我们正在尝试为 Datafusion 实现一个自定义的 post action 插件。插件构建成功。当我尝试上传 Jar 和 Json 文件时。它失败并出现以下错误
如何在构建时调试此问题,我们没有看到任何问题。
google-cloud-data-fusion - Cloud Datafusion 中的 SPARK 加入策略
在云Datafusion
中,我使用连接器转换来连接两个表。
其中一个是一个大约有 87M 连接的大表,而另一个是一个只有约 250 条记录的小表。我在连接器中使用了 200 个分区。
这会导致以下故障:
org.apache.spark.SparkException:作业因阶段失败而中止:阶段 7.0 中的任务 50 失败 4 次,最近一次失败:阶段 7.0 中丢失任务 50.3(TID xxx,cluster_workerx.c.project.internal,执行程序 6): ExecutorLostFailure(由于其中一项正在运行的任务导致执行器 6 退出) 原因:执行器心跳在 133355 毫秒后超时 java.util.concurrent.ExecutionException: java.lang.RuntimeException: org.apache.spark.SparkException: Application application_xxxxx finished with failed status
仔细查看 Spark UI 的 200 个 Join 任务,87m 条记录中有近 80% 进入一个任务 O/P,该任务 O/P 因心跳错误而失败,而成功的任务几乎没有记录 O/P ~<10k记录
似乎 spark 执行了一个随机哈希连接,在 datafusion/cdap 中是否有一种方法可以强制广播连接,因为我的一个表非常小?或者我可以对集群配置进行配置更改以使此加入工作吗?
我可以在数据融合管道中进行哪些性能调整。我没有找到对配置的任何参考,在 Datafusion 文档中进行了调整