问题标签 [azure-data-factory]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1223 浏览

azure - 使用 Azure 数据湖进行分析

目前,作为我们要求的一部分,我们正在使用以下 Azure 组件

  • Azure 事件中心

  • Azure 流分析

  • Azure 表存储

  • Azure Sql 数据库

基本上有了前 3 个组件,我们将构建一个分析和报告平台。

目前,我们刚刚开始分析 Azure 表存储中的数据并将其显示在分析仪表板中。

最近我们遇到了一个新的 Azure 产品Azure Data Lake。在微软网站上做一些研究,我们可以看到我们可以轻松地将数据从 Azure 表存储(在 Azure 数据工厂的帮助下)迁移到 Azure Lake Store。使用 Azure Data Lake 和 Azure Data Factory 创建大数据管道

当我们浏览上述链接时,提到我们需要创建一个 Azure Data Lake Analytics 管道来处理数据。

所以不清楚的是分析输出数据将保存在哪里。我们是否需要将分析输出保存到某个数据库?或者我们可以通过 Http 请求进行实时分析吗?

我们在 Azure 表存储中有大量记录行,这些记录将被移动到 Azure Data Lake。对于这种情况,这是一个不错的选择,还是我们可以从 Azure 表存储本身采用基于分析的解决方案。

请分享你的想法

0 投票
3 回答
6076 浏览

azure - Azure Data Lake:对 Azure Data Lake Store 的请求未经授权

我们正在尝试将数据从 Azure 表存储移动到 Azure Data Lake。所以我们创建了一个数据工厂(带有链接的服务、数据集和管道)。管道是使用复制操作创建的。

我们选择“Azure Data Lake Store”的链接服务之一,我们授权配置,最终配置如下

创建管道后,似乎正在发生数据移动。但是我们收到了这个错误

复制活动遇到用户错误:ErrorCode=UserErrorAdlsUnauthorizedAccess,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=对“Azure Data Lake Store”的请求未经授权,Source=Microsoft.DataTransfer.ClientLibrary,''Type= System.Net.WebException,Message=远程服务器返回错误:(403) Forbidden.,Source=System,'

从这个错误来看,我们似乎有一个未经授权的请求。但如上所述,我们正确授权了 Azure Data Lake 存储链接服务。

任何人都可以让我们知道,这个错误的可能情况是什么,以及我们需要在这里做什么。

0 投票
1 回答
4270 浏览

azure-data-factory - 错误 VertexFailedFast。顶点失败触发快速作业中止

我正在运行数据湖 - 分析作业,但出现以下错误

错误 VertexFailedFast。顶点失败触发快速作业中止。顶点失败:SV1_Extract[0][0] 错误:顶点用户代码错误。描述 顶点因快速失败错误而失败

有人知道为什么会这样吗?

0 投票
3 回答
1586 浏览

azure - Azure 数据工厂地理或几何数据类型

我一直在尝试设置 Azure 数据工厂(迄今为止未成功)。我有 2 个 Azure SQL 数据库,它们都在同一台服务器上(在同一个订阅中)

在这两个数据库中,我都有一个具有以下架构的表

我想使用数据工厂将数据从一个数据库表传输到第二个数据库中的同一结构化表。

数据工厂是否支持 Geography/Geometry 数据类型?

我还研究了使用 Azure 数据同步来执行此操作 - 不幸的是,表中的每一行对于单个数据同步事务来说都太大了(表包含使用地理数据类型的复杂国家边界)。

例子

我看到的另一种方法是使用引用表,但不幸的是,引用表也不支持 Geography/Geometry 数据类型。

0 投票
5 回答
1237 浏览

visual-studio - 无法构建/发布 Azure 数据工厂应用程序

我尝试在 Visual Studio 2015 中创建的每个数据工厂应用程序,甚至是示例应用程序,都无法构建或发布,原因是:

“你调用的对象是空的。” 每个 .json 文件都有错误。

是否有一些我缺少的重要配置或我需要添加到项目中的一些依赖项?谢谢

0 投票
1 回答
344 浏览

azure-data-factory - 数据工厂 Blob 源 - 列标题有意义

我有一堆 csv 文件加载到 Azure blob 存储中,具有以下结构:

文件 1

日期,T1SensorFG1,T1SensorFG2,T1SensorFG3

2016 年 1 月 1 日、200、300、400

文件2

日期、T2SensorFG1、T2SensorFG2、T2SensorFG3

2016 年 1 月 1 日, 300,250, 345

因此,本质上,两组传感器(T1 和 T2)在一个时间点发出三个读数。

我需要读取这些数据并将列标题应用于行,以便在后续处理之前知道每个读数来自哪个银行。

理想情况下,管道的结果应该是这样的:

银行、日期、FG1、FG2、FG3

T1, 2016 年 1 月 1 日, 200, 300, 400

T2, 1/1/16, 300, 250, 345

如果这更容易,我会对旋转结果同样满意:

银行、日期、传感器、值

T1,2016 年 1 月 1 日,FG1,200

T1,1/1/16,FG2,300

T1,1/1/16,FG3,400

ETC

我想不通,我不敢相信这是不可能的。

Azure Blob 是源。Destination/Sink 可以是 blob 和/或 Azure SQL DB

请有人可以为我提供一些解决此问题的指示。

非常感谢

史蒂夫

0 投票
2 回答
2468 浏览

csv - 数据工厂 azure blob 源 - 通配符

我被引导相信您可以在 Azure Blob 表源对象中使用通配符文件名属性。

我只想从与我不想处理的其他文件位于同一目录中的 blob 存储中获取某些 csv 文件:

IE

根/数据/GUJH-01.csv

根/数据/GUJH-02.csv

根/数据/DFGT-01.csv

我想处理 GUJH*.csv 而不是 DFGT-01.csv

这可能吗?如果是这样,为什么我的 blob 源验证失败,通知我文件不存在(消息报告根/数据 blob 不存在。

提前致谢。

0 投票
1 回答
544 浏览

azure - 授权超时:Azure 数据工厂中的 Azure Data Lake Store 配置

在数据工厂的帮助下,我们正在将数据从 Azure 表存储移动到 Azure Data Lake Store。作为我添加连接到 Azure Data Lake Store 的链接服务的一部分。

对于此 Azure Data Lake Store 链接服务,有一个授权按钮。我们已授权,我们能够成功地将数据移动到 Azure Data Lake Store。

但问题是一段时间后授权到期并且请求变得未经授权。然后我需要重新授权连接信息。

我需要避免这一步,在超时后每次都授权请求。怎么办?请分享任何有用的链接

0 投票
1 回答
887 浏览

azure - Azure Data Lake Store:在不同订阅中从数据工厂写入 ADLS 时请求未经授权

问题是,如果没有为 Data Lake Store 中的所有用户和组启用读/写/执行访问权限,我无法从另一个订阅中的 Azure 数据工厂写入一个 Azure 订阅中的 Azure Data Lake Store。我知道我也在 ADF 链接服务中为 Data Lake Store 正确设置了授权,所以这不是问题。以下是详细信息:

我有一个由我在公司的主要 Azure 订阅下创建的 Azure Data Lake Store (ADLS)(在此子中,我是一名共同管理员,可以访问除创建/修改其他用户之外的所有内容)。

我在自己的与 MSDN 相关的 Azure 订阅下有一个 Azure 数据工厂 (ADF),我正在尝试将 ADLS 用作复制活动的接收器。

我使用相同的登录名来访问门户中的两个 Azure 订阅,当我运行我的管道时,我收到一个 (403) Forbidden 错误,带有ErrorCode=UserErrorAdlsUnauthorizedAccess.

到目前为止我所尝试的

我按照这里的说明https://azure.microsoft.com/en-us/documentation/articles/data-lake-store-secure-data/并将自己添加到 AAD 组。但是,当我将组添加为数据存储的所有者时,Azure 找不到该组,因此我无法添加它。

AAD集团

数据湖存储订阅中的 Azure Active Directory 组

找不到 AAD 组

在此处输入图像描述

我还尝试将自己添加为数据存储中 OWNER 角色的用户(通过用户刀片),并且我在数据湖存储的访问刀片中具有读/写/执行访问权限。还添加了另一个开发人员作为所有者,并具有读/写/执行访问权限,但产生了相同的结果。

我被分配为数据湖存储的用户

在此处输入图像描述

我授予对数据湖存储文件系统的访问权限

在此处输入图像描述

当我尝试运行 ADF 管道或重新运行任何失败的切片时,这两种方法都会导致相同的 403 未授权错误。唯一对我有用的是为所有用户和组启用 READ/WRITE/EXECUTE 访问权限:

在此处输入图像描述

我尝试了写/执行和只写,但这些组合都不起作用。当我现在启用它并重新运行失败的切片时,一切都会成功完成,并且数据会写入 Data Lake Store。

有没有办法从另一个订阅写入数据湖存储而不像这样打开访问权限?我会这么认为,因为您可以在 Data Lake Store Linked Service 中指定订阅,但到目前为止我还不能这样做......

0 投票
1 回答
617 浏览

azure-data-factory - Azure 数据工厂管道在部署时停留在“PendingUpdate”预配状态

在过去的几个小时里,我遇到了一个问题,在部署管道后,它进入配置状态,然后卡在那里。

然后它最终会因以下两个错误之一而失败:“无法访问服务”或“内部服务器错误”。管道状态卡在“Pending Update”

我什至从头开始创建了一个数据工厂,创建了新的链接服务和数据集,并在该数据工厂中创建了管道,同样的事情正在发生。

什么可能导致此问题?

我必须补充一点,我正在使用 DF 并部署管道,一切进展顺利,这是一个突然的问题。