问题标签 [azure-data-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1223 浏览

azure - 使用 Azure 数据湖进行分析

目前,作为我们要求的一部分,我们正在使用以下 Azure 组件

  • Azure 事件中心

  • Azure 流分析

  • Azure 表存储

  • Azure Sql 数据库

基本上有了前 3 个组件,我们将构建一个分析和报告平台。

目前,我们刚刚开始分析 Azure 表存储中的数据并将其显示在分析仪表板中。

最近我们遇到了一个新的 Azure 产品Azure Data Lake。在微软网站上做一些研究,我们可以看到我们可以轻松地将数据从 Azure 表存储(在 Azure 数据工厂的帮助下)迁移到 Azure Lake Store。使用 Azure Data Lake 和 Azure Data Factory 创建大数据管道

当我们浏览上述链接时,提到我们需要创建一个 Azure Data Lake Analytics 管道来处理数据。

所以不清楚的是分析输出数据将保存在哪里。我们是否需要将分析输出保存到某个数据库?或者我们可以通过 Http 请求进行实时分析吗?

我们在 Azure 表存储中有大量记录行,这些记录将被移动到 Azure Data Lake。对于这种情况,这是一个不错的选择,还是我们可以从 Azure 表存储本身采用基于分析的解决方案。

请分享你的想法

0 投票
1 回答
359 浏览

azure-data-lake - ADF 触发的 ADL 作业因语法错误而失败

我正在尝试运行从 Visual Studio 中成功运行的作业。我想在我的 ADF 管道中运行它,但作业因语法错误而失败。

编辑:我用 USE DATABASE 语句都试过了,我把它注释掉了,如上所示;### 在任何一种情况下都出现在完全相同的位置。EDIT2:添加来自@michael-rys 的每个请求的连续代码行稍后在脚本中,参数@outSlice 用于输出语句,如

该参数在管道活动中确定。片段如下:

0 投票
1 回答
614 浏览

azure-data-lake - 我如何知道何时会在 Azure 数据湖分析中触发并行性?

我有 Azure 数据湖分析作业,它使用 U-SQL 用户定义的运算符处理存储在 Azure 数据湖存储中的大约 380 万条记录。

在第一次运行时,我将并行度设置为 10,而在第二次运行时,我使用了并行度等于 1。令人惊讶的是,我两次执行的工作持续时间是相同的(大约 1.5 小时)。所以看起来我的工作没有触发并行性。是因为我使用了用户定义的运算符吗?我想知道如何确定何时触发并行性以及何时不触发?

0 投票
3 回答
6076 浏览

azure - Azure Data Lake:对 Azure Data Lake Store 的请求未经授权

我们正在尝试将数据从 Azure 表存储移动到 Azure Data Lake。所以我们创建了一个数据工厂(带有链接的服务、数据集和管道)。管道是使用复制操作创建的。

我们选择“Azure Data Lake Store”的链接服务之一,我们授权配置,最终配置如下

创建管道后,似乎正在发生数据移动。但是我们收到了这个错误

复制活动遇到用户错误:ErrorCode=UserErrorAdlsUnauthorizedAccess,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=对“Azure Data Lake Store”的请求未经授权,Source=Microsoft.DataTransfer.ClientLibrary,''Type= System.Net.WebException,Message=远程服务器返回错误:(403) Forbidden.,Source=System,'

从这个错误来看,我们似乎有一个未经授权的请求。但如上所述,我们正确授权了 Azure Data Lake 存储链接服务。

任何人都可以让我们知道,这个错误的可能情况是什么,以及我们需要在这里做什么。

0 投票
1 回答
1398 浏览

azure-data-lake - AdlCopy 目标参数的 URI 类型

AdlCopy.exe用于将数据从 Azure Blob 存储移动到 Azure Data Lake Store 的实用程序文档中,所有示例都显示swebhdfs:URI 前缀。

例如:

https://azure.microsoft.com/en-us/documentation/articles/data-lake-store-copy-data-azure-storage-blob/

但是,在 Data Lake Store 帐户的 Azure 门户页面中,列出了两个不同的“地址”——一个带有前缀的“URL”https:和一个带有前缀的“ADL URI” adl:

例如:

网址

https://mydatalakestore.azuredatalakestore.net

动态链接地址

adl://mydatalakestore.azuredatalakestore.net

所有这些不同的“地址”是否等效且可以相互替代,尤其是与实用程序的/dest参数一起使用时AdlCopy.exe

0 投票
1 回答
4270 浏览

azure-data-factory - 错误 VertexFailedFast。顶点失败触发快速作业中止

我正在运行数据湖 - 分析作业,但出现以下错误

错误 VertexFailedFast。顶点失败触发快速作业中止。顶点失败:SV1_Extract[0][0] 错误:顶点用户代码错误。描述 顶点因快速失败错误而失败

有人知道为什么会这样吗?

0 投票
1 回答
879 浏览

azure - Azure .Net SDK Error : FsOpenStream failed with error 0x83090aa2

We are trying to download a file present in Data Lake Store. I have been following the below tutorial which uses .Net Azure SDk.

https://azure.microsoft.com/en-us/documentation/articles/data-lake-analytics-get-started-net-sdk/

As we have already the file present in Azure Data Lake Store , I just added the code to download the file

But it's failing with the below error

{"RemoteException":{"exception":"RuntimeException","message":"FsOpenStream failed with error 0x83090aa2 (). [83271af3c3a14973ad7814e7d9d201f6]","javaClassName":"java.lang.RuntimeException"}}

While debugging we inspected the beginOpenResponse.Location that been used in the second line code. It seems to the correct value as below

https://XXXXXXXX.azuredatalakestore.net/webhdfs/v1/XXXX/XXX/test.csv?op=OPEN&api-version=2015-10-01-preview&read=true

The error does not provide much information to track down the problem.

0 投票
1 回答
291 浏览

azure - 根据列值将数据移动到不同的输出文件夹

现在我们在 Azure Data Lake Store 中有数据,现在正在使用带有 U-SQL 的 Azure 数据分析作业处理那里的数据。现在我们有一个需求,我们需要根据存在的列值将数据推送到不同的输出文件夹中。

假设一旦我们处理数据并且我们有如下输出

身份证 | 姓名 | 公司

1 Midhun测试

2 Midhun2 测试2

所以我想将第一个记录移动到名为“test”\result.tsv 的输出文件夹,第二个移动到输出文件夹到“test2”\result.tsv

我能在 U-SQL 中做到这一点吗?我没有找到任何关于 U-SQL 的好的参考文档。有知道的可以分享一下链接吗。

0 投票
1 回答
407 浏览

azure - U-SQL 作业不访问 Azure SQL 数据库

我试图按照指南使用 Azure Data Lake 分析从 Azure SQL 数据库中检索数据。我在 Azure Data Lake 分析上运行 U-SQL 作业并收到以下错误:

无法连接到数据源:“SampleSource”,出现错误:“无法打开服务器”登录请求。不允许 IP 地址为“25.66.9.211”的客户端访问服务器。要启用访问,请使用 Windows Azure 管理门户或在 master 数据库上运行 sp_set_firewall_rule 来为此 IP 地址或地址范围创建防火墙规则。此更改最多可能需要五分钟才能生效。

在运行我的工作几次后,我观察到需要在服务器中添加的 IP 范围非常宽。看来我们需要添加 25.66.xxx.xxx。我有两个问题:

  1. 我们如何缩小这个范围?
  2. 为什么允许所有 Azure 服务访问的典型设置不起作用?
0 投票
1 回答
544 浏览

azure - 授权超时:Azure 数据工厂中的 Azure Data Lake Store 配置

在数据工厂的帮助下,我们正在将数据从 Azure 表存储移动到 Azure Data Lake Store。作为我添加连接到 Azure Data Lake Store 的链接服务的一部分。

对于此 Azure Data Lake Store 链接服务,有一个授权按钮。我们已授权,我们能够成功地将数据移动到 Azure Data Lake Store。

但问题是一段时间后授权到期并且请求变得未经授权。然后我需要重新授权连接信息。

我需要避免这一步,在超时后每次都授权请求。怎么办?请分享任何有用的链接