问题标签 [azure-data-lake]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1918 浏览

azure - U-SQL(Azure 数据湖语言)脚本错误

使用Data Lake Analytics 教程中的示例脚本,构建脚本时出现以下错误:

错误行是脚本的最后一行。本教程中的脚本确实以 OUTPUT 语句结束,语法错误表明这是预期的。

有什么想法吗?

0 投票
3 回答
1760 浏览

azure-data-lake - 天蓝色数据湖 u-sql 枢轴

我喜欢 Azure Data Lake,但缺乏文档可能会减慢采用速度。我希望有人比我对 U-SQL 有更多的经验。

试图从 Microsoft.Analytics.Interfaces 下的可用内容和通过 U-SQL 解释器获取,但运气不佳。动态 sql 似乎不支持在运行时定义行集的架构,并且 IUpdatableRow 的架构是只读的,因此处理器方法不可行。U-SQL 中没有开箱即用的 PIVOT 功能。

我还认为也许我可以一起处理行集并编写一个自定义输出器来进行透视,但无法弄清楚。

可能有一种非常简单的方法可以做到这一点,因为它是标准的枢轴操作。对于不确定数量的 ColA 和 ColB 值,您将如何以高效的方式将行集从 I 重塑为 II?

0 投票
1 回答
86 浏览

azure-data-lake - 并行化控制

我在似乎没有并行运行的行集上运行自定义处理器。底层的 ~1GB 文本文件首先被读入一个通过循环进行分区的表中。“提取”在 200 个顶点上运行,但随后(在“聚合”节点下)处理 [进行各种复杂计算] 仅发生在 2 个顶点上,即使并行度参数远高于此。是否需要使用特殊提示来指示编译器使用更多顶点?是否有需要重写的函数或属性以在此阶段设置并行度?

0 投票
2 回答
1460 浏览

azure-data-lake - 运行 Azure 数据湖分析作业时出现 Vertex 重试次数过多错误

我正在 Visual Studio 中的 Azure 数据湖分析中运行 USQL 作业,并出现以下脚本错误。我工作的目的是使用 Azure blob REST api 从 Azure blob 读取 xml 文件并提取数据,然后在 azure 数据湖存储中生成 csv 文件。我没有看到任何错误帮助。谁能帮助我理解这个问题?

诊断代码:223412289

严重性:错误

组件:JobManager_User

来源:用户

ERRORID: VertexRetriedTooMany

消息:顶点重试次数过多

描述:顶点 SV1_Extract[0][0] 重试了 24 次。

分辨率:不适用

帮助链接:不适用

详细信息:顶点 SV1_Extract[0][0].v23 {B0AF5C27-21A5-4011-8044-09A4AB0642C4} 失败错误:函数不正确。

更新 - 有关我的用例的更多信息:

我正在尝试在我的 USQL 作业中使用“自定义用户定义的运算符”,因为我认为使用此功能可以轻松解决我的用例。

我的输入 CSV 文件放置在数据湖存储中,其中包含放置在 Azure blob 上的 XML 文件的一些值和路径。

在 USQL 作业中,我正在从 CSV 读取 XML 文件路径(使用 USQL),然后从 Azure blob 存储读取这些 XML 文件并提取值(使用 c# 后面的代码)并将我的输入文件与 XML 值合并并在 Azure 中生成新的 CSV 文件数据湖存储(再次使用 USQL)。

更新 2

我还尝试使用安装了 REST API 的 Windows Azure 存储 sdk 来访问后面代码中的 blob,并在运行作业时出现以下错误:

请注意,相同的代码在本地运行良好,所以我认为我访问 blob 的代码没有任何问题。

0 投票
5 回答
4869 浏览

azure - 将 Azure 事件中心与 Data Lake Store 连接

将数据从事件中心发送到 Data Lake Store 的最佳方式是什么?

0 投票
2 回答
2492 浏览

azure-data-lake - 如何在 U-SQL 中使用 XML 提取器从 XML 元素中提取属性值

如何使用U-SQL 中的XML 提取器从 XML 元素中提取属性值以用于我的 Azure 数据湖分析作业。

更新:有关该问题的更多详细信息

我的 XML 文件如下所示:

这是我的 U-SQL 脚本:

调试后观察,XPath类的Load方法尝试加载时出现异常:

这是一个例外:

更新 2:

使用 quoting:false 后,我得到另一个异常:

0 投票
1 回答
310 浏览

c# - 是否可以在 C# 中使用 wasb URI 方案访问 Azure 存储?

我们可以在 C# 中 U-SQL 活动的代码隐藏文件中使用 wasb URI 方案访问 Azure blob 和 Azure 数据湖存储。我没有观察到任何示例/示例证明这一点,也没有指定天气是否可能。如果可能,请分享一些示例/示例以使用它。

0 投票
1 回答
2149 浏览

azure-data-lake - 静默开关为真时使用 U-SQL 文件集模式提取数据

我想从多个文件中提取数据,所以我使用需要一个虚拟列的文件集模式。由于我的数据存在一些问题,我还需要静默切换,否则我无法处理我的数据。看起来,当我使用带静默开关的虚拟列时,它不会提取任何行。

请注意,我可以通过删除虚拟列从单个文件中提取数据。这个问题有什么解决办法吗?

0 投票
2 回答
270 浏览

azure - U-Sql 是否支持游标遍历数据集并根据行值提取更多数据?

Azure Data Lake Analytics 和 U-SQL 是否支持脚本中游标的概念?

我有一个数据集,其中包含我想提取的更多数据集的路径,并且我想将结果输出到单独的文件中。

目前我似乎找不到基于数据集中值动态提取和输出数据的解决方案。

0 投票
1 回答
270 浏览

azure - 无法使用自定义程序集访问 U-SQL 代码隐藏中的自定义文件?

我正在 U-SQL 中注册和使用自定义程序集,这些程序集访问文件以从中获取数据。在注册程序集及其依赖项时,数据文件作为“附加文件”上传(我使用的是 VS 2015)。

但是,作业失败并出现 System.IO.FileNotFoundException,自定义程序集无法找到该文件。在访问文件的方法中引发异常。

是否有特定的方式来访问该文件?还是必须将其放置在特定位置?

该文件与自定义程序集放置在同一目录中,并且它是数据湖存储中的依赖项(如果这是相关详细信息)。