“azure-data-lake”的相关标签问题

0 投票

1 回答

371 浏览

azure-data-lake - 在 U-SQL 中使用 TimeSpan

假设我有一个包含下表的数据库：

我想获得每个活动的持续时间，所以我尝试运行以下代码：

该列duration以正确的“TimeSpan”格式输出（例如“00:00:00.0123”）。

但是，如果我尝试对这些列执行计算，例如 AVG/MAX/等，我会收到一条错误消息，指出 TimeSpan 不能用作列类型。

azure-data-lake u-sql

2016-03-23T11:23:05.583

0 投票

1 回答

1245 浏览

azure-data-lake - U-SQL - 加入 BETWEEN

在 SQL Server 中，我只是一个带有 BETWEEN 语句的 JOIN，将时间范围分解为多个间隔记录。查询看起来类似于

这为 StartDate 和 EndDate 之间的每个数据提供了一条记录。我们已经找到了一种方法来使用返回 SQL 数组和 CROSS APPLY EXPLODE 语句的 UDF 进行爆炸。

我看到的问题是我们正在计算数百万次的日期范围，行集中的每行一次。这似乎是非常低效的，并且确实是处理时消耗时间的主要来源。

我已经创建了一种生成上面使用的日期表的方法，并且想试验性能，但是 U-SQL 连接不支持 BETWEEN 语句。

应该使用什么方法？从文档中不清楚 CROSS APPLY 是否可以处理这个问题。

如果间隔在两个日期之间，我尝试在后面的代码中使用 UDF 返回 true 或 false，但这只会导致错误 JOIN ON 子句只能在列上而不是 UDF

azure-data-lake u-sql

2016-03-23T18:39:13.407

0 投票

2 回答

1314 浏览

azure-data-lake - 调试 u-sql 作业

我想知道是否有任何提示和技巧可以在数据湖分析工作中发现错误。错误消息似乎大部分时间都不是很详细。

尝试从 CSV 文件中提取时，我经常收到这样的错误

顶点失败触发快速作业中止。顶点失败：SV1_Extract[0] with >error：顶点用户代码错误。

顶点因快速失败错误而失败

尝试将列转换为指定类型时似乎会发生这些错误。

我发现的技术是将所有列提取为字符串，然后执行 SELECT 尝试将列转换为预期类型。逐列执行这些操作可以帮助找到错误的特定列。

是否也可以使用 TryParse 之类的东西在解析错误的情况下返回 null 或默认值，而不是整个作业失败？

谢谢

azure-data-lake u-sql

2016-03-27T10:52:21.080

0 投票

0 回答

1098 浏览

azure-data-factory - ADL 默认合并复制活动

我在默认复制活动中使用“MergeFile”。我的源是 azure blob 存储，我的目标是 ADL 存储。但是，我收到以下错误。

ErrorCode=UserErrorFileNotFound,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=找不到'Azure Data Lake Store'文件。,Source=Microsoft.DataTransfer.ClientLibrary,''Type=System.Net.WebException,Message=远程服务器返回错误：(404) Not Found.,Source=System,'。

如何为输出指定文件名以解决此错误？我正在关注此文档页面以获取默认复制活动。斑点连接器。

我还尝试在输出数据集中使用特定的文件名。

更新： 如果我将目标更改为 azure blob，那么我不会收到该错误，而是另一个与 xml 相关的错误，我认为这是用户错误。

复制活动遇到用户错误：ErrorCode=UserErrorSourceDataContainsMoreColumnsThanDefined,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=Error found when processing 'Csv/Tsv Format Text' source '01/1001464881_1001464795_2015-01-01_1.13.05.152__1000 .xml' 行号为 1：发现的列比预期的列数多：1.，Source=Microsoft.DataTransfer.Common，'。

我的目标是将目录和子目录中的 xml 文件合并到单个大文件中。

azure-data-factory azure-data-lake

2016-03-28T10:59:49.647

0 投票

1 回答

571 浏览

azure-data-lake - 优化 Azure Data Lake 中的最大并行度

指导方针是什么，或者我们在哪里可以找到设计系统以实现最佳并行性的指导方针。我知道数据是在各个节点上拆分的，并为此进行了优化。

我在文件中的数据目前有多个客户、站点、产品和用户。我需要按客户、站点、产品进行汇总，这意味着可以在各个节点中轻松计算该数据的子集，并在处理结束时将其带回单个节点进行输出。

但是，我没有在作业图中看到那种级别的并行性。它正在显示 MDOP，但不是以一种看起来最佳的方式。我有 4 种不同的计算，它们是在客户、站点、产品上独立完成的。它与 4 个计算并行，但在整个数据集上进行。实际上，它应该能够将其扇出，例如 10 个节点每个有 1 个客户，然后每个节点都可以将其计算扇出到另外 4 个节点。（此处仅注意数字，例如，数据规模要大得多）。

如何优化文件布局或 U-SQL 逻辑以鼓励更多 MDOP？

azure-data-lake u-sql

2016-03-28T19:27:31.147

0 投票

1 回答

922 浏览