问题标签 [azure-data-factory]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1396 浏览

azure - Azure 流分析是否适合生成数据仓库事实和维度表?

我有以下场景,我正在考虑通过Azure Stream Analytics实现。

我的输入包括:

  1. Azure 事件中心流入的事件。
  2. 与事件相关的参考数据。其中一些数据每天都在“缓慢变化”。

我需要加入事件和参考数据,处理它们并输出构成“数据仓库”的表(将Power BI作为消费者)。

输出将由以下部分组成:

  1. 存储最重要事件的事实表。
  2. 一些包含构成事实的值的维度表。

Azure 流分析是否适合这种工作?在我看来,ASA 非常适合将事件从事件中心流保存到事实表中。但是,使维度表保持最新的额外工作(即定期添加新值)并不适合。

我在这个分析中正确吗?我应该为我的项目切换到Azure 数据工厂吗?

0 投票
1 回答
1174 浏览

azure - 使用 Azure 数据工厂复制活动,是否可以将当前 SliceStart 作为目标表存储实体上的属性输出?

我正在使用 Azure 数据工厂的复制活动从日常文件夹中提取 Blob 存储中的分隔文本文件。这些列被映射并复制到表存储实体。这一切都很好。

我希望每组实体都使用正确的数据片(SliceStart)进行分区,理想情况下作为复合分区键的一部分(SliceStart 加上附加的一些其他属性)或失败,表实体本身的属性。

这样管道中的下一步(.NET 自定义活动)就可以获取正确的每日数据集。我知道我可以将当​​前的 SliceStart 作为扩展属性传递给 .NET 自定义 Activity,但是该 Activity 将如何使用 SliceStart 值来查询表存储数据以仅隔离匹配日的实体?

我无法可靠地使用时间戳,因为切片可能会排队或延迟,然后在同一天同时处理多个切片。在这种情况下,它们都将具有相同的时间戳,因此我无法区分不同的日子。

0 投票
1 回答
104 浏览

azure - 如何处理 Azure 数据工厂中未按时间切片的数据?

所以我正在尝试使用 Azure 数据工厂来替换我们现有的 SSIS 系统,但我遇到了一些麻烦......

我想要遵循的过程是获取项目列表和客户列表,并创建我们拥有的客户和项目的报告。这些列表经常更新,所以我想每小时更新一次这个报告。为了合并数据,我将使用 Power BI Pro,因此数据工厂只需将数据加载为可用格式。

我现在的来源是对返回项目列表的 API 的调用。但是,这些数据根本没有按时间分开。我没有看到任何类型的历史。客户列表也是如此。

我的数据集的可用性应该是多少?

0 投票
2 回答
3535 浏览

azure - Azure 数据工厂复制活动 - 列映射可以是复合的还是使用模板函数?

当使用数据工厂复制活动将分隔文本文件从 Blob 存储获取到表存储时,我能够指定输入和输出架构以及相关的一对一列映射。

可以在源模式中连接或格式化一个或多个列(可能使用 $$Text.Format 吗?)并将它们映射到目标中的单个列?

如果可能的话,如果我也可以使用类似的方法设置分区键(从 2 个或更多源列值中获取的复合键,或者更好的是,SliceStart 加上连接的源列值),这将特别有用。

0 投票
1 回答
1339 浏览

azure - Azure 数据工厂 - 将数据从本地 SQL 移动到 Azure SQL

一个简单的问题:这可以直接实现吗?我的意思是中间没有 Azure blob 存储(如所有示例所示)?有人可以提供一些代码示例吗?

0 投票
1 回答
2363 浏览

azure-data-factory - 在 Azure 数据工厂中将 csv 文件转换为 json 文件

谁能帮助我如何使用自定义活动在 Azure 数据工厂管道中获取 blob (.csv) 并将其转换为 (.json)?

0 投票
6 回答
24477 浏览

api - 使用 Azure 数据工厂从 REST API 获取数据

是否可以使用 Azure 数据工厂从 REST API 获取数据并将其插入 Azure 数据库表?

0 投票
1 回答
321 浏览

azure-hdinsight - 在 Azure 数据工厂中的单个 HDinsight 集群上运行多个管道和/或作业

在 Azure 数据工厂中使用 HDInsight 群集为自定义活动运行管道的推荐方法是什么。我们能否将单个 HDInsght 集群用于多个 Azure 数据工厂作业和同时运行的多个管道?

0 投票
1 回答
647 浏览

tsql - 在 Azure 数据工厂中设置增量负载

我有一个本地 SQL 数据库,我想从中获取数据。在数据库中有一个名为 last_update 的列,其中包含有关行上次更新时间的信息。第一次运行我的管道时,我希望它将所有内容从本地数据库复制到天蓝色数据库。下次我只想复制自上次运行以来已更新的行。因此,我想复制 last_update 高于上次运行时间的所有内容。有没有办法使用有关管道中最后一次运行时间的信息?有没有其他好的方法来创造我想要的东西?

0 投票
1 回答
392 浏览

azure - Azure 数据工厂切片

myblobcontainer/{Year}/{Month}/{Day}网上有很多演示,其中对格式或类似格式的 blob 进行切片(即https://azure.microsoft.com/en-gb/documentation/articles/data-factory-scheduling-and-execution/)。

现在很明显,这将允许非常容易地对数据进行切片,因为已经明确定义了年月日的参数。

我所拥有的是更像这样的文件:

这很明显YYYYMMDD_HHMMSS

我想每小时处理我的文件,而不是重新处理任何东西,理想情况下不必乱搞太多重组我的 blob。

有谁知道我如何才能“读取”仅属于我的小时片内的这些文件?