0

我们有多个发送数据的源系统。理想情况下,我们应该捕获来自源的原始数据并将其保存在数据湖中。然后我们必须将原始数据处理成结构化格式。现在用户可以通过前端应用程序更新这些数据。

我正在考虑在处理过的数据之上放置一个 rdbms,然后将审计跟踪从 rdbms 拉到数据湖,并合并处理过的数据和审计跟踪以创建最终的报告视图。或者 rdbms 也可以用于分析。

或者我们可以将所有原本在 rdbms 中的数据引入并运行 rdbms 中的更改并将数据从 rdbms 拉到数据湖中。但这对于引入数据湖没有多大意义。

请建议。

谢谢,

4

1 回答 1

1

ADLA 不是面向消费者的,这意味着您不会将前端系统连接到它。如果问题是“我们应该做什么”,我不确定是否有人可以为您回答,但听起来您走在正确的轨道上。

我能做的就是告诉你我们做了什么:

  1. 原始数据(CSV 或 TXT 文件)进入 Blob 存储
  2. U-SQL 脚本提取该数据并将其存储在 Data Lake Analytics 表中。[此时可以删除 Blob]。
  3. 我们根据需要将处理后的数据输出到 RDBMS 等“消耗性”源。有几种方法可以做到这一点,但目前我们输出到 blob 存储中的管道分隔文本文件,并使用 Polybase 导入到 SQL Server。YMMV。

首先将数据拉入 Data Lake,然后再将数据拉入 RDBMS 对我来说很有意义。

于 2018-07-03T16:35:40.827 回答