2

我正在关注有关使用 azure databricks 进行数据转换的教程,它说在将数据加载到 azure synapse analytics 之前,由 azure databricks 转换的数据将先保存在 azure blob 存储中的临时存储上,然后再加载到 azure synapse analytics。为什么需要在加载到 azure 突触分析之前将其保存到临时存储中?

4

1 回答 1

2

Azure 存储容器在读取或写入 Azure Synapse 时充当存储批量数据的中介。Spark 使用以下内置连接器之一连接到存储容器:Azure Blob 存储或 Azure Data Lake Storage (ADLS) Gen2。

下面的体系结构图显示了如何使用每个连接到外部资源(如 Azure Blob 存储)的计算节点上的数据移动服务 (DMS) 服务的每个 HDFS 桥来实现这一点。PolyBase 然后在 SQL 数据仓库和提供快速加载性能的外部资源之间双向传输数据。

在此处输入图像描述

使用 PolyBase 提取、加载和转换数据 实施 PolyBase ELT for SQL 数据仓库的步骤如下:

  1. 将源数据提取到文本文件中。
  2. 将数据加载到 Azure Blob 存储、Hadoop 或 Azure Data Lake Store。
  3. 使用 PolyBase 将数据导入 SQL 数据仓库暂存表。
  4. 转换数据(可选)。
  5. 将数据插入生产表。
于 2020-08-04T06:29:01.113 回答