azure-databricks - 为什么 Azure Databricks 需要将数据存储在 Azure 的临时存储中

Question

我正在关注有关使用 azure databricks 进行数据转换的教程，它说在将数据加载到 azure synapse analytics 之前，由 azure databricks 转换的数据将先保存在 azure blob 存储中的临时存储上，然后再加载到 azure synapse analytics。为什么需要在加载到 azure 突触分析之前将其保存到临时存储中？

score 2 · Accepted Answer

Azure 存储容器在读取或写入 Azure Synapse 时充当存储批量数据的中介。Spark 使用以下内置连接器之一连接到存储容器：Azure Blob 存储或 Azure Data Lake Storage (ADLS) Gen2。

下面的体系结构图显示了如何使用每个连接到外部资源（如 Azure Blob 存储）的计算节点上的数据移动服务 (DMS) 服务的每个 HDFS 桥来实现这一点。PolyBase 然后在 SQL 数据仓库和提供快速加载性能的外部资源之间双向传输数据。

使用 PolyBase 提取、加载和转换数据实施 PolyBase ELT for SQL 数据仓库的步骤如下：

将源数据提取到文本文件中。
将数据加载到 Azure Blob 存储、Hadoop 或 Azure Data Lake Store。
使用 PolyBase 将数据导入 SQL 数据仓库暂存表。
转换数据（可选）。
将数据插入生产表。

azure-databricks - 为什么 Azure Databricks 需要将数据存储在 Azure 的临时存储中

1 回答 1

Related

Reference