将 Azure Databricks 增量表迁移到 Azure Synapse SQL 池

Posted

技术标签:

【中文标题】将 Azure Databricks 增量表迁移到 Azure Synapse SQL 池【英文标题】:Migrate azure databricks delta table to Azure Synapse SQL pool 【发布时间】:2021-09-05 21:30:52 【问题描述】:

我在 scala databricks 笔记本中编写了计算逻辑,该笔记本由 ADF 执行,以通过从 ADLS Gen2 容器读取原始增量文件来创建增量文件。

现在我需要将所有 databricks 增量表从 Azure databricks 工作区迁移到 Azure Synapse 分析。

你能列出完成这项任务我需要采取的分步方法吗?

【问题讨论】:

Delta 表必须写在 ADLS gen2 上,对吗?如果您在 ADF 中使用复制活动将文件从 ADLS gen2 复制到 Azure Synapse 分析会怎样? 【参考方案1】:

以下是使用 azure 数据工厂将数据从 Azure 数据块增量表复制到 Azure Synapse 的步骤

第 1 步:使用“Azure 数据块 delta Lake”连接器创建一个数据集以指向您的增量表

第 2 步:使用“Azure Synapse Analytics”连接器创建一个数据集以指向您的 Synapse Analytics

第 3 步:使用复制活动。在复制活动中,使用 step1 数据集作为源,将 step2 数据集作为接收器

Azure Databricks 中的 Delta 文件是源数据集,您只需创建管道以对数据集执行复制活动,以反映将成为 Azure Synapse SQL 池的接收器数据集。

参考此链接:Basic scenario how Copy Activity works in Azure Data Factory

【讨论】:

仅供参考,这个问题是题外话,本质上是一个文档请求。 OP 需要展示他们的工作和具体问题。最好不要回答此类问题,或者最多发布文档链接作为评论。但实际上你不应该发布这样的文档答案。

以上是关于将 Azure Databricks 增量表迁移到 Azure Synapse SQL 池的主要内容,如果未能解决你的问题,请参考以下文章

SQLServer 到 Azure Databricks 的转换

Azure Synapse - 增量数据加载

从 Databricks 到 Azure Synapse Analytics:当我们将数据帧加载到表中时,为啥需要将 parquet.writeLegacyFormat 设置为 True?

将数据从 Databricks 加载到 Azure SQL 时的性能问题

Databricks 增量表与 SQL Server 增量表

Databricks - 从增量表写入流到 orc 文件的读取流仅具有更改