Azure 数据流 - 源查询下推

Posted

技术标签:

【中文标题】Azure 数据流 - 源查询下推【英文标题】:Azure Data Flow- Source query push down 【发布时间】:2021-08-27 15:32:38 【问题描述】:

我的数据流作业同时具有源和汇作为突触数据库。

在从突触数据库中提取数据时,我在数据流中有一个包含连接和转换的源查询。

正如我们所知,后台的数据流将启动 databricks 集群以执行数据流代码。

我的问题是,我在数据流中使用的源查询将在 synapse db/databricks 集群上执行吗?

【问题讨论】:

【参考方案1】:

数据流需要一个计算上下文,即 Spark。当您在转换中使用查询时,该查询将从该 Spark 集群中执行,该集群本质上会被推送到数据库引擎中进行解析。

【讨论】:

我可以知道数据库引擎会发生什么解析。 数据库会将结果集返回给Spark的调用,也就是你查询的结果。 只是上面的一个后续问题,我的源查询是根据 Synapse SQL 方言编写的,当从 Data Flow 执行此查询时,将转换为 Spark 代码/Spark SQL 并针对数据块集群? 您的查询不会转换为 Spark 代码。它将作为对您的源数据库的查询执行。

以上是关于Azure 数据流 - 源查询下推的主要内容,如果未能解决你的问题,请参考以下文章

Spark查询优化之谓词下推

大数据SparkSql连接查询中的谓词下推处理

#yyds干货盘点# 图解MySQL索引下推

如何在 Azure 数据工厂中执行 SQL 查询

SQL 优化技术系列: 谓词下推

索引索引下推