如何强制 Azure 数据工厂数据流使用 Databricks

Posted

技术标签:

【中文标题】如何强制 Azure 数据工厂数据流使用 Databricks【英文标题】:How to force Azure Data Factory Data Flows to use Databricks 【发布时间】:2019-09-28 19:36:06 【问题描述】:

我正在使用 Azure 数据工厂及其新的数据流功能。这是一个应该使用 Databricks 进行数据转换的 GUI,无需编写任何代码。

到目前为止一切顺利。我有一些工作示例。我的输入数据(来自 Azure Blob)已正确转换并连接以创建输出(在 Azure SQL 中)。

问题是我没有Databricks 资源。我已经把它删了。我还删除了数据工厂到 Databricks 连接器。但我仍然得到正确的答案!

我怀疑我的输入集太小,或者我的转换太简单,所以数据工厂只是在内部处理它们并且知道它不需要 Databricks 的强大功能。但是我必须做些什么来强制数据工厂使用 Databricks?我想测试有关该操作的一些内容。

另一种可能性是数据工厂正在使用 Databricks,但使用的是它自己的 Databricks 资源而不是用户......??

【问题讨论】:

【参考方案1】:

Azure 数据工厂数据流始终在幕后的 Databricks 上运行。您无法强制(或禁用)使用 Databricks。

在早期的私人预览版中,您必须配置并自带 Databricks 集群。后来更改了,自 2019 年 5 月起,Azure 数据工厂将为您管理集群。

(我听说他们计划在某个时候重新实现自带集群功能,但我还没有看到公开证实。)

如果您打开数据流调试模式或使用数据流任务执行管道,您将按 vCore 小时的集群使用量付费。您可以在Data Pipeline Pricing and FAQ 中找到所有详细信息。

【讨论】:

谢谢。这证实了我的测试。我确实看到了有关配置与集群的连接的早期文档,这让我感到困惑。因此,如果 Databricks 在幕后,那么以下内容也一定是正确的……您无法控制 Databricks 集群中有多少台机器或它们是什么类型(功率)的 VM。您无法控制集群在关闭之前必须空闲多长时间。您无法查看作业执行的详细信息,例如其任务或插槽或物理执行计划。都是真的吗? 您可以使用 Azure 集成运行时选择 Databricks 环境的大小和容量。选择计算类型、核心数量和生存时间,然后在数据流活动中使用该 Azure-IR:docs.microsoft.com/en-us/azure/data-factory/…

以上是关于如何强制 Azure 数据工厂数据流使用 Databricks的主要内容,如果未能解决你的问题,请参考以下文章

使用 Azure 数据工厂 (ADF) 数据流 (DF) 从/向 Azure Data Lake Store gen1 发送和接收数据

Azure 数据工厂使用 REST Multipart/form-data 上传文件

如何使用 Azure 流分析强制一个空的输出文件

使用 Azure 数据工厂将数据加载到雪花时出现问题

Azure Data Factory入门简介

将存储安全地连接到 Azure Data Lake Analytics 或数据工厂