如何强制 Azure 数据工厂数据流使用 Databricks

Posted 2023-03-31

技术标签:

【中文标题】如何强制 Azure 数据工厂数据流使用 Databricks【英文标题】：How to force Azure Data Factory Data Flows to use Databricks 【发布时间】：2019-09-28 19:36:06 【问题描述】：

我正在使用 Azure 数据工厂及其新的数据流功能。这是一个应该使用 Databricks 进行数据转换的 GUI，无需编写任何代码。

到目前为止一切顺利。我有一些工作示例。我的输入数据（来自 Azure Blob）已正确转换并连接以创建输出（在 Azure SQL 中）。

问题是我没有Databricks 资源。我已经把它删了。我还删除了数据工厂到 Databricks 连接器。但我仍然得到正确的答案！

我怀疑我的输入集太小，或者我的转换太简单，所以数据工厂只是在内部处理它们并且知道它不需要 Databricks 的强大功能。但是我必须做些什么来强制数据工厂使用 Databricks？我想测试有关该操作的一些内容。

另一种可能性是数据工厂正在使用 Databricks，但使用的是它自己的 Databricks 资源而不是用户......？？

【问题讨论】：

【参考方案1】：

Azure 数据工厂数据流始终在幕后的 Databricks 上运行。您无法强制（或禁用）使用 Databricks。

在早期的私人预览版中，您必须配置并自带 Databricks 集群。后来更改了，自 2019 年 5 月起，Azure 数据工厂将为您管理集群。

（我听说他们计划在某个时候重新实现自带集群功能，但我还没有看到公开证实。）

如果您打开数据流调试模式或使用数据流任务执行管道，您将按 vCore 小时的集群使用量付费。您可以在Data Pipeline Pricing and FAQ 中找到所有详细信息。

【讨论】：

谢谢。这证实了我的测试。我确实看到了有关配置与集群的连接的早期文档，这让我感到困惑。因此，如果 Databricks 在幕后，那么以下内容也一定是正确的……您无法控制 Databricks 集群中有多少台机器或它们是什么类型（功率）的 VM。您无法控制集群在关闭之前必须空闲多长时间。您无法查看作业执行的详细信息，例如其任务或插槽或物理执行计划。都是真的吗？您可以使用 Azure 集成运行时选择 Databricks 环境的大小和容量。选择计算类型、核心数量和生存时间，然后在数据流活动中使用该 Azure-IR：docs.microsoft.com/en-us/azure/data-factory/…

以上是关于如何强制 Azure 数据工厂数据流使用 Databricks的主要内容，如果未能解决你的问题，请参考以下文章

使用 Azure 数据工厂 (ADF) 数据流 (DF) 从/向 Azure Data Lake Store gen1 发送和接收数据

Azure 数据工厂使用 REST Multipart/form-data 上传文件

如何使用 Azure 流分析强制一个空的输出文件

使用 Azure 数据工厂将数据加载到雪花时出现问题

Azure Data Factory入门简介

将存储安全地连接到 Azure Data Lake Analytics 或数据工厂