如何在 Azure 数据工厂的 Databricks 上运行 .Net spark 作业?

Posted

技术标签:

【中文标题】如何在 Azure 数据工厂的 Databricks 上运行 .Net spark 作业?【英文标题】:How to run .Net spark jobs on Databricks from Azure Data Factory? 【发布时间】:2020-08-05 08:06:59 【问题描述】:

在 Azure 数据工厂中,您有一个 Databricks Acvitiy。此活动支持运行 python、jar 和 notebook。这些笔记本可以用 scala、python、java 和 R 编写,但不能用 c#/.net 编写。

是否有固有的或直接的支持,我可以编写我的 .NET spark 代码并在 Data Factory 的 Databricks 上运行它?

我能否在 Azure Databricks 中充分使用 .NET spark?

【问题讨论】:

你提到docs.microsoft.com/en-us/dotnet/spark/tutorials/…了吗? 是的,我有。但正如您所见,这是自定义的并使用 CLI。正如我提到的,我也做过同样的事情。我想知道的是,我能以任何方式使用 Azure 数据工厂在砖块上调用 .NET spark 【参考方案1】:

您指定要启动 JAR 文件。 .NET for Apache Spark 项目使用 JAR 文件启动侦听器,然后 .NET 代码连接到该侦听器。

JAR 是 microsoft-spark-2.4.x-0.12.1.jar(取决于 spark 的版本和 .NET NuGet 版本)。要运行的类是 org.apache.spark.deploy.dotnet.DotnetRunner,您需要将正确的参数传递给它,以便它启动您的 .NET 应用程序。

埃德

【讨论】:

以上是关于如何在 Azure 数据工厂的 Databricks 上运行 .Net spark 作业?的主要内容,如果未能解决你的问题,请参考以下文章

如何从 Azure 数据工厂安全地调用 Azure 逻辑应用

如何使用 Azure 数据工厂管道创建容器?

如何使用 azure 数据工厂拆分列值

如何绕过 Azure 数据工厂 ARM 模板参数限制?

如何在 Azure 数据工厂内拥有不同数量客户的不同环境中使用相同的管道?

在 Azure Blob 容器中创建两个文件时,如何在 Azure 数据工厂中创建事件触发器?