如何在 Azure 数据工厂的 Databricks 上运行 .Net spark 作业?
Posted
技术标签:
【中文标题】如何在 Azure 数据工厂的 Databricks 上运行 .Net spark 作业?【英文标题】:How to run .Net spark jobs on Databricks from Azure Data Factory? 【发布时间】:2020-08-05 08:06:59 【问题描述】:在 Azure 数据工厂中,您有一个 Databricks Acvitiy。此活动支持运行 python、jar 和 notebook。这些笔记本可以用 scala、python、java 和 R 编写,但不能用 c#/.net 编写。
是否有固有的或直接的支持,我可以编写我的 .NET spark 代码并在 Data Factory 的 Databricks 上运行它?
我能否在 Azure Databricks 中充分使用 .NET spark?
【问题讨论】:
你提到docs.microsoft.com/en-us/dotnet/spark/tutorials/…了吗? 是的,我有。但正如您所见,这是自定义的并使用 CLI。正如我提到的,我也做过同样的事情。我想知道的是,我能以任何方式使用 Azure 数据工厂在砖块上调用 .NET spark 【参考方案1】:您指定要启动 JAR 文件。 .NET for Apache Spark 项目使用 JAR 文件启动侦听器,然后 .NET 代码连接到该侦听器。
JAR 是 microsoft-spark-2.4.x-0.12.1.jar(取决于 spark 的版本和 .NET NuGet 版本)。要运行的类是 org.apache.spark.deploy.dotnet.DotnetRunner,您需要将正确的参数传递给它,以便它启动您的 .NET 应用程序。
埃德
【讨论】:
以上是关于如何在 Azure 数据工厂的 Databricks 上运行 .Net spark 作业?的主要内容,如果未能解决你的问题,请参考以下文章
如何从 Azure 数据工厂安全地调用 Azure 逻辑应用