.NET for Apache Spark 预览版正式发布

Posted 过往记忆大数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了.NET for Apache Spark 预览版正式发布相关的知识,希望对你有一定的参考价值。

本文原文(点击下面阅读原文即可进入) https://www.iteblog.com/archives/2544.html

2019年4月25日,微软的 Rahul Potharaju、Terry Kim 以及 Tyson Condie 在 Spark + AI Summit 2019 会议上为我们带来主题为 《Introducing .NET Bindings for Apache Spark 》的分享,并宣布 .NET for Apache Spark 预览版正式发布。

.NET 框架是由微软开发,一个致力于敏捷软件开发、快速应用开发、平台无关性和网络透明化的免费软件框架,用于构建许多不同类型的应用程序。就当前的编程语言排名可以看出,.NET 也是世界上使用人数最多的编程语言之一。其旗舰编程语言 C# 在各种文章和统计数据中被列为最受欢迎的编程语言之一:

从上图可以看出,C# 在 stackoverflow 调查的最流行编程语言中排名第八位,具体可以参见 这里。同时,C# 在 2018年 GitHub 最流行的编程语言中排名第六位,参见 这里。虽然有这么多的开发者使用 C#,但是目前没有很好的大数据解决方案,基于这些问题,微软为我们带来了 .NET for Apache Spark。


.NET for Apache Spark 预览版正式发布

.NET for Apache Spark 是什么

.NET for Apache Spark 为 C# 或 F# 的开发者提供了高性能的 API 来访问 Apache Spark。 使用此 .NET API,用户可以访问 Apache Spark 的所有组件,包括 Spark SQL,DataFrames,Streaming,MLLib 等。并且这个项目允许 .NET 开发者重用已有的所有知识,技能,代码和库。

让 Spark 支持 C#/F# 是基于一个新的 Spark 互操作层(interop layer),这个层提供了更容易的扩展性。从长远来看,这种可扩展性可用于在 Spark 中添加对其他语言的支持。具体可以参见 SPARK-26257。.NET for Apache Spark 的具体框架如下:


.NET for Apache Spark 预览版正式发布

.NET for Apache Spark 符合 .NET Standard 2.0,可以在 Linux,macOS 和 Windows 上使用,就像 .NET 的其余部分一样。 .NET for Apache Spark 在 Azure HDInsight 中默认可用,并且可以安装在 Azure Databricks 等中。

使用 .NET for Apache Spark

.NET for Apache Spark 的使用之前需要安装一些软件,具体参见 这里。这样我们就可以使用 C# 或 F# 来编写 Spark 应用程序了,下面是分别使用 C# 和 F# 编写的 WordCount 程序:

C# 版本的 WordCount

.NET for Apache Spark 预览版正式发布

F# 版本的 WordCount

.NET for Apache Spark 预览版正式发布

可以看出,这个和 Spark 原生的 API 还是很类似的。

.NET for Apache Spark 性能如何

经过微软官方的测试,.NET for Apache Spark 的第一个预览版本在流行的 TPC-H 基准测试中表现良好。TPC-H 基准包含一套面向业务的查询。 下图说明了在 TPC-H 查询集上 .NET Core 与 Python 和 Scala 的性能对比。

上图显示了 .NET for Apache Spark 与 Python 和 Scala 的每个查询性能对比。.NET for Apache Spark 相比较于 Python 和 Scala 运行良好。 此外,在 UDF 性能至关重要的情况下,例如查询1,其中在 JVM 和 CLR 之间传递30亿行非字符串数据,.NET for Apache Spark 比 Python 快2倍。


猜你喜欢

回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT

spark_summit_eu_2018 下载 Spark+AI Summit europe 2018 全部PPT

回复 HBase_book 下载 2018HBase技术总结 专刊

0、回复 电子书 获取 本站所有可下载的电子书

1、

2、

3、

4、

5、

6、

7、

8、

9、

10、

11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop)
12、Flink中文文档:
http://flink.iteblog.com
13、Carbondata 中文文档
http://carbondata.iteblog.com

以上是关于.NET for Apache Spark 预览版正式发布的主要内容,如果未能解决你的问题,请参考以下文章

Apache Spark 3.0 预览版正式发布,多项重大功能发布

Spark特性|Apache Spark 3.0.0正式版终于发布

如何在 java 中使用 spark 2.0.0 预览版

Spark3.0 preview预览版尝试GPU调用(本地模式不支持GPU)

.NET for Apache® Spark? 开源大数据分析工具

微软发布 .NET for Apache Spark 性能碾压Python、Scala和Java