Spark入门(1-2)

Posted 非淡泊无以明志,非宁静无以致远 - 长安快马

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark入门(1-2)相关的知识,希望对你有一定的参考价值。

一、与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。

1、Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理。

2、Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。

3、Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。

4、除了Map和Reduce操作之外,它还支持SQL查询,流数据,机器学习和图表数据处理。开发者可以在一个数据管道用例中单独使用某一能力或者将这些能力结合在一起使用。

 

二、

以上是关于Spark入门(1-2)的主要内容,如果未能解决你的问题,请参考以下文章

14.1 Apache Spark 简介快速入门

Spark入门--Spark的intersectionsubtractunion和distinc

Spark入门系列视频教程

新手入门:Spark部署实战入门

spark一些入门资料

Spark入门实战系列--4.Spark运行架构