Spark从入门到精通

Posted sky-chen

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark从入门到精通相关的知识,希望对你有一定的参考价值。

什么是Spark

  1. 大数据计算框架
  2. 离线批处理
  3. 大数据体系架构图(Spark)
    技术分享图片
  4. Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLib用于机器学习,Spark GraphX用于图计算
  5. Spark主要用于大数据的计算,而Hadoop以后主要用于大数据的存储(比如HDFS、Hive、HBase)等,,以及资源调度(Yarn)
  6. Spark+hadoop的组合是大数据领域最热门的组合,也是最有前景的组合
  7. Spark与MapReduce计算过程,Spark基于内存进行计算,所以速度更快
    技术分享图片

  8. Spark整体架构图
    技术分享图片

Spark的特点

  1. 速度快:基于内存进行计算(当然也有部分计算基于磁盘,比如shuffle)
  2. 容易上手开发:Spark的基于RDD的计算模型,比Hadoop的基于Map-Reduce的计算模型要更加易于理解,更加易于上手开发,实现各种复杂功能,比如二次排序,topn等复杂操作时,更加便捷
  3. 超强的通用性:Spark提供了多种计算组件
  4. 集成Hadoop:Spark与Hadoop进行了高度的继承,完成double win
  5. 极高的活跃度

待续...




以上是关于Spark从入门到精通的主要内容,如果未能解决你的问题,请参考以下文章

spark2.2 从入门到精通全套视频教程(含网盘下载地址)

Spark 从入门到精通学习笔记大纲

「Spark 从精通到重新入门」Spark 中不可不知的动态优化

「Spark 从精通到重新入门」Spark 中不可不知的动态资源分配

spark从入门到精通spark内存管理详解- 堆内&堆外内存管理

Spark从入门到精通3:Spark全分布模式的安装和配置