[Spark]Spark入门资料阅读

Posted coding-gaga

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[Spark]Spark入门资料阅读相关的知识,希望对你有一定的参考价值。

Spark在集群上的运行模式

链接:

http://spark.apache.org/docs/latest/cluster-overview.html Component章节

总结:

1 Each application gets its own executor processes,所以各application间是独立的。
2 spark可以使用多种 cluster manager,包括 Spark’s own standalone cluster manager, Mesos or YARN。
3 driver program 需要监听和接收its executors,所以driver对于各executers必须是网络可达的。
4 因为driver调度tasks on the cluster, 所以driver节点和worker节点最好在一个局域网中。

另:spark各组件定义:https://blog.csdn.net/minge_se/article/details/79137085

Spark on Yarn

Yarn
  • yarn最基本的思想是分离资源管理和job调度/监管。

  • yarn三大组件:
    • ResourceManager :负责整个集群的资源管理和分配,是一个全局的资源管理系统
      • 两个核心组件:Scheduler 、ApplicationsManager。
      • 调度器负责根据熟悉的容量、队列等约束,将资源分配给各种正在运行的应用程序。调度器不执行应用程序状态的监视或跟踪。
      • 应用程序管理器负责接受作业提交,协商第一个容器以执行特定于应用程序的应用程序主机,并提供用于在失败时重新启动应用程序主容器的服务。每个应用程序管理器负责从调度程序协商适当的资源容器,跟踪其状态并监视进度。
    • NodeManager:是每个节点上的资源和任务管理器,它是管理这台机器的代理,负责该节点程序的运行,以及该节点资源的管理和监控
    • ApplicationMaster: 用 户 提 交 的 每 个 应 用 程 序 均 包 含 一 个 ApplicationMaster , 它 可 以 运 行 在ResourceManager 以外的机器上。负责与 RM 调度器协商以获取资源(用 Container 表示)。
  • yarn 只提供运算资源的调度(用户程序向 yarn 申请资源,yarn 就负责分配资源)
  • yarn与运行的用户程序完全解耦,意味着yarn上可以运行各种类型的分布式运算程序,比如 mapreduce、storm,spark,

Spark on Yarn

参考链接

https://blog.csdn.net/qq_33624952/article/details/79341034

以上是关于[Spark]Spark入门资料阅读的主要内容,如果未能解决你的问题,请参考以下文章

Spark学习10_1 sparkMllib入门与相关资料索引

福利送Spark大数据平台 + Scala语言入门视频

spark资料下载

地铁译:Spark for python developers ---Spark处理后的数据可视化

资料推荐:Spark-mllib 源码分析之逻辑回归

[学习笔记]黑马程序员Spark全套视频教程,4天spark3.2快速入门到精通,基于Python语言的spark教程