Hadoop- MapReduce分布式计算框架原理

Posted 2020-10-02 RZ_Lee

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hadoop- MapReduce分布式计算框架原理相关的知识，希望对你有一定的参考价值。

分布式计算：　　

原则：移动计算而尽可能减少移动数据（减少网络开销）

分布式计算其实就是将单台机器上的计算拓展到多台机器上并行计算。

MapReduce是一种编程模型。Hadoop MapReduce采用Master/slave 结构。只要按照其编程规范，只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。核心思想是：分而治之。Mapper负责分，把一个复杂的业务，任务分成若干个简单的任务分发到网络上的每个节点并行执行，最后把Map阶段的结果由Reduce进行汇总，输出到HDFS中，大大缩短了数据处理的时间开销。MapReduce就是以这样一种可靠且容错的方式进行大规模集群海量数据进行数据处理，数据挖掘，机器学习等方面的操作。

MapReduce分布式计算框架体系结构

首先理解几个概念：

Master：是整个集群的唯一的全局管理者，功能包括：作业管理、状态监控和任务调度等，即MapReduce中的JobTracker

slave：负责任务的执行和任务状态回报，即MapReduce中的TaskTracker

Job&Task：在hadoop mapreduce中，一个 Job 它是一个任务，主业务。一个Job 可以拆分成多个Task，map Task与reduce Task。

JobTracker：JobTracker是一个后台服务进程，启动之后，会一直监听并接收来自各个TaskTracker发送的心跳信息，包括资源使用情况和任务运行情况等信息

JobTracker的主要功能：

作业控制：在hadoop中每个应用程序被表示成一个作业，每个作业又被分成多个任务，JobTracker的作业控制模块则负责作业的分解和状态监控。

最重要的状态监控：主要包括TaskTracker状态监控、作业监控和任务状态监控。主要作用：容错和为任务调度提供决策依据。

资源管理。

TaskTracker：TaskTracker是JobTracker和Task之间的桥梁：一方面，从JobTracker接收并执行各种命令：运行任务、杀死任务等；另一方面讲本地节点上各个任务状态通过心跳周期性汇报给JobTracker。TaskTracker与JobTracker和Task之间采用了RPC协议进行通信。

TaskTracker的功能：

汇报心跳：Tracker周期性讲所有节点上各种信息通过心跳机制汇报给JobTracker。这些信息包括两部分:

*机器级别信息：节点健康情况，资源使用情况等。

*任务级别信息：任务执行进度、任务运行状态等。

执行命令：JobTracker会给TaskTracker下达各种命令，主要包括：启动任务（LaunchTaskAction）、提交任务（CommunitTaskAction），杀死任务（KillJobAction）和重新初始化（TaskTrackerReinitAction）。

MapReduce体系结构里有两类节点，第一个是JobTracker,它是一个master管理节点，另一个是TaskTracker。客户端（Client）提交一个任务（Job），JobTracker把他提交到候选列队里，将Job拆分成map任务（Task）和reduce任务（Task），把map任务和reduce任务分给TaskTracker执行。在mapreduce编程模型里，Task一般起在和DataNode所在的同一台物理机上。如下图(图片来自网络)：