技术分享：Hadoop框架

Posted 2021-04-13 山东第五空间

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了技术分享：Hadoop框架相关的知识，希望对你有一定的参考价值。

第五空间

点击关注扫描二维码

网络安全 | 大数据 | 人工智能

技术分享：Hadoop框架

Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成，其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS(Hadoop Distributed File System)来执行MapReduce程序的MapReduce引擎。

Pig是一个基于Hadoop的大规模数据分析平台，Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口
Hive是基于Hadoop的一个工具，提供完整的SQL查询，可以将sql语句转换为MapReduce任务进行运行
ZooKeeper:高效的，可拓展的协调系统，存储和协调关键共享状态;
HBase是一个开源的，基于列存储模型的分布式数据库;
HDFS是一个分布式文件系统，有着高容错性的特点，适合那些超大数据集的应用程序;
MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。
下图是一个典型的Hadoop集群的部署结构：

接着给出Hadoop各组件依赖共存关系：

HDFS是一个高度容错性的分布式文件系统，可以被广泛的部署于廉价的PC上。它以流式访问模式访问应用程序的数据，这大大提高了整个系统的数据吞吐量，因而非常适合用于具有超大数据集的应用程序中。

HDFS的架构如图所示。HDFS架构采用主从架构(master/slave)。一个典型的HDFS集群包含一个NameNode节点和多个DataNode节点。NameNode节点负责整个HDFS文件系统中的文件的元数据的保管和管理，集群中通常只有一台机器上运行NameNode实例，DataNode节点保存文件中的数据，集群中的机器分别运行一个DataNode实例。在HDFS中，NameNode节点被称为名称节点，DataNode节点被称为数据节点。DataNode节点通过心跳机制与NameNode节点进行定时的通信。

NameNode

NameNode可以看作是分布式文件系统中的管理者，存储文件系统的meta-data，主要负责管理文件系统的命名空间，集群配置信息，存储块的复制。

DataNode

DataNode是文件存储的基本单元。它存储文件块在本地文件系统中，保存了文件块的meta-data，同时周期性的发送所有存在的文件块的报告给NameNode。

Client

Client就是需要获取分布式文件系统文件的应用程序。

以下来说明HDFS如何进行文件的读写操作：

文件写入

Client向NameNode发起文件写入的请求
NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。

文件读取

Client向NameNode发起文件读取的请求
NameNode返回文件存储的DataNode的信息
Client读取文件信息

MapReduce是一种编程模型，用于大规模数据集的并行运算。Map(映射)和Reduce(化简)，采用分而治之思想，先把任务分发到集群多个节点上，并行计算，然后再把计算结果合并，从而得到最终计算结果。多节点计算，所涉及的任务调度、负载均衡、容错处理等，都由MapReduce框架完成，不需要编程人员关心这些内容。

下图是MapReduce的处理过程：

用户提交任务给JobTracer，JobTracer把对应的用户程序中的Map操作和Reduce操作映射至TaskTracer节点中;输入模块负责把输入数据分成小数据块，然后把它们传给Map节点;Map节点得到每一个key/value对，处理后产生一个或多个key/value对，然后写入文件;Reduce节点获取临时文件中的数据，对带有相同key的数据进行迭代计算，然后把终结果写入文件。

如果这样解释还是太抽象，可以通过下面一个具体的处理过程来理解：(WordCount实例)