hadoop

Posted 一叶风语

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop相关的知识,希望对你有一定的参考价值。

主要功能:

1、存储:HDFS

2、分析/运算:Mapreduce

3、调度:YARN

 

存储:

hdfs分布式文件存储系统,是nosql数据库,每台节点服务器都是hdfs的部分,大数据平均分布在每个节点上,并且是以文件存储的形式,每个节点上存储的部分数据有通过块来进行数据文件的分片,形成数据块,每个数据块又在其他的节点服务器上存有备份,因此不会因为一个节点的宕机影响真个大数据,

分析运算:

Map:当需要提取大数据文件的时候,大数据分布在不用datanode,namenode制定去哪些datanode服务器读取数据,每个被分派制定要执行任务的datanode服务器就会启动一个或者map进程/线程,每个map进程会去读取本地节点的hdfs文件系统中对应的大数据在本地存储的一个块文件,进行分类,汇总,生成类似字典的结果,这样,本地节点需要读取的部分大数据形成的结果在内存中存储为字典形式的数据就会很小,占用不了多少内存,可能只有几十kb或者几兆

Reduce:reduce是另外一台服务器上的进程或者线程,当其他map节点将处理好的数据结果通过RPC或者其他网络连接的方式将数据传到本机器的时候,reduce就会对所有map发来的数据进行统计或者分类,而且本机启动多少个reduce可以根据业务需要扩展,如果只是统计数据的总和,只需要启动一个reduce,如果还需要对数据进行分类,可以启动多个reduce,每个reduce分别负责处理单一类别数据的汇总和统计

YARN:yarn负责调度各个datanode的map和reduce等等,

以上是关于hadoop的主要内容,如果未能解决你的问题,请参考以下文章

hadoophadoop配置

HadoopHadoop mr wordcount基础

HadoopHadoop2.8编译

HadoopHadoop MR 自定义排序

HadoopHadoop概述

hadoophadoop 安装 kerberos