MapReduce简介以及详细配置

Posted 编程成为一种习惯

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MapReduce简介以及详细配置相关的知识,希望对你有一定的参考价值。

1.MapReduce(一个分布式运算框架)将数据分为数据块,发送到不同的节点,并行方式处理。

2.NodeManager和DataNode在一个节点上,程序与数据在一个节点。

3.内容分为两个部分

1) Map

读取文件,将数据分块,输入输出都是<key,value>

2) Reduce

输入输出都是<key,value>,输入的key是Map输出的key,输入的value是map输出的所有key一样的value

4.修改配置文件hadoop-2.6.0/etc/hadoop/mapred-site.xml 

这个文件在Hadoop中没有,需要复制一份,cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

          <property>

               <name>mapreduce.framework.name</name>

               <value>yarn</value>

    </property>

5.修改配置文件hadoop-2.6.0/etc/hadoop/yarn-site.xml

    <property>

         <name>yarn.nodemanager.aux-services</name>

         <value>mapreduce_shuffle</value>

    </property>

6.启动集群sbin/start-all.sh

一块启动了HDFS与MapReduce,依次执行了sbin/start-dfs.sh与sbin/start-yarn.sh

7.打开jps查看进程

32033 Jps

31718 SecondaryNameNode

31528 DataNode

31852 ResourceManager

31437 NameNode

31949 NodeManager

8.HDFS与MapReduce启动成功,关闭集群:sbin/stop-all.sh

 

 

以上是关于MapReduce简介以及详细配置的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop——MapReduce相关eclipse配置及Api调用(图文超详细版)(内含遇到错误的解决方法)

centos安装配置hadoop超详细过程(含故障排除)

MapReduce与Yarn 的详细工作流程分析

CentOS Hadoop安装配置详细

MapReduce工作流程最详细解释

Hadoop 2.0中的日志收集以及配置方法