虚拟器上部署hadoop常见的一些问题

Posted 2020-10-23 丿格物致知丶

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了虚拟器上部署hadoop常见的一些问题相关的知识，希望对你有一定的参考价值。

一、hadoop部署步骤。

　　1、下载hadoop和Zookeeper的压缩包。

　　2、部署Zookeeper：

　　　　①tar -zxvf zookeeper-3.3.6

　　　　②cd 到Zookeeper的conf目录下将zoo_sample.cfg 修改为zoo.cfg

　　　　③

tickTime=2000（是Zookeeper独立的工作时间单元）  
dataDir=/Users/tom/zookeeper（存储数据的地址）  
clientPort=2181（2181是经常的选择，此处是关于用户和Zookeeper相连的地方）

　　　3、安装部署hadoop
　　　　①tar -zxvf hadoop-2.6.4

　　　　②cd 进入hadoop的 etc/hadoop目录里面有一些列的配置文件　　　　

　　　　etc/hadoop/core-site.xml

参数	属性值	解释
fs.defaultFS	NameNode URI	hdfs://host:port/
io.file.buffer.size	131072	SequenceFiles文件中.读写缓存size设定
hadoop.tmp.dir	/home/enzo/web/server/hadoopdata	指定hadoop运行时产生文件的存储目录

<configuration>
 2     <property>
 3         <name>fs.defaultFS</name>
 4         <value>hdfs://192.168.1.100:900</value>
 5         <description>192.168.1.100为服务器IP地址，其实也可以使用主机名</description>
 6     </property>
 7     <property>
 8         <name>io.file.buffer.size</name>
 9         <value>131072</value>
10         <description>该属性值单位为KB，131072KB即为默认的64M</description>
11     </property>

12 </configuration>

etc/hadoop/hdfs-site.xml

参数	属性值	解释
dfs.namenode.name.dir	在本地文件系统所在的NameNode的存储空间和持续化处理日志	如果这是一个以逗号分隔的目录列表，然后将名称表被复制的所有目录，以备不时需。
dfs.namenode.hosts/ dfs.namenode.hosts.exclude	Datanodes permitted/excluded列表	如有必要，可以使用这些文件来控制允许数据节点的列表
dfs.blocksize	268435456	大型的文件系统HDFS块大小为256MB
dfs.namenode.handler.count	100	设置更多的namenode线程，处理从 datanode发出的大量RPC请求

 1<configuration>
 2     <property>
 3         <name>dfs.replication</name>
 4         <value>1</value>
 5         <description>分片数量，伪分布式将其配置成1即可    </description>
 6     </property>
 7     <property>
 8         <name>dfs.namenode.name.dir</name>
 9         <value>file:/usr/local/hadoop/tmp/namenode</value>
10         <description>命名空间和事务在本地文件系统永久存储的路径</description>
11     </property>
12     <property>
13         <name>dfs.namenode.hosts</name>
14         <value>datanode1, datanode2</value>
15         <description>datanode1, datanode2分别对应DataNode所在服务器主机名</description>
16     </property>
17     <property>
18         <name>dfs.blocksize</name>
19         <value>268435456</value>
20         <description>大文件系统HDFS块大小为256M，默认值为64M</description>
21     </property>
22     <property>
23         <name>dfs.namenode.handler.count</name>
24         <value>100</value>
25         <description>更多的NameNode服务器线程处理来自DataNodes的RPCS</description>
26     </property>
27 </configuration>

etc/hadoop/yarn-site.xml

配置ResourceManager 和 NodeManager

yarn.resourcemanager.address	客户端对ResourceManager主机通过 host:port 提交作业	host:port
yarn.resourcemanager.scheduler.address	ApplicationMasters 通过ResourceManager主机访问host:port跟踪调度程序获资源	host:port
yarn.resourcemanager.resource-tracker.address	NodeManagers通过ResourceManager主机访问host:port	host:port
yarn.resourcemanager.admin.address	管理命令通过ResourceManager主机访问host:port	host:port
yarn.resourcemanager.webapp.address	ResourceManager web页面host:port.	host:port
yarn.resourcemanager.scheduler.class	ResourceManager 调度类（Scheduler class）	CapacityScheduler（推荐），FairScheduler（也推荐），orFifoScheduler
yarn.scheduler.minimum-allocation-mb	每个容器内存最低限额分配到的资源管理器要求	以MB为单位
yarn.scheduler.maximum-allocation-mb	资源管理器分配给每个容器的内存最大限制	以MB为单位
yarn.resourcemanager.nodes.include-path/	NodeManagers的permitted/excluded列表	如有必要，可使用这些文件来控制允许NodeManagers列表
yarn.resourcemanager.nodes.exclude-path	NodeManagers的permitted/excluded列表	如有必要，可使用这些文件来控制允许NodeManagers列表

<configuration>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>192.168.1.100:8081</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>192.168.1.100:8082</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>192.168.1.100:8083</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>192.168.1.100:8084</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>192.168.1.100:8085</value>
        <description>IP地址192.168.1.100也可替换为主机名</description>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.class</name>
        <value>FairScheduler</value>
        <description>常用类：CapacityScheduler、FairScheduler、orFifoScheduler</description>
    </property>
    <property>
        <name>yarn.scheduler.minimum</name>
        <value>100</value>
        <description>单位：MB</description>
    </property>
    <property>
        <name>yarn.scheduler.maximum</name>
        <value>256</value>
        <description>单位：MB</description>
    </property>
    <property>
        <name>yarn.resourcemanager.nodes.include-path</name>
        <value>nodeManager1, nodeManager2</value>
        <description>nodeManager1, nodeManager2分别对应服务器主机名</description>
    </property>
</configuration>

配置NodeManager

参数	属性值	解释
yarn.nodemanager.resource.memory-mb	givenNodeManager即资源的可用物理内存，以MB为单位	定义在节点管理器总的可用资源，以提供给运行容器
yarn.nodemanager.vmem-pmem-ratio	最大比率为一些任务的虚拟内存使用量可能会超过物理内存率	每个任务的虚拟内存的使用可以通过这个比例超过了物理内存的限制。虚拟内存的使用上的节点管理器任务的总量可以通过这个比率超过其物理内存的使用
yarn.nodemanager.local-dirs	数据写入本地文件系统路径的列表用逗号分隔	多条存储路径可以提高磁盘的读写速度
yarn.nodemanager.log-dirs	本地文件系统日志路径的列表逗号分隔	多条存储路径可以提高磁盘的读写速度
yarn.nodemanager.log.retain-seconds	10800	如果日志聚合被禁用。默认的时间（以秒为单位）保留在节点管理器只适用日志文件
yarn.nodemanager.remote-app-log-dir	logs	HDFS目录下的应用程序日志移动应用上完成。需要设置相应的权限。仅适用日志聚合功能
yarn.nodemanager.remote-app-log-dir-suffix	logs	后缀追加到远程日志目录。日志将被汇总到 $y a r n . n o d e m a n a g e r . r e m o t e a p p l o g d i r /$
yarn.nodemanager.aux-services	mapreduce-shuffle	Shuffle service 需要加以设置的Map Reduce的应用程序服务

<configuration>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>256</value>
        <description>单位为MB</description>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>90</value>
        <description>百分比</description>
    </property>
    <property>
        <name>yarn.nodemanager.local-dirs</name>
        <value>/usr/local/hadoop/tmp/nodemanager</value>
        <description>列表用逗号分隔</description>
    </property>
    <property>
        <name>yarn.nodemanager.log-dirs</name>
        <value>/usr/local/hadoop/tmp/nodemanager/logs</value>
        <description>列表用逗号分隔</description>
    </property>
    <property>
        <name>yarn.nodemanager.log.retain-seconds</name>
        <value>10800</value>
        <description>单位为S</description>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce-shuffle</value>
        <description>Shuffle service 需要加以设置的MapReduce的应用程序服务</description>
    </property>
</configuration>

etc/hadoop/mapred-site.xml

配置mapreduce

参数	属性值	解释
mapreduce.framework.name	yarn	执行框架设置为 Hadoop YARN.
mapreduce.map.memory.mb	1536	对maps更大的资源限制的.
mapreduce.map.java.opts	-Xmx2014M	maps中对jvm child设置更大的堆大小
mapreduce.reduce.memory.mb	3072	设置 reduces对于较大的资源限制
mapreduce.reduce.java.opts	-Xmx2560M	reduces对 jvm child设置更大的堆大小
mapreduce.task.io.sort.mb	512	更高的内存限制，而对数据进行排序的效率
mapreduce.task.io.sort.factor	100	在文件排序中更多的流合并为一次
mapreduce.reduce.shuffle.parallelcopies	50	通过reduces从很多的map中读取较多的平行副本

范例：

 1 <configuration>
 2     <property>
 3         <name> mapreduce.framework.name</name>
 4         <value>yarn</value>
 5         <description>执行框架设置为Hadoop YARN</description>
 6     </property>
 7     <property>
 8         <name>mapreduce.map.memory.mb</name>
 9         <value>1536</value>
10         <description>对maps更大的资源限制的</description>
11     </property>
12     <property>
13         <name>mapreduce.map.java.opts</name>
14         <value>-Xmx2014M</value>
15         <description>maps中对jvm child设置更大的堆大小</description>
16     </property>
17     <property>
18         <name>mapreduce.reduce.memory.mb</name>
19         <value>3072</value>
20         <description>设置 reduces对于较大的资源限制</description>
21     </property>
22     <property>
23         <name>mapreduce.reduce.java.opts</name>
24         <value>-Xmx2560M</value>
25         <description>reduces对 jvm child设置更大的堆大小</description>
26     </property>
27     <property>
28         <name>mapreduce.task.io.sort</name>
29         <value>512</value>
30         <description>更高的内存限制，而对数据进行排序的效率</description>
31     </property>
32     <property>
33         <name>mapreduce.task.io.sort.factor</name>
34         <value>100</value>
35         <description>在文件排序中更多的流合并为一次</description>
36     </property>
37     <property>
38         <name>mapreduce.reduce.shuffle.parallelcopies</name>
39         <value>50</value>
40         <description>通过reduces从很多的map中读取较多的平行副本</description>
41     </property>
42 </configuration>

配置mapreduce的JobHistory服务器

参数	属性值	解释
maprecude.jobhistory.address	MapReduce JobHistory Server host:port	默认端口号 10020
mapreduce.jobhistory.webapp.address	MapReduce JobHistory Server Web UIhost:port	默认端口号 19888
mapreduce.jobhistory.intermediate-done-dir	/mr-history/tmp	在历史文件被写入由MapReduce作业
mapreduce.jobhistory.done-dir	/mr-history/done	目录中的历史文件是由MR JobHistory Server管理

范例：

 1 <configuration>
 2     <property>
 3         <name> mapreduce.jobhistory.address</name>
 4         <value>192.168.1.100:10200</value>
 5         <description>IP地址192.168.1.100可替换为主机名</description>
 6     </property>
 7     <property>
 8         <name>mapreduce.jobhistory.webapp.address</name>
 9         <value>192.168.1.100:19888</value>
10         <description>IP地址192.168.1.100可替换为主机名</description>
11     </property>
12     <property>
13         <name>mapreduce.jobhistory.intermediate-done-dir</name>
14         <value>/usr/local/hadoop/mr-history/tmp</value>
15         <description>在历史文件被写入由MapReduce作业</description>
16     </property>
17     <property>
18         <name>mapreduce.jobhistory.done-dir</name>
19         <value>/usr/local/hadoop/mr-history/done</value>
20         <description>目录中的历史文件是由MR JobHistoryServer管理</description>
21     </property>
22 </configuration>

以上是关于虚拟器上部署hadoop常见的一些问题的主要内容，如果未能解决你的问题，请参考以下文章