cloudera learning5:Hadoop集群高级配置

Posted 2020-08-11 软件心理学工程师

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了cloudera learning5:Hadoop集群高级配置相关的知识，希望对你有一定的参考价值。

HDFS-NameNode Tuning:

dfs.namenode.handler.count:

NameNode可开启的thread number,thread为从NameNode到DataNode的RPC请求。Default值为30(CM，Non CM is 10)。推荐设置为集群node数量*20 再取log。如果设置的太小，当DataNode试图从NameNode上获取block信息时，DataNode log会报“connect refused”。

HDFS-DataNode Tuning:

dfs.datanode.failed.volumes.tolerated：

磁盘挂掉几块时，dataNode自动下线。默认为0,即DataNode不自动下线。

dfs.datanode.max.locked.memory：

DataNode最大的缓存size,默认为4G。

io.compression.codecs文件压缩：

配置Hadoop集群文件压缩策略:DefaultCodec, GzipCodec, BZip2Codec, DeflateCodec, SnappyCodec,Lz4Codec

YARN/GateWay Tuning

mapreduce.job.reduce.slowstart.completedmaps:

Map tasks执行完成百分之多少，开始创建reducer执行的容器。

mapreduce.reduce.shuffle.parallelcopies reducer：

Reducer内部可开的线程数。CM默认为10。推荐值计算方式：ln(count(cluster nodes)*4)