CDH平台DATANODE数据块阀值参数设置

Posted 格格巫 MMQ!!

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CDH平台DATANODE数据块阀值参数设置相关的知识,希望对你有一定的参考价值。

我们的一个生产环境的hadoop集群上25个datanode,几乎每个节点都报数据块阀值告警。例如其中一个节点:DataNode 有 565,596 个块。 警告阈值:500,000 块。

集群上给出的建议如下:

这是 DataNode 运行状况检查,用于检查 DataNode 是否含有过多的块。如果 DataNode 含有过多的块,可能影响 DataNode 的性能。具有大量块数的 DataNode 将需要较大的 java 堆并且可能遇到较长时间的垃圾回收暂停。另外,大量块数可能表明存在许多小文件。不会为处理许多小文件而优化 HDFS,跨许多小文件进行操作时处理时间可能受影响。
如果只有部分 DataNode 有大量块,运行 HDFS 重新平衡命令可以通过移动 DataNode 之间的数据解决该问题。如果 HDFS 重新平衡命令将群集报告为平衡,没有修复块不平衡,则问题与存在的许多小文件有关。参阅 HDFS 文档了解解决该问题的最佳做法。如果许多小文件不是您的使用案例的关注点,则考虑禁用该运行状况测试。如果所有 DataNode 都有大量块数且该问题与小文件无关,则应添加更多 DataNode。

请问下谁知道这个阀值是根据什么设置的? 如果要修改应该改成多少合适?

以上是关于CDH平台DATANODE数据块阀值参数设置的主要内容,如果未能解决你的问题,请参考以下文章

CDH构建大数据平台-集群配置优化实战之HDFS集群调优

设置Hadoop的 dataNode的单个Map的内存配置

设置每个datanode里面的map数目,提高运行效率

CDH--HDFS和Yarn存储不足

大数据平台搭建 - cdh5.11.1 - oozie安装

HDFS数据迁移目录到正确姿势