Hadoop服务器间数据均衡

Posted 刘元涛

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop服务器间数据均衡相关的知识,希望对你有一定的参考价值。

在企业开发中,如果经常在hadoop102和hadoop104上提交任务,且副本数为2,由于数据本地性原则,就会导致hadoop102和hadoop104数据过多,hadoop103存储的数据量小。

另一种情况,就是新服役的服务器数据量比较少,需要执行集群均衡命令。

开启数据均衡命令:

[lytfly@hadoop105 hadoop-3.1.4]$ sbin/start-balancer.sh -threshold 10

对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。

停止数据均衡命令:

[lytfly@hadoop105 hadoop-3.1.4]$ sbin/stop-balancer.sh

注意:由于HDFS需要启动单独的Rebalance Server来执行Rebalance操作,所以尽量不要在NameNode上执行start-balancer.sh,而是找一台比较空闲的机器。

以上是关于Hadoop服务器间数据均衡的主要内容,如果未能解决你的问题,请参考以下文章

大数据——Hadoop集群调优

Hadoop集群数据均衡之磁盘间数据均衡

Hadoop集群数据均衡之磁盘间数据均衡

Hadoop-生产调优手册

Hadoop-生产调优手册

大数据技术之Hadoop(生产调优手册)