HDFS 数据平衡规则及实验介绍

Posted 2021-04-14 麦克叔叔每晚10点说

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了HDFS 数据平衡规则及实验介绍相关的知识，希望对你有一定的参考价值。

原文已发布在IBM开发者论坛，阅读全文请点击文章最底部的“阅读原文”。感谢IBM开发者论坛一直致力于技术推广，一家很棒的技术文章网站。

Hadoop HDFS 数据平衡原理

Hadoop 分布式文件系统（Hadoop Distributed File System），简称 HDFS，被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是一个高容错性的文件系统，提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS 是 Apache Hadoop Core 项目一部分。

数据平衡期望满足的需求

当集群内新增、删除节点，或者某个节点机器内硬盘存储达到饱和值时，我们需要对 Hadoop 底层负责存储数据的 HDFS 进行数据的负载均衡调整，也可以说是各节点机器上数据的存储分布调整。当数据不平衡时，由于 Map 任务可能会被分配给没有存储数据的机器，这会最终导致网络带宽的消耗。另一方面，当一些数据节点数据完全满载时，新的数据块只会被存放在有空余数据的节点机器上，造成了并行读取的可能性。

我们所希望的方式必须满足先决条件：

数据平衡不会导致数据块减少，数据块备份丢失；

管理员可以中止数据平衡进程；

每次数据块移动的大小应该是可控的，这样可以放置阻塞网络；

namenode 不会因为数据平衡服务而导致过于繁忙。

Hadoop 提供的自带工具可以来完成这个任务，并且该工具可以做到热插拔，即无须重启计算机和 Hadoop 服务。$Hadoop_Home/bin 目录下的 start-balancer.sh 脚本就是该任务的启动脚本。

Hadoop HDFS 数据自动平衡原理

数据平衡过程由于平衡算法的原因造成它是一个迭代的、周而复始的过程。每一次迭代的最终目的是让高负载的机器能够降低数据负载，所以数据平衡会最大程度上地使用网络带宽。下图 1 数据平衡流程交互图显示了数据平衡服务内部的交互情况，包括 NameNode 和 DataNode。

点击”阅读全文“将会跳转进入IBM页面，即可阅读整篇文章哦！（注：因已发布在IBM文章不得全文转载，因此本文仅截取前段部分）

发个小广告！！！走过路过，不要错过！新书来啦！！！