HDFS 数据平衡规则及实验介绍
Posted 麦克叔叔每晚10点说
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HDFS 数据平衡规则及实验介绍相关的知识,希望对你有一定的参考价值。
原文已发布在IBM开发者论坛,阅读全文请点击文章最底部的“阅读原文”。感谢IBM开发者论坛一直致力于技术推广,一家很棒的技术文章网站。
Hadoop HDFS 数据平衡原理
Hadoop 分布式文件系统(Hadoop Distributed File System),简称 HDFS,被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是一个高容错性的文件系统,提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS 是 Apache Hadoop Core 项目一部分。
数据平衡期望满足的需求
当集群内新增、删除节点,或者某个节点机器内硬盘存储达到饱和值时,我们需要对 Hadoop 底层负责存储数据的 HDFS 进行数据的负载均衡调整,也可以说是各节点机器上数据的存储分布调整。当数据不平衡时,由于 Map 任务可能会被分配给没有存储数据的机器,这会最终导致网络带宽的消耗。另一方面,当一些数据节点数据完全满载时,新的数据块只会被存放在有空余数据的节点机器上,造成了并行读取的可能性。
我们所希望的方式必须满足先决条件:
数据平衡不会导致数据块减少,数据块备份丢失;
管理员可以中止数据平衡进程;
每次数据块移动的大小应该是可控的,这样可以放置阻塞网络;
namenode 不会因为数据平衡服务而导致过于繁忙。
Hadoop 提供的自带工具可以来完成这个任务,并且该工具可以做到热插拔,即无须重启计算机和 Hadoop 服务。$Hadoop_Home/bin 目录下的 start-balancer.sh 脚本就是该任务的启动脚本。
Hadoop HDFS 数据自动平衡原理
数据平衡过程由于平衡算法的原因造成它是一个迭代的、周而复始的过程。每一次迭代的最终目的是让高负载的机器能够降低数据负载,所以数据平衡会最大程度上地使用网络带宽。下图 1 数据平衡流程交互图显示了数据平衡服务内部的交互情况,包括 NameNode 和 DataNode。
点击”阅读全文“将会跳转进入IBM页面,即可阅读整篇文章哦!(注:因已发布在IBM文章不得全文转载,因此本文仅截取前段部分)
发个小广告!!!走过路过,不要错过!新书来啦!!!
这里有你想买的书!
http://product.dangdang.com/23949549.html#ddclick_reco_reco_relate
麦克叔叔每晚十点说
以上是关于HDFS 数据平衡规则及实验介绍的主要内容,如果未能解决你的问题,请参考以下文章