hadoop运维案例分享

Posted 2020-07-23 指尖流淌

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了hadoop运维案例分享相关的知识，希望对你有一定的参考价值。

1、Namenode岩机处理:重启集群无法恢复的情况下

一般NameNode情况下是不会岩机的，但如果出现违规操作，如突然断电等就会造成NameNode镜像文件的损坏，重启就起不来了。hdoop1的一个设计不好的地方就是单机依赖，对NameNode这台机器依赖太高，一旦NameNode出现岩机整个集群就会瘫了！

注：NameNode镜像文件盒secondnamenode镜像存放在哪里是有配置文件决定的

首先删除掉NameNode下的镜像文件

复制namesecondary文件中的所有内容到NameNode节点下的那么文件中重启

2、坏block处理

现象：

Namenode日志：The reported blocks 211655 needs additional 4687 blocks to reach the threshold 0.9990 of total blocks 216559.

Safe mode will be turned off automatically.

状态始终在safe mode模式

hadoop本身自带坏块的的修复功能，介于修复时间过于缓慢，一天修复20个，所以一般是采用直接删除坏块的方法

hadoop fsck / -delete 删除坏块

3、单机存储均衡

增加一个磁盘后的配置：

在hdfs-site.xml中

</property>

value:第一个磁盘，第二个磁盘

hadoop本身自带一个blancer的机制，但是它只能检测每一个节点的磁盘使用率，把那些磁盘使用率高的那些块迁移到磁盘使用率低的节点里。

但是它检测的是全局的磁盘使用率，比如：一个磁盘使用99%，另一个使用10%，并不能在这两个节点之间均衡！

1.首先停掉集群，df -k 查看磁盘使用率信息，du -a|sort -rn|more查看块大小

2.进入opt/hdfs/dfs/data目录下。这里面是block块的物理存储文件，将data1中较多的数据严格按照目录进行移动到data2中

以上是关于hadoop运维案例分享的主要内容，如果未能解决你的问题，请参考以下文章