hadoop运维案例分享

Posted 指尖流淌

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop运维案例分享相关的知识,希望对你有一定的参考价值。

1、Namenode岩机处理:重启集群无法恢复的情况下

一般NameNode情况下是不会岩机的,但如果出现违规操作,如突然断电等就会造成NameNode镜像文件的损坏,重启就起不来了。hdoop1的一个设计不好的地方就是单机依赖,对NameNode这台机器依赖太高,一旦NameNode出现岩机整个集群就会瘫了!

注:NameNode镜像文件盒secondnamenode镜像存放在哪里是有配置文件决定的

首先删除掉NameNode下的镜像文件

技术分享

复制namesecondary文件中的所有内容到NameNode节点下的那么文件中重启

技术分享

2、坏block处理

现象:

Namenode日志:The reported blocks 211655 needs additional 4687 blocks to reach the threshold 0.9990 of total blocks 216559.

Safe mode will be turned off automatically.

状态始终在safe mode模式

hadoop本身自带坏块的的修复功能,介于修复时间过于缓慢,一天修复20个,所以一般是采用直接删除坏块的方法

hadoop fsck / -delete 删除坏块

3、单机存储均衡

增加一个磁盘后的配置:

在hdfs-site.xml中

<property>

    <name>dfs.data.dir</name>

    <value>opt/hdfs/dfs/data1,opt/hdfs/dfs/data2</value>

</property>

value:第一个磁盘,第二个磁盘

hadoop本身自带一个blancer的机制,但是它只能检测每一个节点的磁盘使用率,把那些磁盘使用率高的那些块迁移到磁盘使用率低的节点里。

但是它检测的是全局的磁盘使用率,比如:一个磁盘使用99%,另一个使用10%,并不能在这两个节点之间均衡!

1.首先停掉集群,df -k 查看磁盘使用率信息,du -a|sort -rn|more查看块大小

2.进入opt/hdfs/dfs/data目录下。这里面是block块的物理存储文件,将data1中较多的数据严格按照目录进行移动到data2中

以上是关于hadoop运维案例分享的主要内容,如果未能解决你的问题,请参考以下文章

分享知识-快乐自己:运行(wordcount)案例

如何构建自动化运维平台?|50+案例分享日程上线!

医院业务软件健康管理实战案例分享

平安科技PostgreSQL案例分享|进程私有内存探密

海量监控数据处理如何做,看华为云SRE案例分享

Linux内存泄露案例分析和内存管理分享