Hbase RIT 故障修复

Posted alliswell2king

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hbase RIT 故障修复相关的知识,希望对你有一定的参考价值。

业务场景:

RocketMQ+Storm+Hbase

组件版本:

RocketMQ:3.4.6

Storm:1.2.1

Hbase:1.2.1

1. 问题描述

4月15号早上发现业务系统前一天数据量明显偏低,查看系统发现storm入Hbase的TPS很低,甚至为0。

2. 问题定位

通过查看Hbase和Storm监控页面,发现dscn18节点不在服务中,远程连接比较卡顿,去机房查看没有报警,通过终端查看HRegionServer和Supervisor进程都在,15号上午11点多查看系统日志:/var/log/message:

系统日志:

 技术图片

重启后,日志变为正常

 技术图片

综上判断可能是因为网络通信原因导致dscn18节点异常。

Hbase日志:显示dscn18,region已下线

 技术图片

Storm日志:显示连接超时

  技术图片

Hbase监控页面:RIT问题

 技术图片

综上,可判断,由于dscn18节点连接异常,导致当前节点Hbase和Storm的服务异常,另外Hbase出现RIT,会影响Hbase的写入。

 

3. 解决过程

当时尝试重启拓扑,但写入TPS很低,后来将dscn18的Regionserver下线,效果仍不理想,最后决定做Hbase在线修复(dscn18已下线):

当时Hbase状态:

 技术图片

步骤:

1. hbase hbck 检查输出所以ERROR信息,每个ERROR都会说明错误信息。

2. hbase hbck -fixTableOrphans 先修复tableinfo缺失问题,根据内存cache或者hdfs table 目录结构,重新生成tableinfo文件。

3. hbase hbck -fixHdfsOrphans 修复regioninfo缺失问题,根据region目录下的hfile重新生成regioninfo文件。

4. hbase hbck -fixHdfsOverlaps 修复region重叠问题,merge重叠的region为一个region目录,并从新生成一个regioninfo。

5. hbase hbck -fixHdfsHoles 修复region缺失,利用缺失的rowkey范围边界,生成新的region目录以及regioninfo填补这个空洞。

6. hbase hbck -fixMeta 修复meta表信息,利用regioninfo信息,重新生成对应meta row填写到meta表中,并为其填写默认的分配regionserver。

7. hbase hbck -fixAssignments 把这些offline的region触发上线,当region开始重新open 上线的时候,会被重新分配到真实的RegionServer上 , 并更新meta表上对应的行信息。

 

另外,当执行完所有修复步骤后仍然有:

ERROR: Empty REGIONINFO_QUALIFIER found in hbase:meta

执行:

hbase hbck -fixEmptyMetaCells

 

当时修复了近三个小时,修复完成后,重启了Hbase,RIT异常解决了,再次检查出现了新的问题:

1、元数据缺失

 技术图片

2、region重叠

 技术图片

 技术图片

 技术图片

再利用之前的修复命令无法修复。通过协商得到解决办法:

针对1:

通过执行hbase hbck -fixEmptyMetaCells

修复 ERROR: Empty REGIONINFO_QUALIFIER found in hbase:meta

针对2:

delete ‘hbase:meta‘,‘DBN_YTO,601889669485241086,1536145292692.f47aaa41740bf9d99b1cc19b3de29d9b.‘,‘info:regioninfo‘

delete ‘hbase:meta‘,‘DBN_YTO,601889669485241086,1546409804387.7795e5726f6f9e018cfa2fe93b20556d.‘,‘info:regioninfo‘

hdfs dfs -rm -r /hbase/data/default/DBN_YTO/f47aaa41740bf9d99b1cc19b3de29d9b

hdfs dfs -rm -r /hbase/data/default/DBN_YTO/7795e5726f6f9e018cfa2fe93b20556d

最后执行:

hbase hbck -fixAssignments -fixMeta -fixHdfsHoles

 技术图片

Hbase状态为正常,到此Hbase修复完毕!

之后重启合并Storm,个别端口连接被占用,重启Storm后检查无僵尸进程,最终将worker数由400改为340(17个Storm节点),任务启动成功,总TPS达到8万左右,到此问题解决完毕。

4. 总结

Hbase在线修复之前首先保证停掉相关业务,并且确保所有region都在线,否则修复可能会产生重复region,另外确保hbase根目录下文件没有损坏丢失,如果有,先移除掉,再修复。

 技术图片

 移除命令:

hdfs fsck -delete

/hbase/back/SJYB_FEDEX/fedex_back/e90da00b658869d9e8ec90b871637adc/if/5612ded9b14341e19160bdc7238bf4da

 

 

 

引用:https://www.cnblogs.com/changsblogs/p/12145338.html

 

以上是关于Hbase RIT 故障修复的主要内容,如果未能解决你的问题,请参考以下文章

linux启动故障修复

模拟磁盘引导故障修复

数仓备机DN重建:快速修复你的数仓DN单点故障

看完这篇,DWS故障修复不再愁

诊断和响应故障_使用数据恢复顾问(Data Recovery Advisor)诊断和修复故障

Hadoop--单点故障修复