hbase 的数据存储及Region变化（flush compaction spilt）和性能调优

Posted 2023-03-10

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了hbase 的数据存储及Region变化（flush compaction spilt）和性能调优相关的知识，希望对你有一定的参考价值。

参考技术A 1. 对表做预分区处理（即在建表时指定Region数量和拆分边界）；

2.配置hbase.hregion.max.filesize为50GB

以fileServer为例，在使用默认的split策略--IncreasingToUpperBoundRegionSplitPolicy 的情况下，16个预分区Region, 则单个Resion容量达到 min(32,50),即32GB时分裂。

3.修改Linux最大文件句柄数

因为hbase是以文件的形式存储数据，最大文件句柄数影响着hbase的并发量。

用root权限修改/etc/security/limits.conf文件，增加以下内容（前面的*不能忽略）：

* soft nproc 10240

* hard nproc 10240

* soft nofile 10240

* hard nofile 10240

编辑/etc/pam.d/common-session，加入一行

session required pam_limits.so

编辑/etc/profile，加入

ulimit -SHn 51200

重新登陆，生效

4.HRegionServer挂掉异常和解决：

is not online on......

常规解决方案：

删除zk中hbase的缓存

重启hbase

使用上述解决方案后本次异常依旧存在，并且HMaster和HRegionServer都不断的自动挂掉。

HMaster报错：

解决方案：

新增配置（看情况决定使用不使用，建议在HMaster不能启动时排除错误使用）（让启动hbase时只让HMaster去进行日志split，缺点是恢复数据时候速度慢）：

<property>

<name>hbase.master.distributed.log.splitting</name>

<value>false</value>

</property>

删除WAL文件（会丢数据）：

6. RPC请求的最大线程数

hbase.regionserver.handler.count 默认是10，在服务器测试时建议设置到50（经测试在单个Region Server时无用，单个RegionServer 最多在6个线程put时保持稳定）

7.日志分割（hbase出错后恢复数据）

MemStore中大量更新丢失时，对数据进行恢复时会做日志分割

hbase.regionserver.hlog.splitlog.writer.threads 日志分割的线程数，默认为3 ，建议设定为10

8.Region Server频繁掉线

出现Hbase Region Server频繁掉线的情况，表现为在多线程put的情况下，忽然Hbase Region Server掉线

猜测是GC或者split过程中没有及时和ZK通信，导致与ZK连接时间超时，zk返回dead region到master，当Hbase Region恢复正常后，找不到wal,产生如下报错。

zookeeper.session.timeout ：默认值是3分钟

但是 hbase regionserver和zookeeper的timeout不是单方面决定的，是取决于hbase的zookeeper.session.timeout和zookeeper的MaxSessionTimeout中的最小值

配置hbase:

zookeeper.session.timeout

600000

配置zookeeper:

tickTime=30000

9.内存及GC优化

在测试的过程中依旧出现Hbase Region Server掉线的情况，报错如下

2021-02-0318:49:14,091INFO[sync.0]wal.FSHLog: Slow sync cost:1955ms, current pipeline: []

2021-02-0318:49:14,091WARN[regionserver/botsc/192.168.0.107:16020.append-pool5-t1]wal.MetricsWAL: regionserver/botsc/192.168.0.107:16020.append-pool5-t1 took1953ms appending an edit to wal; len~=109

2021-02-0318:49:14,106ERROR[sync.3]wal.FSHLog:Errorsyncing, request close of WAL

java.io .IOException:io.grpc.StatusRuntimeException: CANCELLED: Failed to stream message

    at seaweed.hdfs.SeaweedOutputStream.flushWrittenBytesToServiceInternal(SeaweedOutputStream.java:78)

    at seaweed.hdfs.SeaweedOutputStream.flushWrittenBytesToServiceAsync(SeaweedOutputStream.java:263)

    at seaweed.hdfs.SeaweedOutputStream.flushInternalAsync(SeaweedOutputStream.java:243)

    at seaweed.hdfs.SeaweedOutputStream.flush(SeaweedOutputStream.java:129)

at java.io .FilterOutputStream.flush(FilterOutputStream.java:140)

at java.io .DataOutputStream.flush(DataOutputStream.java:123)

    at org.apache.hadoop.hbase.regionserver.wal.ProtobufLogWriter.sync(ProtobufLogWriter.java:170)

    at org.apache.hadoop.hbase.regionserver.wal.FSHLog$SyncRunner.run(FSHLog.java:1286)

    at java.lang.Thread.run(Thread.java:748)

修改hbase的配置文件hbase-env.sh，GC优化如下：

export HBASE_HEAPSIZE=21384

export master_heapsize=8292

export regionserver_heapsize=21384

export HBASE_OPTS="$HBASE_OPTS -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=60 -XX:+UseParNewGC -XX:ParallelGCThreads=6"

export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS $HBASE_JMX_BASE -Xmx8g -Xms8g -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70"

export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS $HBASE_JMX_BASE -Xmx20g -Xms20g -Xmn1g -XX:+UseParNewGC

-XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70"

以上是关于hbase 的数据存储及Region变化（flush compaction spilt）和性能调优的主要内容，如果未能解决你的问题，请参考以下文章

HBase存储结构

Hbase扩容原理

HBase从入门到精通11：HBase数据保存过程和Region分裂

Hbase数据存储原理与读写详解

HBase原理深入

HBase的数据存储原理