Spark 读取 Hbase 优化 --手动划分 region 提升并行数
Posted 格格巫 MMQ!!
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark 读取 Hbase 优化 --手动划分 region 提升并行数相关的知识,希望对你有一定的参考价值。
一. Hbase 的 region
咱们先简单介绍下 Hbase 的 架构和 region :web
从物理集群的角度看,Hbase 集群中,由一个 Hmaster 管理多个 HRegionServer,其中每一个 HRegionServer 都对应一台物理机器,一台 HRegionServer 服务器上又能够有多个 Hregion(如下简称 region)。要读取一个数据的时候,首先要先找到存放这个数据的 region。而 Spark 在读取 Hbase 的时候,读取的 Rdd 会根据 Hbase 的 region 数量划分 stage。因此当 region 存储设置得比较大致使 region 比较少,而 spark 的 cpu core 又比较多的时候,就会出现没法充分利用 spark 集群全部 cpu core 的状况。shell
咱们再从逻辑表结构的角度看看 Hbase 表和 region 的关系。服务器
Hbase是经过把数据分配到必定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中,这些region会被分配到一个或者多个regionServer中。在自动split策略中,当一个region达到必定的大小就会自动split成两个region。
Region由一个或者多个Store组成,每一个store保存一个columns family,每一个Strore又由一个memStore和0至多个StoreFile 组成。memStore存储在内存中, StoreFile存储在HDFS上。
region是HBase中分布式存储和负载均衡的最小单元。不一样Region分布到不一样RegionServer上,但并非存储的最小单元。
二. Spark 读取 Hbase 优化及 region 手动拆分
在用spark的时候,spark正是根据hbase有多少个region来划分stage。也就是说region划分得太少会致使spark读取时的并发度过低,浪费性能。但若是region数目太多就会形成读写性能降低,也会增长ZooKeeper的负担。因此设置每一个region的大小就很关键了。架构
自0.94.0版本以来,split还有三种策略能够选择,不过通常使用默认的分区策略就能够知足需求,咱们要修改的是会触发 region 分区的存储容量大小。并发
而在0.94.0版本中,默认的 region 大小为10G,就是说当存储的数据达到 10 G 的时候,就会触发 region 分区操做。有时候这个值可能太大,这时候就须要修改配置了。咱们能够在 HBASE_HOME/conf/hbase-site.xml 文件中,增长以下配置:负载均衡
hbase.hregion.max.filesize 536870912 其中的 value 值就是你要修改的触发 region 分区的大小,要注意这个值是以 bit 为单位的,这里是将region文件的大小改成512m。分布式修改以后咱们就能够手动 split region了,手动分区会自动根据这个新的配置值大小,将 region 已经存储起来的数据进行再次进行拆分。svg
咱们能够在 hbase shell 中使用 split 来进行操做,有如下几种方式能够进行手动拆分。性能
split ‘tableName’
split ‘namespace:tableName’
split ‘regionName’ # format: ‘tableName,startKey,id’
split ‘tableName’, ‘splitKey’
split ‘regionName’, ‘splitKey’
这里使用的是 split ‘namespace:tableName’ 这种方式。其中 tableName 自没必要多说,就是要拆分的表名,namespace能够在hbase的web界面中查看,通常会是default。优化
使用命令以后稍等一会,hbase会根据新的region文件大小去split,最终结果能够在web-ui的"table Details"一栏,点击具体table查看。
以上是关于Spark 读取 Hbase 优化 --手动划分 region 提升并行数的主要内容,如果未能解决你的问题,请参考以下文章
Spark 实战系列Spark 使用 BulkLoad 同步数据到 hbase 排序优化
Spark 实战系列Spark 使用 BulkLoad 同步数据到 hbase 排序优化