《大数据技术应用与原理》第二版-第四章分布式数据库HBase

Posted 2021-03-21 睿晞

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了《大数据技术应用与原理》第二版-第四章分布式数据库HBase相关的知识，希望对你有一定的参考价值。

HBase的功能组件，主要有三个功能组件，库函数，链接到每个客户端；Master主服务器；许多个Region服务器。
- Region服务器负责存储和维护分配给自己的Region，处理来自客户端的读写请求。
- 主服务器，Master负责管理和维护HBase表的分区信息。
- Hbase客户端并不依赖于Master而是借助Zookeeper来获得Region的位置。
表和Region， Region是负载均衡和数据分发的基本单位。，每个Region的大小是100M~200MB，同一个Region是不会被拆分到多个Region服务器上的。
Region的定位，每个Region都有一个的RegionID来标识它的唯一性，一个Region标识符可以表示为“表名+开始主键+RegionID”。映射表包括两项内容，一个是Region的标识符，另一个是Region服务器标识，也称为“元数据表”，又名“.META.表”。如果元数据表过多了，就会产生根数据表，-ROOT-表，客户访问用户数据前，首先访问Zookeeper。

客户端是访问HBase的接口，同时在缓存中维护着已经访问过的Region位置信息，用来加快后续访问过程。
Zookeeper服务器并非一台单一的机器，可能由多台机器构成的集群来提供稳定可靠的协同服务。Zookeeper中保存了根数据表和Master的地址。
Master， Master服务器主要负责Region的管理工作。
- 管理用户对于表的增加、删除、修改、查询等操作。
- 实现不同Region服务器之间的负载均衡
- 在Region分裂合并后，负责重新调整Region的分布
- 对于发生故障失效的Region服务器上的Region进行迁移
Region服务器，是HBase最核心的模块，负责维护分配给自己的Region，并且响应读写请求。HBase本身并不具备数据复制和维护数据副本功能，而是HDFS可以为HBase提供这些支持。

Region服务器中管理了一系列的Region对象和一个HLog文件，其中HLog文件是磁盘上面的记录文件，记录着所有的更新操作。
每个Region对象又是由多个Store组成，每个Store对应表中的的一个列族存储，每个Store又包含一个MemStore和若干个StoreFile；其中MemStore是内存中的缓存，保存最新更新的数据；StoreFile是磁盘中的文件，这些文件都是B树结构，底层实现方式是HDFS的HFile

MemStore是排序的内存缓冲区，当MemStore缓存满时，就会刷新到磁盘中的StoreFile文件中。随着多个StoreFile合并称为一个大的文件，当文件超过一个阈值的时候，会触发一个文件分裂操作，同时当前一个父Region会分裂成两个子Region，新分裂出的两个子Region被Master分配到相应的Region服务器上。

HBase采用HLog来保证系统发生故障时能够发生故障时能够恢复到正常状态。每个Region服务器中配置一个HLog文件，它是一种预写式日志，也就是被写入日志后才能够写入MemStore缓存。

hbase shell 进入Shell环境
create ‘t1‘, {NAME => ‘f1‘, VERSIONS => 5} 创建表t1，列族f1，列族版本号为5
create ‘t1‘, {NAME => ‘f1‘}, {NAME => ‘f2‘}, {NAME => ‘f3‘} 创建表t1，三个列族，或则使用命令代替create ‘t1‘, ‘f1‘, ‘f2‘, ‘f3‘
list 列出HBase所有的表信息
put ‘t1‘, ‘row1‘, ‘f1:c1‘, ‘value1‘, 1421822284898向表中t1中行row1和列f1：c1对应的单元格中添加数据value1，时间戳为后面那串数字。
get用来获取数据
scan用来浏览表
alter修改列族模式alter ‘t1‘, NAME => ‘f1‘向表t1中添加列族f1alter ‘t1‘, NAME => ‘f1‘ METHOD => ‘delete‘删除表中列f1
count统计表中行数
describe ‘t1‘显示表的相关信息
drop删除表
shutdown关闭集群

以上是关于《大数据技术应用与原理》第二版-第四章分布式数据库HBase的主要内容，如果未能解决你的问题，请参考以下文章