Hbase数据库检索性能优化策略

Posted 麦克叔叔每晚10点说

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hbase数据库检索性能优化策略相关的知识,希望对你有一定的参考价值。

原文已发布在IBM开发者论坛,阅读全文请点击文章最底部的“阅读原文”。感谢IBM开发者论坛一直致力于技术推广,一家很棒的技术文章网站。

HBase 数据表介绍

HBase 数据库是一个基于分布式的、面向列的、主要用于非结构化数据存储用途的开源数据库。其设计思路来源于 Google 的非开源数据库”BigTable”。


HDFS 为 HBase 提供底层存储支持,MapReduce 为其提供计算能力,ZooKeeper 为其提供协调服务和 failover(失效转移的备份操作)机制。Pig 和 Hive 为 HBase 提供了高层语言支持,使其可以进行数据统计(可实现多表 join 等),Sqoop 则为其提供 RDBMS 数据导入功能。


HBase 不能支持 where 条件、Order by 查询,只支持按照主键 Rowkey 和主键的 range 来查询,但是可以通过 HBase 提供的 API 进行条件过滤。


HBase 的 Rowkey 是数据行的唯一标识,必须通过它进行数据行访问,目前有三种方式,单行键访问、行键范围访问、全表扫描访问。数据按行键的方式排序存储,依次按位比较,数值较大的排列在后,例如 int 方式的排序:1,10,100,11,12,2,20…,906,…。


ColumnFamily 是“列族”,属于 schema 表,在建表时定义,每个列属于一个列族,列名用列族作为前缀“ColumnFamily:qualifier”,访问控制、磁盘和内存的使用统计都是在列族层面进行的。


Cell 是通过行和列确定的一个存储单元,值以字节码存储,没有类型。


Timestamp 是区分不同版本 Cell 的索引,64 位整型。不同版本的数据按照时间戳倒序排列,最新的数据版本排在最前面。


Hbase 在行方向上水平划分成 N 个 Region,每个表一开始只有一个 Region,数据量增多,Region 自动分裂为两个,不同 Region 分布在不同 Server 上,但同一个不会拆分到不同 Server。


Region 按 ColumnFamily 划分成 Store,Store 为最小存储单元,用于保存一个列族的数据,每个 Store 包括内存中的 memstore 和持久化到 disk 上的 HFile。


图 1 是 HBase 数据表的示例,数据分布在多台节点机器上面。

HBase 调用 API 示例

类似于操作关系型数据库的 JDBC 库,HBase client 包本身提供了大量可以供操作的 API,帮助用户快速操作 HBase 数据库。提供了诸如创建数据表、删除数据表、增加字段、存入数据、读取数据等等接口。

点击”阅读全文“将会跳转进入IBM页面,即可阅读整篇文章哦!(注:因已发布在IBM文章不得全文转载,因此本文仅截取前段部分)

发个小广告!!!走过路过,不要错过!新书来啦!!!

Hbase数据库检索性能优化策略
Hbase数据库检索性能优化策略
Hbase数据库检索性能优化策略
Hbase数据库检索性能优化策略

这里有你想买的书!

http://product.dangdang.com/23949549.html#ddclick_reco_reco_relate

麦克叔叔每晚十点说


以上是关于Hbase数据库检索性能优化策略的主要内容,如果未能解决你的问题,请参考以下文章

Hbase数据库检索性能优化策略

HBase最佳实践-读性能优化策略

突破性能瓶颈!ElasticSearch百亿级数据检索优化案例

Unity优化篇 | Unity脚本代码优化策略,空引用快速检索使用合适的数据结构禁用脚本和对象等 性能优化方法

ElasticSearch 亿级数据检索深度性能优化

HBase 写性能优化