HBase实践 | 使用Spark分析云HBase的数据

Posted 2021-04-18 HBase技术社区

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了HBase实践 | 使用Spark分析云HBase的数据相关的知识，希望对你有一定的参考价值。

云HBase具有很好的在线入库和查询能力，不过在分析上面有比较大的欠缺，这篇文章主要介绍如何使用Spark对云HBase中数据做复杂分析。

1 云HBase查询分析的现状

HBase原生API：HBase原生API适合基于row key做点查，这个是HBase最擅长的查询场景
Phoenix：Phoenix作为HBase的SQL层，使用二级索引的技术，擅长多条件组合查询；Phoenix没有自己的计算资源，类似groupby这样的复杂查询需要借助HBase的协处理器来完成，这样一方面性能不好，同时会影响HBase集群的稳定性；
Spark：具有丰富的算子支持复杂分析，使用Spark集群的计算资源，通过并发分析的方式可以提高性能，同时不影响HBase集群的稳定性。

2 Spark分析HBase的方式对比

Spark分析HBase数据有“RDD API”、“SQL API”、“HFILE”三种方式，相关对比如下：

方式	特点	优点	缺点
RDD API	1.使用hadoop 社区的TableInputFormat、TableRecordReader工具类，来做split、数据scan； 2.具体API为 newAPIHadoopRDD();	1.spark、hive都集成了TableInputFormat、 TableRecordReader工具类	1.这种方式需要把表的所有数据全部scan到spark计算引擎做过滤、复杂计算等； 2.不支持HBase scan API中blockcache的开关以及cachesize的配置，在高并发scan大表时会影响HBase集群的稳定性
SQL API	1.通过spark的sql 优化器，支持谓词下推、列裁剪、分区裁剪等优化，尽可能的把优化下推到存储端，从而提高性能; 2 具有sql的schema到HBase column的映射，不用写复杂的类型转换; 3.支持HBase scan API中blockcache的开关以及cachesize的配置，用户可以根据场景调整，从而保证云Hbase的稳定性	1.充分列用HBase的存储特性，将优化下推到数据源端提高性能	1.使用scan API在分析大表时会增加HBase集群的load以及memory使用
HFILE	1.spark直接分析表的HFILE，直读HDFS，完全不用使用HBase集群资源； 2.spark直接分析表的HFILE与Scan的方式对比，可以减少一次对HFile中数据的序列化和反序列化，提高性能；	1.可以有效解决在高并发scan时导致HBase集群load高以及内存消耗； 2.直读HFILE有较好的性能表现	1.spark分析HFILE需要结合HBase的snapshot表的方式来保证分析数据的一致性

对于数据动态更新增加的小表推荐使用SQL API的方式，可以有效的优化分析，减少对HBase集群稳定性的影响；对于静态表或者全量静态表的分析推荐使用分析HFILE的方式直读HDFS，这样可以完全不影响HBase集群稳定性；不推荐使用RDD API 的方式，这种方式一方没有优化性能差，同时在高并发以及表数据量大时，会严重影响HBase集群的稳定性，从而影响在线业务。

3 三种方式的具体使用

https://github.com/lw309637554/alicloud-hbase-spark-examples?spm=a2c4e.11153940.blogcont573569.14.1b6077b4MNpI9X

依赖项：需要下载云HBase及云Phoenix的client包
分析HFILE：

需要先开通云HBase的HDFS访问权限，参考文档
在hbase shell中对表生成snapshot表“snapshot 'sourceTable', ‘snapshotName'”
在项目中配置自己的hdfs-sit.xml文件，然后通过直读HDFS的方式分析snapshot表

具体的example

RDD API对应：org.apache.spark.hbase.NativeRDDAnalyze
SQL API对应：org.apache.spark.sql.execution.datasources.hbase.SqlAnalyze
分析HFILE对应：org.apache.spark.hfile.SparkAnalyzeHFILE

以上是关于HBase实践 | 使用Spark分析云HBase的数据的主要内容，如果未能解决你的问题，请参考以下文章

Spark读写HBase实践

HBase 在爱奇艺的应用实践

如何使用MaxCompute Spark读写阿里云Hbase

HBase赠书|云HBase Thrift使用最佳实践

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程 J

HBase在腾讯大数据的应用实践