Hbase 性能行键与列限定符

Posted 2023-04-18

技术标签:

【中文标题】Hbase 性能行键与列限定符【英文标题】：Hbase performance rowkey vs column qualifiers 【发布时间】：2017-01-23 10:01:54 【问题描述】：

问题：我需要在每小时和每天之后在 Hbase 中插入一些用户 ID（例如：2201201711，这代表 2017 年 1 月 22 日：上午 11 点数据）。如果我想在某个日期或数据和时间范围内获取特定小时的所有用户 ID，那么表的设计应该是什么。

到目前为止我所做的，我将用户 ID 保留为行键，并在运行时在同一列族中创建列。文件数据：用户名 |约会时间 1 2201201711 2 2201201711 3 2201201711

我的 hbase 行键将是 1、2 和 3，并且将创建新列 2201201711。

我知道我可以使用使用日期、小时和用户 ID 的复合键。但我想了解它在性能方面提供了什么好处。

如果我选择一整列（没有任何过滤器）与使用复合行键查找，性能差异是什么。

【问题讨论】：

【参考方案1】：

解决方案可能会有所不同，具体取决于您要放入此表的数据量以及您经常读取此表的方式（扫描或获取）。

我的解决方案会考虑到，这个表会很大，并且经常会在这个表上执行扫描：

数据时间部分可以转换为EPOCH，转换后的值可以用作表的rowKey，用户ID可以保留在列限定符中。通过这种方式，当您想要使用 Scan 中的 startRow 和 endRow 扫描整个表以查找特定日期时间范围时，它会很有效。据我所见，当我们以这种方式扫描一个巨大的表时，scan 的性能会更好，因为它会跳过 startRowKey 和 endRowKey 之前和之后的记录。

【讨论】：

以上是关于Hbase 性能行键与列限定符的主要内容，如果未能解决你的问题，请参考以下文章