HBase的布隆过滤器

Posted 行歌天涯

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HBase的布隆过滤器相关的知识,希望对你有一定的参考价值。

  • 布隆过滤器是一种算法,可以实现用很小的空间和运算代价,来实现海量数据的存在与否的记录
    • 如爬虫系统中可以用布隆过滤器来实现快速判断一个url是否爬取过
    • 如hbase中regionserver可以用布隆过滤器来快速判断一个rowkey是否存在于一个hfile文件中
  • 思想:
    • 准备一个较长的字节数组
    • 将存量数据中的每一个数据,用一个特定算法映射成若干个特定位置上的1,记录在数组中
    • 将要判断的数据,用同样的算法映射出特定位置,到数组中去查看是否全部匹配,若全部匹配,说明这个数据99%是存在的,否认100%不存在
  • hbase的regionserver中对布隆过滤器的应用示意图

以上是关于HBase的布隆过滤器的主要内容,如果未能解决你的问题,请参考以下文章

Hbase的Bloomfilter(布隆过滤器)

使用MR编程hbase和hbase调优-布隆过滤器

Hbase 布隆过滤器BloomFilter介绍

hbase中的位图索引--布隆过滤器

技术分享布隆过滤器原理及在HBase应用

布隆过滤器:后端开发者必学的知识点!