HBase的布隆过滤器
Posted 行歌天涯
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HBase的布隆过滤器相关的知识,希望对你有一定的参考价值。
- 布隆过滤器是一种算法,可以实现用很小的空间和运算代价,来实现海量数据的存在与否的记录
- 如爬虫系统中可以用布隆过滤器来实现快速判断一个url是否爬取过
- 如hbase中regionserver可以用布隆过滤器来快速判断一个rowkey是否存在于一个hfile文件中
- 思想:
- 准备一个较长的字节数组
- 将存量数据中的每一个数据,用一个特定算法映射成若干个特定位置上的1,记录在数组中
- 将要判断的数据,用同样的算法映射出特定位置,到数组中去查看是否全部匹配,若全部匹配,说明这个数据99%是存在的,否认100%不存在
- hbase的regionserver中对布隆过滤器的应用示意图
以上是关于HBase的布隆过滤器的主要内容,如果未能解决你的问题,请参考以下文章