BloomFilter 布隆过滤器思想原理和代码实现
Posted 禅与计算机程序设计艺术
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了BloomFilter 布隆过滤器思想原理和代码实现相关的知识,希望对你有一定的参考价值。
简介
布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。
算法思想
如果想要判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链表,树等等数据结构都是这种思路. 但是随着集合中元素的增加,我们需要的存储空间越来越大,检索速度也越来越慢(O(n),O(logn))。
不过世界上还有一种叫作散列表(又叫哈希表,Hash table)的数据结构。它可以通过一个Hash函数将一个元素映射成一个位阵列(Bit array)中的一个点。
这样一来,我们只要看看这个点是不是 1 。有如下两种情况:
1、如果不是 1 , 也就是 0, 那么该元素必定不存在。
2、如果都是1, 也只能说,该元素大概率存在。
这就是布隆过滤器的基本思想。
Hash面临的问题就是冲突。假设Hash函数是良好的,如果我们的位阵列长度为m个点,那么如果我们想将冲突率降低到例如 1%, 这个散列表就只能容纳 m / 100 个元素,显然,这就不叫空间效率了(Space-efficient)了。
解决方法也简单,就是使用多个Hash function,如果它们有一个说元素不在集合中,那肯定就不在。如果它们都说在,虽然也有一定可能性它们在说谎,不过直觉上判断这种事情的概率是比较低的。
应用场景
网页URL的去重,垃圾邮件的判别,集合重复元素的判别,查询加速(比如基于key-value的存储系统)、数据库防止查询击穿, 使用BloomFilter来减少不存在的行或列的磁盘查找。
java代码实现
public class MyBloomFilter
/**
* 一个长度为10 亿的比特位
*/
private static final int DEFAULT_SIZE = 256 << 22;
/**
* 为了降低错误率,使用加法hash算法,所以定义一个8个元素的质数数组
*/
private static final int[] seeds = 3, 5, 7, 11, 13, 31, 37, 61;
/**
* 相当于构建 8 个不同的hash算法
*/
private static HashFunction[] functions = new HashFunction[seeds.length];
/**
* 初始化布隆过滤器的 bitmap
*/
private static BitSet bitset = new BitSet(DEFAULT_SIZE);
/**
* 添加数据
*
* @param value 需要加入的值
*/
public static void add(String value)
if (value != null)
for (HashFunction f : functions)
//计算 hash 值并修改 bitmap 中相应位置为 true
bitset.set(f.hash(value), true);
/**
* 判断相应元素是否存在
* @param value 需要判断的元素
* @return 结果
*/
public static boolean contains(String value)
if (value == null)
return false;
boolean ret = true;
for (HashFunction f : functions)
ret = bitset.get(f.hash(value));
//一个 hash 函数返回 false 则跳出循环
if (!ret)
break;
return ret;
/**
* 测试。。。
*/
public static void main(String[] args)
for (int i = 0; i < seeds.length; i++)
functions[i] = new HashFunction(DEFAULT_SIZE, seeds[i]);
// 添加1亿数据
for (int i = 0; i < 100000000; i++)
add(String.valueOf(i));
String id = "123456789";
add(id);
System.out.println(contains(id)); // true
System.out.println("" + contains("234567890")); //false
class HashFunction
private int size;
private int seed;
public HashFunction(int size, int seed)
this.size = size;
this.seed = seed;
public int hash(String value)
int result = 0;
int len = value.length();
for (int i = 0; i < len; i++)
result = seed * result + value.charAt(i);
int r = (size - 1) & result;
return (size - 1) & result;
【更多阅读】
B-树(B-Tree)与二叉搜索树(BST):讲讲数据库和文件系统背后的原理(读写比较大块数据的存储系统数据结构与算法原理)
《人月神话》8 胸有成竹(Chaptor 8.Calling the Shot -The Mythical Man-Month)
《人月神话》(The Mythical Man-Month)5画蛇添足(The Second-System Effect)
《人月神话》(The Mythical Man-Month)4概念一致性:专制、民主和系统设计(System Design)
Redis 作者 Antirez 讲如何实现分布式锁?Redis 实现分布式锁天然的缺陷分析&Redis分布式锁的正确使用姿势!
十年技术进阶路:让我明白了三件要事。关于如何做好技术 Team Leader?如何提升管理业务技术水平?(10000字长文)
……
以上是关于BloomFilter 布隆过滤器思想原理和代码实现的主要内容,如果未能解决你的问题,请参考以下文章
了解布隆过滤器原理以及Guava的BloomFilter使用
REDIS11_布隆过滤器BloomFilter的概述优缺点使用场景底层原理布谷鸟过滤器
REDIS11_布隆过滤器BloomFilter的概述优缺点使用场景底层原理布谷鸟过滤器
REDIS07_布隆过滤器BloomFilter的概述优缺点使用场景底层原理布谷鸟过滤器