Intro

How do you implement the blacklist of the mail system?

布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多，缺点是有一定的误识别率和删除困难。

Bloom filter theory

当一个元素加入布隆过滤器中的时候，会进行如下操作：

当我们需要判断一个元素是否存在于布隆过滤器的时候，会进行如下操作：

To sum up, 布隆过滤器说某个元素存在，小概率会误判(Hash碰撞)。布隆过滤器说某个元素不在，那么这个元素一定不在。布隆过滤器能够说明某个东西一定不存在!

判断给定数据是否存在：
- 比如判断一个数字是否存在于包含大量数字的数字集中（数字集很大，5 亿以上！);
- 防止缓存穿透（判断请求的数据是否有效避免直接绕过缓存请求数据库）等等;
- 邮箱的垃圾邮件过滤、黑名单功能等等。
去重：比如爬给定网址的时候对已经爬取过的 URL 去重。

如果你想要手动实现一个的话，你需要：