布隆过滤器在广告系统_如何用python写布隆过滤器

1. 布隆过滤器的缺点

但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的专元素数量增加，属误算率随之增加。但是如果元素数量太少，则使用散列表足矣。
另外，一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位列阵变成整数数组，每插入一个元素相应的计数器加1, 这样删除元素时将计数器减掉就可以了。然而要保证安全的删除元素并非如此简单。首先我们必须保证删除的元素的确在布隆过滤器里面. 这一点单凭这个过滤器是无法保证的。另外计数器回绕也会造成问题。
在降低误算率方面，有不少工作，使得出现了很多布隆过滤器的变种。

2. 布隆过滤器的检索效率为什么快于哈希算法

bloom filter的特点是会出现误报，但不会漏报，也就是说对于bloom filter验证的一个数据文件，可能不包含你查找内的数据项，容但是包含你查找的数据项的数据文件它一定是会返回的，key-value系统中bloom filter返回的数据文件还是需要查看里面的内容...

3. 看过的视频让用户不再观看为什么使用布隆过滤器而不是直接使用setBit与getBit进行取值比对呢

不行。

因为布隆过滤器的原理是用多个hash函数对id进行hash后得到一系列值，而在布隆数组中看这些值回对应答的位上是否命中，如果都命中说明这个值重复。
用id不经过hash直接去对比，乍一想好像可以，但是你想想，假如id是10位，并且我们只用数字，那么布隆过滤器的长度只有10位（0123456789）,这个长度的过滤器几乎没法使用，容量太低，误差率太高。即使算上大小写字母，也只有62个，看似62很多，但是这里定死了id必须用这62个字符，而假如中间加一层hash，那id用什么字符和我布隆过滤器用什么字符以及过滤器的长度都可以自由指定，灵活很多。

4. 用python安装布隆过滤器报错，这怎么解决

但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的元素数量增回加，误算率随之增答加。但是如果元素数量太少，则使用散列表足矣。另外，一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位列阵变成整数数组

5. 布隆过滤器是什么

这个问题。。。问度娘吧
http://ke..com/view/449.htm

6. 如何用python写布隆过滤器

下面的是网络上找到的python的布隆过滤器的实现.

#!/usr/local/bin/python2.7
#coding=gbk
'''
Createdon2012-11-7

@author:palydawn
'''
importcmath
fromBitVectorimportBitVector

classBloomFilter(object):
def__init__(self,error_rate,elementNum):
#计算所需要的bit数
self.bit_num=-1*elementNum*cmath.log(error_rate)/(cmath.log(2.0)*cmath.log(2.0))

#四字节对齐
self.bit_num=self.align_4byte(self.bit_num.real)

#分配内存
self.bit_array=BitVector(size=self.bit_num)

#计算hash函数个数
self.hash_num=cmath.log(2)*self.bit_num/elementNum

self.hash_num=self.hash_num.real

#向上取整
self.hash_num=int(self.hash_num)+1

#产生hash函数种子
self.hash_seeds=self.generate_hashseeds(self.hash_num)

definsert_element(self,element):
forseedinself.hash_seeds:
hash_val=self.hash_element(element,seed)
#取绝对值
hash_val=abs(hash_val)
#取模，防越界
hash_val=hash_val%self.bit_num
#设置相应的比特位
self.bit_array[hash_val]=1

#检查元素是否存在，存在返回true，否则返回false
defis_element_exist(self,element):
forseedinself.hash_seeds:
hash_val=self.hash_element(element,seed)
#取绝对值
hash_val=abs(hash_val)
#取模，防越界
hash_val=hash_val%self.bit_num

#查看值
ifself.bit_array[hash_val]==0:
returnFalse
returnTrue

#内存对齐
defalign_4byte(self,bit_num):
num=int(bit_num/32)
num=32*(num+1)
returnnum

#产生hash函数种子,hash_num个素数
defgenerate_hashseeds(self,hash_num):
count=0
#连续两个种子的最小差值
gap=50
#初始化hash种子为0
hash_seeds=[]
forindexinxrange(hash_num):
hash_seeds.append(0)
forindexinxrange(10,10000):
max_num=int(cmath.sqrt(1.0*index).real)
flag=1
fornuminxrange(2,max_num):
ifindex%num==0:
flag=0
break

ifflag==1:
#连续两个hash种子的差值要大才行
ifcount>0and(index-hash_seeds[count-1])<gap:
continue
hash_seeds[count]=index
count=count+1

ifcount==hash_num:
break
returnhash_seeds

defhash_element(self,element,seed):
hash_val=1
forchinstr(element):
chval=ord(ch)
hash_val=hash_val*seed+chval
returnhash_val
'''
#测试代码
bf=BloomFilter(0.001,1000000)
element='palydawn'
bf.insert_element(element)
printbf.is_element_exist('palydawn')'''

#其中使用了BitVector库，python本身的二进制操作看起来很麻烦，这个就简单多了

如果解决了您的问题请采纳！
如果未解决请继续追问

7. 布隆过滤器和hashmap的区别

但是复布隆过滤器的缺点和优点一样制明显。误算率是其中之一。随着存入的元素数量增加，误算率随之增加。但是如果元素数量太少，则使用散列表足矣。另外，一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位列阵变成整数数组，每插入一个元

8. 布隆过滤器的优点

相比于其它的数抄据结袭构，布隆过滤器在空间和时间方面都有巨大的优势。布隆过滤器存储空间和插入/查询时间都是常数。另外, Hash函数相互之间没有关系，方便由硬件并行实现。布隆过滤器不需要存储元素本身，在某些对保密要求非常严格的场合有优势。
布隆过滤器可以表示全集，其它任何数据结构都不能；
k和m相同，使用同一组Hash函数的两个布隆过滤器的交并差运算可以使用位操作进行。
布隆过滤器

9. 如何使用bloomfilter构建大型Java缓存系统 bloomfilter

在如今的软件当中，缓存是解决很多问题的一个关键概念。你的应用可能会进行CPU密集型运算。你当然不想让这些运算一边又一边的重复执行，相反，你可以只执行一次，把这个结果放在内存中作为缓存。有时系统的瓶颈在I/O操作上，比如你不想重复的查询数据库，你想把结果缓存起来，只在数据发生变化时才去数据查询来更新缓存。
与上面的情况类似，有些场合下我们需要进行快速的查找来决定如何处理新来的请求。例如，考虑下面这种情况，你需要确认一个URL是否指向一个恶意网站，这种需求可能会有很多。如果我们把所有恶意网站的URL缓存起来，那么会占用很大的空间。或者另一种情况，需要确认用户输入的字符串是包含了美国的地名。像“华盛顿的博物馆”——在这个字符串中，华盛顿是美国的一个地名。我们应该把美国所有的地名保存在内存中然后再查询吗？那样的话缓存会有多大？是否能在不使用数据库的前提下来高效地完成？
这就是为什么我们要跨越基本的数据结构map，在更高级的数据结构像布隆过滤器（bloomfilter）中来寻找答案。你可以把布隆过滤器看做Java中的集合（collection），你可以往它里面添加元素，查询某个元素是否存在（就像一个HashSet）。如果布隆过滤器说没有这个元素，这个结果可能是错误的。如果我们在设计布隆过滤器时足够细心，我们可以把这种出错的概率控制在可接受范围内。

10. 布隆过滤器既然有错误率，为什么还能应用在key-value系统中

bloom filter的特点是会出现误报，但不会漏报，也就是说对于bloom filter验证的一个数据内文件，可能不包含容你查找的数据项，但是包含你查找的数据项的数据文件它一定是会返回的，key-value系统中bloom filter返回的数据文件还是需要查看里面的内容才能知道是否存在所需的数据的，这就保证了执行结果的正确性和完整性。因此key-value系统不会因此而出错的，只是多访问一些数据文件而已。在数据量很大key-value系统中，建立统一的B+树索引的代价是非常大的，维护成本也很高，因此综合起来bloom filter的性能是最好的。

导航:首页 > 净水问答 > 布隆过滤器在广告系统

布隆过滤器在广告系统

与布隆过滤器在广告系统相关的资料