from: https://www.cnblogs.com/bourneli/archive/2013/04/04/2999767.html

问题背景

给出N个集合,找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2)。当N比较小时,比如K级,此算法可以在接受的时间范围内完成,但是如果N变大时,比B级,甚至P级,那么需要的时间是不能够被接受的。比如N= 1B = 1,000,000,000。一台计算机每秒可以比较1,000,000,000对集合是否相等。那么大概需要15的时间才能找到所有相似的集合!

上面的算法虽然效率很低,但是结果会很精确,因为检查了每一对集合。假如,N个集合中只有少数几对集合相似,绝大多数集合都不等呢?那么根据上述算法,绝大多数检测的结果是两个结合不相似,可以说这些检测“浪费了计算时间”。所以,如果能找到一种算法,将大体上相似的集合聚到一起,缩小比对的范围,这样只用检测较少的集合对,就可以找到绝大多数相似的集合对,大幅度减少时间开销。虽然牺牲了一部分精度,但是如果能够将时间大幅度减少,这种算法还是可以接受的。接下来的内容讲解如何使用Minhash和LSH(Locality-sensitive Hashing)来实现上述目的,在相似的集合较少的情况下,可以在O(n)时间找到大部分相似的集合对。

Jaccard相似度

判断两个集合是否相等,一般使用称之为Jaccard相似度的算法(后面用Jac(S1,S2)来表示集合S1和S2的Jaccard相似度)。举个列子,集合X = {a,b,c},Y = {b,c,d}。那么Jac(X,Y) = 2 / 3 = 0.67。也就是说,结合X和Y有67%的元素相同。下面是形式的表述Jaccard相似度公式:

Jac(X,Y) = |X∩Y| / |X∪Y|

也就是两个结合交集的个数比上两个集合并集的个数。范围在[0,1]之间。

降维技术Minhash

原始问题的关键在于计算时间太长。所以,如果能够找到一种很好的方法将原始集合压缩成更小的集合,而且又不失去相似性,那么可以缩短计算时间。Minhash可以帮助我们解决这个问题。举个例子,S1 = {a,d,e},S2 = {c, e},设全集U = {a,b,c,d,e}。集合可以如下表示:

行号

元素

S1

S2

类别

1

a

1

0

Y

2

b

0

0

Z

3

c

0

1

Y

4

d

1

0

Y

5

e

1

1

X

表1

表1中,列表示集合,行表示元素,值1表示某个集合具有某个值,0则相反(X,Y,Z的意义后面讨论)。Minhash算法大体思路是:采用一种hash函数,将元素的位置均匀打乱,然后将新顺序下每个集合第一个元素作为该集合的特征值。比如哈希函数h1(i) = (i + 1) % 5,其中i为行号。作用于集合S1和S2,得到如下结果:

行号

元素

S1

S2

类别

1

e

1

1

X

2

a

1

0

Y

3

b

0

0

Z

4

c

0

1

Y

5

d

1

0

Y

Minhash

e

e

表2

这时,Minhash(S1) = e,Minhash(S2) = e。也就是说用元素e表示S1,用元素e表示集合S2。那么这样做是否科学呢?进一步,如果Minhash(S1) 等于Minhash(S2),那么S1是否和S2类似呢?

一个神奇的结论

P(Minhash(S­1) = Minhash(S2)) = Jac(S1,S2)

在哈希函数h1均匀分布的情况下,集合S1的Minhash值和集合S2的Minhash值相等的概率等于集合S1与集合S2的Jaccard相似度,下面简单分析一下这个结论。

S1和S2的每一行元素可以分为三类:

l  X类 均为1。比如表2中的第1行,两个集合都有元素e。

l  Y类 一个为1,另一个为0。比如表2中的第2行,表明S1有元素a,而S2没有。

l  Z类 均为0。比如表2中的第3行,两个集合都没有元素b。

这里忽略所有Z类的行,因为此类行对两个集合是否相似没有任何贡献。由于哈希函数将原始行号均匀分布到新的行号,这样可以认为在新的行号排列下,任意一行出现X类的情况的概率为|X|/(|X|+|Y|)。这里为了方便,将任意位置设为第一个出现X类行的行号。所以P(第一个出现X类) = |X|/(|X|+|Y|) = Jac(S1,S2)。这里很重要的一点就是要保证哈希函数可以将数值均匀分布,尽量减少冲撞。

一般而言,会找出一系列的哈希函数,比如h个(h << |U|),为每一个集合计算h次Minhash值,然后用h个Minhash值组成一个摘要来表示当前集合(注意Minhash的值的位置需要保持一致)。举个列子,还是基于上面的例子,现在又有一个哈希函数h2(i) = (i -1)% 5。那么得到如下集合:

行号

元素

S1

S2

类别

1

b

0

0

Z

2

c

0

1

Y

3

d

1

0

Y

4

e

1

1

X

5

a

1

0

Y

Minhash

d

c

表3

所以,现在用摘要表示的原始集合如下:

哈希函数

S1

S2

h1(i) = (i + 1) % 5

e

e

h2(i) = (i - 1) % 5

d

c

表4

从表四还可以得到一个结论,令X表示Minhash摘要后的集合对应行相等的次数(比如表4,X=1,因为哈希函数h1情况下,两个集合的minhash相等,h2不等):

X ~ B(h,Jac(S1,S2))

X符合次数为h,概率为Jac(S1,S2)的二项分布。那么期望E(X) = h * Jac(S1,S2) = 2 * 2 / 3 = 1.33。也就是每2个hash计算Minhash摘要,可以期望有1.33元素对应相等。

所以,Minhash在压缩原始集合的情况下,保证了集合的相似度没有被破坏。

LSH – 局部敏感哈希

现在有了原始集合的摘要,但是还是没有解决最初的问题,仍然需要遍历所有的集合对,,才能所有相似的集合对,复杂度仍然是O(n2)。所以,接下来描述解决这个问题的核心思想LSH。其基本思路是将相似的集合聚集到一起,减小查找范围,避免比较不相似的集合。仍然是从例子开始,现在有5个集合,计算出对应的Minhash摘要,如下:

S1

S2

S3

S4

S5

区间1

b

b

a

b

a

c

c

a

c

b

d

b

a

d

c

区间2

a

e

b

e

d

b

d

c

f

e

e

a

d

g

a

区间3

d

c

a

h

b

a

a

b

b

a

d

e

a

b

e

区间4

d

a

a

c

b

b

a

c

b

a

d

e

a

b

e

表5

上面的集合摘要采用了12个不同的hash函数计算出来,然后分成了B = 4个区间。前面已经分析过,任意两个集合(S1,S2)对应的Minhash值相等的概率r = Jac(S1,S2)。先分析区间1,在这个区间内,P(集合S1等于集合S2) = r3。所以只要S­1和S2的Jaccard相似度越高,在区间1内越有可能完成全一致,反过来也一样。那么P(集合S1不等于集合S2) = 1 - r3。现在有4个区间,其他区间与第一个相同,所以P(4个区间上,集合S1都不等于集合S2) = (1 – r3)4。P(4个区间上,至少有一个区间,集合S1等于集合S2) = 1 - (1 – r3)4。这里的概率是一个r的函数,形状犹如一个S型,如下:

图1

如果令区间个数为B,每个区间内的行数为C,那么上面的公式可以形式的表示为:

P(B个区间中至少有一个区间中两个结合相等) = 1 - (1 – rC)B

领r = 0.4,C=3,B = 100。上述公式计算的概率为0.9986585。这表明两个Jaccard相似度为0.4的集合在至少一个区间内冲撞的概率达到了99.9%。根据这一事实,我们只需要选取合适的B和C,和一个冲撞率很低的hash函数,就可以将相似的集合至少在一个区间内冲撞,这样也就达成了本节最开始的目的:将相似的集合放到一起。具体的方法是为B个区间,准备B个hash表,和区间编号一一对应,然后用hash函数将每个区间的部分集合映射到对应hash表里。最后遍历所有的hash表,将冲撞的集合作为候选对象进行比较,找出相识的集合对。整个过程是采用O(n)的时间复杂度,因为B和C均是常量。由于聚到一起的集合相比于整体比较少,所以在这小范围内互相比较的时间开销也可以计算为常量,那么总体的计算时间也是O(n)。

总结

以上只是描述了Minhash和LSH寻找相似集合的算法框架,作为学习笔记和备忘录。还有一些算法细节没有讨论。希望后面有机会,可以在海量数据的情况下使用这个算法。

参考资料

[1]       书籍《Mining of Massive Datasets》的第三章Find Similar Item,由Anand Rajaraman,Jure Leskovec和Jeffrey David Ullman著

[2]       Jaccard相似度、minHash、Locality-Sensitive Hashing(LSH)

[3]       Wiki上的Jaccard距离

[4]       Wiki上的Minhash

[5]       Wiki上的LSH

转载于:https://www.cnblogs.com/bonelee/p/10954956.html

利用Minhash和LSH寻找相似的集合相关推荐

  1. 海量数据集利用Minhash寻找相似的集合【推荐优化】

    MinHash 首先它是一种基于 Jaccard Index 相似度的算法,也是一种 LSH 的降维的方法,应用于大数据集的相似度检索.推荐系统.下边按我的理解介绍下MinHash 问题背景 给出N个 ...

  2. 在大数据中如何寻找相似的文档(shingle, minhash, LSH)(一)

    ps: 文章翻译与 Mining of Massive Datasets 场景:在一堆非常多的文档中,找到相似的文档,或者对文档间的相似性进行评估. 当应用于此类目的的时候,我们最常用的用来表示一篇文 ...

  3. 文本相似性计算--MinHash和LSH算法

    给定N个集合,从中找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合.那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2).此外,假如,N个集合中只有少数几对集合相似,绝大多数集 ...

  4. 在大数据中如何寻找相似的文档(shingle, minhash, LSH)(二)

    接上篇译文: 1.尽管我们利用minhashing技术将大数据量的文档压缩到小数据量的signatures,并且能够保证文档对之间的相似度大致不变.但是由于文档对的数目可能非常的大,我们仍然不能很有效 ...

  5. 利用素数表快速寻找 n 以内的所有素数

    http://blog.csdn.net/wxyztuv/article/details/7965556 三个函数,find_prime() 是利用素数表的方法,寻找素数的,find_prime_st ...

  6. 利用GATK4.1 mutect2寻找体细胞突变(SNV和INDEL)

    今天梳理一下最最最最(最X100)常用的mutect2体细胞变异分析流程.主要用来分析肿瘤配对样本,寻找体细胞突变比如SNV和INDEL.官网上已经有了详细的英文版教程. 软件版本:GATK4.1.1 ...

  7. 利用Java8新特性stream流给集合中的某个属性赋值

    今天在编写一个返回对象VO时,需要做一些处理,返回对象VO如下: CollectListVO @Data @JsonIgnoreProperties(ignoreUnknown = true) @Ap ...

  8. C#集合利用System.Linq.Enumerable.Select()方法执行集合类型转换

    将List<dynamic>集合中的guid转换为强类型的Guid string authorsJson=[{"guid":"e1a2c42d-9337-41 ...

  9. 利用java8特性Stream流对list集合进行多个属性组装数据

    需求很简单,将list的数据放入另一个list属性而组装成数据 主要用到的方法是java8之list集合中取出某一属性: List<String> names=list.stream(). ...

最新文章

  1. PyTorch中nn.Module类简介
  2. ant design vue table 高度自适应_html之table表格
  3. 用 C 语言开发一门编程语言 — 条件分支
  4. 前端学习笔记day01 html 标签之音频 embed+audio+video
  5. 矩阵的LU分解 c++
  6. 2018年全国《程序员高考》真题试卷
  7. hadoop 集群启动时 Address already in use 解决方法
  8. 物联网、工业互联网大数据的特点
  9. Python学习笔记:爬取网页图片
  10. (转)淘淘商城系列——引用dubbo服务
  11. 关于《统计学习方法》中第三章构造kd树算法中的中位数问题
  12. 《关于促进大数据发展的行动纲要》提出三大指导意见
  13. 《财务报表分析从入门到精通》——读书笔记
  14. android备份recovery,一键备份手机原版Recovery 刷机无鸭梨
  15. 第二十九篇 -- 学习第五十六天打卡20190826
  16. 启用计算机上的无线,如何使用命令提示符打开或关闭计算机上的wifi
  17. ME:环境DNA(eDNA)宏条形码技术正在转变我们考察动植物群落的方法
  18. el-tree修改前面箭头图标
  19. genymotion-安卓模拟器-修改IMEI
  20. Halcon 《ML_MLP》网格缺陷检测

热门文章

  1. java怎么读取word某一页内容_Word页码设置的3点技巧,提高排版效率,减少不必要烦恼...
  2. Jmeter之创建Kafka生产者和消费者进行性能测试
  3. java泛型的泛型_Java 泛型总结(一):基本用法与类型擦除
  4. 计算机表格计算总积分,Excel函数教程: 根据条件计算成绩表-excel技巧-电脑技巧收藏家...
  5. java replaceall lt_static lt;Tgt; boolean replaceAll(Listlt;Tgt; list, T oldVal, T newVal)_Java...
  6. linux mv命令改名,linux中mv命令使用详解(移动文件或者将文件改名)
  7. android如何避免内存泄露,Android开发中应该避免的内存泄露
  8. 服务器报错:“/usr/local/var/run/nginx.pid”failed
  9. 【深度思考】javaweb框架技术心得
  10. navicatformysql