网上讲LSH这个很多,但是我就没找到有人讲清楚了的,于是写下这篇文本

https://zhuanlan.zhihu.com/p/108181478
这个链接是一知乎大神的对shingling,min-hash和LSH的理解性讲解
前面很容易懂,唯独LSH,让人看不懂,我也看了他推荐的链接,有篇英文pdf讲的这个。
看了几遍,就是没说破LSH怎么用,就在讲特异度和敏感度的问题。
http://web.stanford.edu/class/cs246/slides/03-lsh.pdf
其实就很简单,过程如下。

整个过程

  1. 数据,有10万文档
  2. 对这十万文档进行shingling,可以是n-gram取字符串分片,也可以是分词,就是粒度化。
  3. 建立0-1矩阵,行就是所有文档粒度化的字符串去重排序的集合,列是各篇文档。
  4. min-hash,进行降维,自己建立100个hash,然后对行序号计算hash值,最后计算min-hash,不太明白min-hash的看前面的链接。
  5. 得到hash方法集合和文档的矩阵,行数变少了,文档数没变,文档数也不能变,所以还是只有变行数,于是就有了LSH。
  6. 把行均匀分成多块,也就是几个hash方法一组,这样就有多组了,计算LSH时,就选一组就可以了,计算量就小了。前面文档是解释怎么选择分多少组,让误差小。buckets似乎没什么用。

LSH局部敏感hash-口头解释版相关推荐

  1. LSH(Locality Sensitive Hashing)局部敏感Hash

    文章目录 LSH 的哈希函数族(Hash Family)定义 LSH 的查找过程 LSH 常见的 Hash Function(降维) min-hash 具体介绍: min-Hash的局部敏感哈希算法( ...

  2. KD树和LSH局部敏感哈希

    文档结构 文档表示 距离度量 KD树 原理 构建 查询 复杂度 KD树的KNN KD树的逼近KNN 不适用高维数据 LSH LSH潜在的问题 LSH算法 复杂度 概率逼近 多表 文档结构 文档表示 词 ...

  3. LSH(局部敏感哈希算法)实现文本的相似性比对

    源码见github:https://github.com/smallsmallcase/lsHash 和LSH算法类似,朴素贝叶斯算法也能实现相近的分类功能,朴素贝叶斯算法给新浪新闻分类的代码见:ht ...

  4. minHash(最小哈希)和LSH(局部敏感哈希)

    在数据挖掘中,有一个比较基本的问题,就是比较两个集合的相似度.关于这个问题,最笨的方法就是用一个两重循环来遍历这两个集合中的所有元素,进而统计这两个集合中相同元素的个数.但是,当这两个集合里的元素数量 ...

  5. 在茫茫人海中发现相似的你——局部敏感哈希(LSH)

    一.引入 在做微博文本挖掘的时候,会发现很多微博是高度相似的,因为大量的微博都是转发其他人的微博,并且没有添加评论,导致很多数据是重复或者高度相似的.这给我们进行数据处理带来很大的困扰,我们得想办法把 ...

  6. R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 私认为,文本的相似性可以分为两类:一类是机械相 ...

  7. 最近邻和K近邻及其优化算法LSH(局部敏感哈希,Locality Sensitive Hashing) Kd-Tree

    引言 在处理大量高维数据时,如何快速地找到最相似的数据是一个比较难的问题.如果是低维的小量数据,线性查找(Linear Search)就可以解决,但面对海量的高维数据集如果采用线性查找将会非常耗时.因 ...

  8. 局部敏感哈希(LSH)

    一. 近邻搜索 局部敏感哈希,英文locality-sensetive hashing,常简称为LSH.局部敏感哈希在部分中文文献中也会被称做位置敏感哈希.LSH是一种哈希算法,最早在1998年由In ...

  9. LSH︱python实现局部敏感随机投影森林——LSHForest/sklearn(一)

    关于局部敏感哈希算法,之前用R语言实现过,但是由于在R中效能太低,于是放弃用LSH来做相似性检索.学了python发现很多模块都能实现,而且通过随机投影森林让查询数据更快,觉得可以试试大规模应用在数据 ...

最新文章

  1. 【Qt】Qt5在ubuntu16.04无法输入中文解决方式
  2. LINUX符号、快捷键、正则
  3. redis3.0.2安装
  4. jQuery.sap.factory
  5. curl php 模拟来源_php 使用curl模拟ip和来源进行访问的实现方法
  6. dotnet若干说明图片
  7. 飞鸽传书2011看到一篇国外的博客
  8. 利用 Hexo + Github 搭建自己的博客
  9. php memcached 方法,php操作使用Memcached常用方法代码和例子大全
  10. python自带模块可以控制鼠标吗_python自带模块模拟鼠标和键盘操作
  11. 计算机键盘space键在哪,space键在哪
  12. python词频统计三国演义_python实例:三国演义TXT文本词频分析
  13. 计算机二级考试题库 操作题,2016计算机二级考试题库:《C++》基本操作题练习...
  14. OpenJudge 河中跳房子
  15. windows桌面待办事项_提醒待办事项app哪个好用?苹果手机上有什么好用的提醒便签软件吗...
  16. Java二维数组的错误写法分析
  17. 那些让我印象深刻的bug--02
  18. 关于常用颜色小聚:有据说是令人舒服的颜色值,有R G B 常用颜色列表
  19. 关于短信群发的简单实现
  20. Ceph之RBD恢复的几种方式与原理

热门文章

  1. java 求1000的阶乘_求1000阶乘的结果末尾有多少个0
  2. python原子_Python的原子性操作是如何实现的
  3. Zabbix自定义监控tcp的ESTABLISHED状态的数量
  4. 基于W801和Helix解码库的MP3播放器(W801单片机学习笔记)热血沸腾,流畅播放
  5. 常见决策树算法(ID3、C4.5、CART)
  6. SqlDataReader和oledbDataReader和DataReader区别
  7. pascal_voc标注bbox的一些问题
  8. layui数据表格跨行自动合并
  9. 送给自己2012年的新年礼物
  10. css实现红十字会图标