在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度。即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),我们把它叫做文本D的向量表示。其中Wk是Tk的权重,1<=k<=N。在上面那个例子中,假设a、b、c、d的权重分别为30,20,20,10,那么该文本的向量表示为D(30,20,20,10)。在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:
http://marssection.bbs.topzj.com/attachments/m12//12/85/12856/forumid_19946/zrTDMP7_968uATrvfvgg.jpg
其中,W1k、W2k分别表示文本D1和D2第K个特征项的权值,1<=k<=N。
在自动归类中,我们可以利用类似的方法来计算待归类文档和某类目的相关度。例如文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,10,则D1的向量表示为D1(30,20,20,10,0),C1的向量表示为C1(40,0,30,20,10),则根据上式计算出来的文本D1与类目C1相关度是0.86

那个相关度0.86是怎么算出来的?

是这样的,抛开你的前面的赘述

在数学当中,n维向量是 V{v1, v2, v3, ..., vn}
他的模: |v| = sqrt ( v1*v1 + v2*v2 + ... + vn*vn )
两个向量的点击 m*n = n1*m1 + n2*m2 + ...... + nn*mn
相似度 = (m*n) /(|m|*|n|)
物理意义就是两个向量的空间夹角的余弦数值
对于你的例子
d1*c1 = 30*40 + 20*0 + 20*30 + 10*20 + 0*10 = 2000
|d1| = sqrt(30*30 +20*20 + 20*20 + 10*10 + 0*0) = sqrt(1800)
|c1| = sqrt(40*40 + 0*0 + 30*30 + 20*20 + 10*10) = sqrt(3000)
相似度 = d1*c1/(|d1|*|c1|)= 2000/sqrt(1800*3000)= 0.86066

向量相似度的计算和向量夹角余旋的关系相关推荐

  1. 向量相似度java_计算一组向量相似度

    以多维几何空间考虑,两组向量的相似度可以描述为在多维几何空间中的距离关系,距离越远,相似度越低.对原文有修改,如有疑惑,请拜访原文. 在做分类时常常需要估算不同样本之间的相似性度量(Similarit ...

  2. 自动摘要生成(三):词向量相似度与有效词含量

    一.前言 新闻在动摘要生成的前两部分在这里: 自动摘要生成(一):最大边界相关算法(MMR) 自动摘要生成(二):由PageRank转变而来的TextRank算法 这里是新闻摘要生成系列的第三部分,这 ...

  3. 软件工程java向量相似度计算_向量的相似度计算常用方法9个

    <向量的相似度计算常用方法9个>由会员分享,可在线阅读,更多相关<向量的相似度计算常用方法9个(5页珍藏版)>请在人人文库网上搜索. 1.向量的相似度计算常用方法相似度的计算简 ...

  4. 计算向量相似度 ---余弦相似度

    1.余弦相似度可用来计算两个向量的相似程度 对于如何计算两个向量的相似程度问题,可以把这它们想象成空间中的两条线段,都是从原点([0, 0, -])出发,指向不同的方向.两条线段之间形成一个夹角,如果 ...

  5. 使用余弦相似度算法计算文本相似度-数学

    20211201 也就是效果 皮尔逊>余弦>欧式 余弦相似度的局限 皮尔逊的优势,相当于是改进版余弦相似度 欧式与 余弦 欧式侧重于直线距离 归一化之后的欧式和余弦的效果也不同 比如 0, ...

  6. 衡量两个向量相似度的方法:余弦相似度

    余弦相似度 在NLP的任务里,会对生成两个词向量进行相似度的计算,常常采用余弦相似度公式计算. 余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小.余弦值越接近1,就表明夹角越接近 ...

  7. 【火炉炼AI】机器学习032-用户之间相似度的计算

    [火炉炼AI]机器学习032-用户之间相似度的计算 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib ...

  8. Facebook: 亿级向量相似度检索库Faiss 原理+应用

    作者 | Chilia 整理 | NewBeeNLP 最近在使用ColBERT双塔结构进行文本召回,其中必然要涉及到向量相似度查询,如果只用brute-force方法的复杂度实在太高,无法接受.所以必 ...

  9. Github 15K! 亿级向量相似度检索库Faiss 原理+应用

    作者 | Chilia 整理 | NewBeeNLP 最近在使用ColBERT双塔结构进行文本召回,其中必然要涉及到向量相似度查询,如果只用brute-force方法的复杂度实在太高,无法接受.所以必 ...

最新文章

  1. 解决git提示Permission denied (publickey)
  2. wxWidgets:wxQueryLayoutInfoEvent类用法
  3. php如何求同列元素之和_求得这个数组中各个元素之和
  4. WPF中得到一个控件相对其他控件的坐标
  5. java dao 单元测试_Spring Service、Dao进行Junit单元测试
  6. vue 怎么样不重复往数组里插入数据_前端数据结构与算法(1) -二分查找vs二叉树...
  7. ModuleNotFoundError: No module named 'sklearn.grid_search'报错
  8. mysql java 查寻用户_mysql 查询不同用户 最新的一条记录
  9. 滚动条----SCROLLBAR
  10. 微信小程序开发【前端+后端(Java)】附完整源码
  11. dns服务器未响应韩国,上海联通DNS
  12. react-app-rewired 修改 react 项目默认端口号
  13. Mapped Statements collection does not contain ... Mybatis报错解决
  14. QueryDSL 大于、小于、大于等于、小于等于、等于、不等于方法
  15. 自动驾驶汽车是如何利用高精度地图和高精度定位来进行“导航”的
  16. 微信小程序云开发实战:网上商城(二)
  17. 北京汉正天成科技有限公司大家听说过没?这家公司怎么样?
  18. 银联在线php支付接口,ecshop银联在线支付接口插件(官方版)
  19. 《古月ROS探索总结》学习笔记2
  20. Atari游戏公司推出两款热门游戏的“区块链版本”

热门文章

  1. 继金山WPS,永中Office之后,国产再添全新型办公软件
  2. 解决WES 7 中Composite Bus找不到驱动的bug
  3. stm32f103从安装MDK5到烧录第一个亮灯程序
  4. 雷达信号处理算法:静态杂波滤除(附MATLAB代码和数据)
  5. 计算机一级摸拟题练习,2017计算机一级MSOffice模拟练习题附答案
  6. 数字化精准会员营销 助消费品连锁企业提升转化
  7. 《离散数学及其应用》读书笔记【三】计数
  8. 基于Qt大恒工业相机二次开发demo-C++
  9. 党政机关安全公文处理系统
  10. 计算机简单公文,[计算机]常用公文写作方法.doc