笔者在课后作业中遇到了向量空间模型的概念题,对课堂重温后有了一些简单的理解,在此分享。

向量空间模型(VSM)

向量空间模型(Vector Space Model,VSM),是基于代数的一种常用模型。向量空间模型试图克服布尔模型的缺陷,它采用非布尔向量来表示文档和查询,采用非二值实数表示相似度,这样输出结果就可以按照文档和查询的相似程度来进行排序了,客观上实现了部分匹配。

采用向量空间模型最明显的效果就是能提供排序的结果集,这个结果集比通过布尔模型得到的结果集要合理得多,从某种意义上说,能更好地匹配用户的信息需求。

TF-IDF方法

在相似度量上常用TF-IDF权重方法:
TF 因子 (term frequency, 词频),文档dj中的词ki出现的频率。

IDF因子 (inverse document frequency ,逆向文件频率),文档集合中词ki出现的频率的倒数。

课后问题问及了TF的归一化与IDF取对数的目的,解答这个需要首先理解TF-IDF的含义:
TF代表了一个词项在一篇文档中的“重要性”,和它在该文档中出现的次数成正比(局部),和它在文档集合中涉及文档的个数成反比(全局);
IDF可以区别两个文档对同一个查询的相关程度,共有词(频)越多,则相关程度应该越高(同一性强);如果一个共有词在文档集合中出现得很普遍,则由它反映的相关程度应该越低(区分性差)。

因此,TF(词频)经常会被归一化(一般是词频除以文章总词数),目的是防止它偏向长的文档。因为同一个词语,在长的文档中要比短的文档具有更高的词频,从而淡化它的重要性。
而IDF(逆向文件频率)取对数是为了降低IDF相对于TF的效果。

向量空间模型的假设前提

另一个问题是VSM模型所隐含的假设条件,这个假设条件就是词与词(特征项)之间的不相关性
首先向量空间模型通常用多个特征项(关键词)来作为向量维度,为了保证维度不过大,特征项需要满足相互之间的独立不相关,这也导致了向量空间模型无法进行语义、语境相关的判断。向量空间模型的缺点也就在于关键词之间的线性无关的假说前提。

经典检索模型——向量空间模型(VSM)的简单理解相关推荐

  1. 文档查询匹配的方法:布尔模型,向量空间模型

    文档查询匹配的方法:布尔模型,向量空间模型 文档表示:词袋方法Bag-of-Words Approach • 在 IR 中表示文档(和查询)的传统方法: 记录出现的单词(术语; 通常,加上每个文档中的 ...

  2. 向量空间模型——计算文本(英文)相似度

    http://blog.chinaunix.net/uid-26548237-id-3541783.html 1.向量空间模型 向量空间模型作为向量的标识符,是一个用来表示文本文件的代数模型.它应用于 ...

  3. 向量空间模型(VSM)在文档相似度计算上的简单介绍

      向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词:w1,w2 ...

  4. vsm java_向量空间模型(VSM)在文档相似度计算上的简单介绍

    C#实现在: 向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词: ...

  5. 文本特征抽取的向量空间模型(VSM)和TF/IDF方法

    文本特征抽取 两组小说,一组是爱情的,另一组是科幻的.我们能否用支持向量机训练一个模型,用来识别小说类型呢? 这个并不容易.因为支持向量机这类机器学习算法只能接受数学里面的向量作为输入.如果用它来做文 ...

  6. NLP --- 文本分类(向量空间模型(Vector Space Model)VSM)

    本节主要介绍文本分类中的一种算法即向量空间模型,这个算法很经典,包含文本预处理.特征选择.特征权值计算.分类算法.这是VSM的几个主要步骤,在宗老师的书里都有详细的讲解,这里也会进行深入的讲解,浅显易 ...

  7. 【转载】向量空间模型VSM及余弦计算

    向量空间模型VSM及余弦计算 向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示. 这个模型假设词与词间不相关(这个前提造成这个模型无法进行语义相关的判断,向量空间模型的 ...

  8. 向量空间模型原理(VSM)

    VSM概念介绍 VSM概念简单来说,就是把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂.当文档被表示为文档空间的向量,就可以通过计算向量之间 的相似性来 ...

  9. 向量空间模型(VSM)--用于计算文本相似度

    向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d):-:tn, ωn(d)),其中ti(i=1,2, -,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d ...

最新文章

  1. DeepMind训练AI玩足球,风骚走位比中国男足都强(狗头)
  2. python字符串写入excel-python 操作 Excel 之写入
  3. #!/usr/bin/env python与#!/usr/bin/python的区别
  4. MVC4项目中验证用户登录一个特性就搞定
  5. Vue项目中Table设置 render 函数
  6. Kubernetes学习之路(四)之Node节点二进制部署
  7. pydicom 显示jpeg压缩图像_解读常见图像格式
  8. HttpRunnerManager接口自动化测试框架在win环境下搭建教程
  9. 海量数据挖掘MMDS week2: Association Rules关联规则与频繁项集挖掘
  10. 聊一个不常见的面试题:为什么数据库连接池不采用 IO 多路复用
  11. jdk1.8 新特性(中英文)及中文版帮助文档
  12. 关于 idea 快捷键 alt + f7 无法使用的一些尝试
  13. 渗透测试技术----工具使用(二)--Nessus工具下载及使用(安装在Kali上)
  14. 7大Python IDE工具推荐
  15. oracle返回0001错误,ORACLE 异常错误处理
  16. Spring Autowire自动装配(转http://lep1985520.blog.163.com/blog/static/56600480200901441338486/)
  17. 数据建模和数据库设计
  18. 涉密计算机系统分级保护,什么是分级保护!!
  19. 网易2017内推笔试题--小易老师的疯狂数列
  20. ChinaSoft 论坛巡礼 | 编译器与编程语言

热门文章

  1. 文字转语音软件哪个好?安利三款2023宝藏配音软件
  2. 打印机结构、原理及特点
  3. MFC+DuiVision结合VLC播放器开发直播客户端
  4. leetcode刷题记录-398. 随机数索引
  5. CTF-Misc-[BJDCTF2020]认真你就输了
  6. 中国传统节日中英对照:七夕
  7. CS3K.com Google面试题| 原子计数
  8. Windos上安装VirtualBox和Vagrant
  9. 宽带换了新的账号怎么连接服务器地址,换宽带了路由器怎么用手机重新设置方法【图】...
  10. Excel 合并单元格筛选时只出现首行