提示:
信息检索:文档评分-词项权重计算-向量空间模型
 第三部分:tf-idf权重计算

文章目录

  • tf-idf权重计算
    • 权重
    • 文档频率df
    • idf计算举例
    • cf VS df
    • ※tf-idf权重

tf-idf权重计算

在进行排序时,除了词项频率tf之外,我们通常还需要词项在整个文档集中的频率和评分。
原因,当词项A和词项B在文档1中tf相同时,但词项B在文档集中每个文档中都有,而词项A只存在于文档1中,那么A和B需要有一个重要性的排序。

权重

罕见词项要比常见词项蕴含的信息要多很多,它出现的频率越低,那么出现它的文档就显得相关性更高。那么我们就希望给它更高的权重。
那么对于常见词而言,相对蕴含信息就相对偏少,给一个低的权重即可。

文档频率df

出现词项的文档数目

idft是反映信息量的一个指标。
用log10(N/dft)来限制N/dft的作用

idf计算举例

N=1000000

cf VS df

vs
文档集频率cf t在整个文档集中出现的次数
文档频率df 包含t的文档数目

哪一个更适合查询?即赋予更高的权重?
通过上图,df(idf)的更适合做查询

※tf-idf权重




6.3排序式检索 tf-idf权重计算相关推荐

  1. 文本特征抽取的向量空间模型(VSM)和TF/IDF方法

    文本特征抽取 两组小说,一组是爱情的,另一组是科幻的.我们能否用支持向量机训练一个模型,用来识别小说类型呢? 这个并不容易.因为支持向量机这类机器学习算法只能接受数学里面的向量作为输入.如果用它来做文 ...

  2. 关键词提取算法—TF/IDF算法

    关键词提取算法一般可分为有监督学习和无监督学习两类. 有监督的关键词提取方法可以通过分类的方式进行,通过构建一个较为完善的词表,然后判断每个文档与词表中的每个词的匹配程度,以类似打标签的方式,达到关键 ...

  3. 搜索引擎:文本分类——TF/IDF算法

    原理 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.TFIDF实际上是:TF * IDF,TF ...

  4. 为企业门户提供问答式检索--------让系统能回答普通用户提出的问题

    为企业门户提供问答式检索    -------让系统能回答普通用户提出的问题    为网站提供一个全文搜索功能已是件很简单的事情,但是,就象GOOGLE,BAIDU一样,这类搜索 无论排序方式如何的优 ...

  5. WWW 2021 | 通过强化学习控制对话式检索的风险

    ©PaperWeekly 原创 · 作者|金金 单位|阿里巴巴研究实习生 研究方向|推荐系统 本文由犹他大学发表于 WWW 2021.考虑到当前的对话式系统可能由于提出一些不好的澄清式问题,导致用户拥 ...

  6. 关于对话系统(任务式/检索式/生成式)的若干总结

    目录 Intro 1 任务式对话系统 2 检索式对话系统 3 生成式对话系统 Reference 最近一直在调研对话系统,细细研究发现里面的细分知识点非常多,任务式/检索式/生成式对话系统每个里面的都 ...

  7. 随笔_从《芳华》影评到TF/IDF算法

     前两天看好多<芳华>的影评说:为什么好人没好报?于是感叹一堆世态炎凉,人性丑陋什么的.我觉得这问题是:为什么中央空调(对谁都温暖)往往不被看好.  先说说TF/IDF算法,这是一种信息处 ...

  8. 《introduction to information retrieval》信息检索学习笔记3 词典和容错式检索

    第3章 词典和容错式检索 3.1 用于词典的搜索结构 给定一个反向索引和一个查询,我们的第一个任务是确定每个查询词是否存在于词汇表中,如果是,则返回指向相应倒排记录表的指针.涉及在数据结构中定位词项. ...

  9. 最新综述:对话式检索数据集汇总

    ©PaperWeekly 原创 · 作者 | 金金 单位 | 阿里巴巴研究实习生 研究方向 | 推荐系统 简介 对话式检索近年来成为了信息检索中的研究热点,但是该研究领域一直存在数据资源缺乏的问题,一 ...

最新文章

  1. MongoDB readConcern 原理解析
  2. 独家 | 提升API设计技能的22个最佳实践(附链接)
  3. sql sum嵌套查询+ group by
  4. 常用算法 之三 详解 SHA1 实现(基于算法的官方原文档)及源码详细注释
  5. go语言连接redis(已测试)
  6. 使用卷积神经网络识别交通标志
  7. (八) shiro + spring + mybatis整合开发
  8. MYSQL必知必会学习笔记(二)
  9. apache目录 vscode_CentOS 上使用vscode 调试百度大数据分析框架Apache Doris BE
  10. 长肥管道(LFT)中TCP的艰难处境与打法
  11. ZOJ 3761 Easy billiards 月赛E DFS
  12. 易语言webservice接口_易语言webservice接口调用助
  13. 谷歌无法启动更新检查(错误代码为4: 0x80070005-system level)
  14. 【BUUCTF】[WUSTCTF2020]alison_likes_jojo
  15. 组建计算机网络通常采用3种模式,对等网的组建_计算机中的543原则_计算机网络工作模式(2)...
  16. 与Zeynep Tufekci讨论社交媒体驱动的抗议的未来
  17. strlen()函数详解
  18. 一篇小文章了解企业的敏捷开发流程
  19. 树莓派打造一个适合音乐制作的系统(声卡部分)
  20. VScode 4 括号颜色分级插件(Bracket Pair Colorizer)

热门文章

  1. NYOJ---题目325zb的生日
  2. BPF之前端工具BCC与bpftrace
  3. 一个计算机爱好者的不完整回忆(二十一)歪打正着
  4. 黄聪:VS2010中如何让webbrowser不弹出JS异常错误窗口(c#.net)
  5. 认识WebService
  6. 切换网页窗口时改变页面title标题
  7. origin绘制投影能带-颜色渐变图(color Mapped)
  8. tms tck_TCK访问争议–与JPA 2.1专家组成员Oliver Gierke聊天
  9. GEE:对Sentinel-2遥感影像进行处理,水体提取与可视化
  10. lego_loam——featuerAssociation.cpp