1.应用场景

我在构建搜索引擎的时候,需要构建一个排名算法。我最初版本的做法为,根据一篇文章中词汇出现的频率,对各个网页进行排序。这样会有一个很明显的缺点,当我们页面中出现很多**中止词(例如,the,1,2)**时,这样不能客观反映搜索词对文档的重要程度。

我们需要调整某些单词在一般情况下更频繁出现的事实(过滤中止词)。TF-IDF值(搜索词的重要性),随着单词在文件中出现的次数成正比增加,但同时会随着它在包含该单词的所有文档中出现的频率成反比下降(从这里可以推出TF-IDF的公式),从而获取该文章关于搜索词重要性的权值。

TF-IDF是当今最受欢迎的术语加权方案之一,旨在反映搜索词对集合中文档的重要程度。

它的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

应用方面:

  • 搜索引擎经常使用tf-idf加权方案,作为在给定用户查询的情况下对文档的相关性进行评分和排序的核心工具。tf-idf可以成功地用于各种主题领域的停止词过滤,包括文本摘要的分类。
  • 通过对每个查询项的tf-idf求和来计算最简单的排名函数之一 ; 许多更复杂的排名函数是这个简单模型的变体。

2.TF-IDF解释

TF(Term Frequency):表示词汇频率。

假设我们有一套英文文本文档,并希望对与查询最相关的文档进行排名,搜索词为The Brown cow.我们最简单的方法是,删除不包含thebrowncow所有这些词的文档,但如此操作后,仍剩余许多文档。为了进一步区分它们,需要计算这些搜索词在文档中出现的次数,我们将搜索词在文档中出现的频率称作词频(TF),这个数字是对**词数(Term Count)**的归一化,以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否)。

如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这种搜索词加权可归纳为:

文档中出现的搜索词的权重与搜索词频率成正比

TF的不足之处:

它不能有效的过滤中止词,例如上述提到的the

IDF(Inverse document frequency):表示逆向文档频率。

IDF是一个词语普遍重要性的度量(过滤中止词)

接着上面的例子讲,因为搜索词the很常见,TF(Term Frequency)倾向于错误地强调更频繁地使用“the”一词的文档(这里可以将the看作为中止词),而没有给予更有意义的术语“brown”和“cow”足够的权重。与不常见的单词“brown”和“cow”不同,术语“the”不是区分相关和非相关文档和术语的好关键词。因此,结合了逆文档频率因子,其减少了在文档集中频繁出现的术语的权重(降低中止词权重),并且增加了很少出现的词语的权重。这种加权可以归纳为:

词语的特异性可以量化为其出现的文档数量的反函数

3.模型解释

TF-IDF是两个统计量的乘积。有多种方法可以确定统计量的具体值。

词频(TF)

术语频率 tf(td)的情况下,最简单的选择是使用文档中单词的原始计数,f(t,d)即单词t在文档d中出现的次数,即(t/d)。最简单的tf方案是tf(td)= f (t,d)。其他可能性包括:

  • 布尔“频率”:TF(t,d)= 1,如果d中出现t为1,否则为0;
  • 根据文件长度调整的词频: f(t,d)/ (d中的总词数);
  • 对数缩放频率:TF(t,d)= log(1 + f(t,d) ) ;
  • 增加频率,以防止偏向更长的文档,例如原始频率除以文档中最常出现的单词的原始频率:

词频(tf)权重的变体

加权计划 权重
二进制
原始计数
期限频率(使用最频繁)
日志规范化
双标准化K.
双归一化0.5

IDF(逆向文档频率)

对文档中的罕见词进行加权(通过将文档总数除以包含该项的文档数,然后取该商的对数得到).

N表示语料库中的文档总数

tf(t,d)表示包含搜索词的文档数,搜索词不在语料库中时为0。则这将导致除零。因此,通常将分母调整为

利用 lg1=0 解决0的问题

IDF(逆向文档频率)权重的变体

加权计划 (IDF权重)
一元 1
逆文档频率
逆文档频率平滑
逆文档频率最大值
概率逆文档频率

TF-IDF

下面给出TF-IDF的计算公式

TF-DIF模型原理解释

通过高频词汇(在给定文件中)达到tf-idf的高权重,并且在整个文档集合中该搜索词的文档频率低; 因此,权重倾向于过滤掉常用术语。由于idf的log函数内的比率始终大于或等于1(比率为1时,idf值为0),因此idf(和tf-idf)的值大于或等于0.当一个术语出现在更多文档中时,对数内的比率接近1 ,使idf和tf-idf更接近0。

nt越大(中止词越多),比率越接近于1,idf的值越接近于0.

推荐的加权组合方案

加权计划 文档搜索词权重 查询搜索词权重
1
2
3

4.实例展示

在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。 我们将这三个数相加,其和 0.042 就是相应网页和查询“原子能的应用” 相关性的一个简单的度量。概括地讲,如果一个查询包含关键词 w1,w2,…,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, …, TFN.(TF: term frequency)。 那么,这个查询和该网页的相关性就是:TF1 + TF2 + … + TFN。
在上面的例子中,词“的”占了总词频的 80% 以上,而它对确定网页的主题几乎没有用。我们称这种词叫“中止词”(Stopwords),也就是说在度量相关性是不应考虑它们的频率。在汉语中,应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后,上述网页的相似度就变成了0.007,其中“原子能”贡献了 0.002,“应用”贡献了 0.005。细心的读者可能还会发现另一个小的漏洞。在汉语中,“应用”是个很通用的词,而“原子能”是个很专业的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重,这个权重的设定必须满足下面两个条件:

  • 一个词预测主题能力越强,权重就越大,反之,权重就越小。我们在网页中看到“原子能”这个词,或多或少地能了解网页的主题。我们看到“应用”一次,对主题基本上还是一无所知。因此,“原子能“的权重就应该比应用大。
  • 应删除词的权重应该是零。

我们很容易发现,如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍然不是很清楚要找什么内容,因此它应该小。概括地讲,假定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w的权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数。比如,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿)= log (1) = 0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =2.7。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF = log(2)则只有 0.3。也就是说,在网页中找到一个“原子能”的匹配相当于找到九个“应用”的匹配。利用 IDF,上述相关性计算的公式就由词频的简单求和变成了加权求和,即 TF1IDF1 + TF2IDF2 +… + TFN*IDFN。在上面的例子中,该网页和“原子能的应用”的相关性为 0.0069,其中“原子能”贡献了 0.0054,而“应用”只贡献了0.0015。这个比例和我们的直觉比较一致了。

5.总结

本质上IDF是一种试图抑制噪音的加权 ,并且单纯地认为文本频数小的单词就越重要文本频数大的单词就越无用,显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高。

我们在构建搜索引擎时,特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果

TF-IDF算法概述及模型构建相关推荐

  1. 关键词提取算法—TF/IDF算法

    关键词提取算法一般可分为有监督学习和无监督学习两类. 有监督的关键词提取方法可以通过分类的方式进行,通过构建一个较为完善的词表,然后判断每个文档与词表中的每个词的匹配程度,以类似打标签的方式,达到关键 ...

  2. 随笔_从《芳华》影评到TF/IDF算法

     前两天看好多<芳华>的影评说:为什么好人没好报?于是感叹一堆世态炎凉,人性丑陋什么的.我觉得这问题是:为什么中央空调(对谁都温暖)往往不被看好.  先说说TF/IDF算法,这是一种信息处 ...

  3. 搜索引擎:文本分类——TF/IDF算法

    原理 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.TFIDF实际上是:TF * IDF,TF ...

  4. tfidf算法 python_tf–idf算法解释及其python代码实现(下)

    tf–idf算法python代码实现 这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...

  5. 文本特征抽取的向量空间模型(VSM)和TF/IDF方法

    文本特征抽取 两组小说,一组是爱情的,另一组是科幻的.我们能否用支持向量机训练一个模型,用来识别小说类型呢? 这个并不容易.因为支持向量机这类机器学习算法只能接受数学里面的向量作为输入.如果用它来做文 ...

  6. ML.NET 1.1 发布,模型构建器升级和新的异常检测算法

    https://www.toutiao.com/a6703297861997560328/ 2019-06-17 08:59:15 ML.NET 1.1 已发布.ML.NET 是一个跨平台的机器学习框 ...

  7. ML之ME/LF:基于不同机器学习框架(sklearn/TF)下算法的模型评估指标(损失函数)代码实现及其函数(Scoring/metrics)代码实现(仅代码)

    ML之ME/LF:基于不同机器学习框架(sklearn/TF)下算法的模型评估指标(损失函数)代码实现及其函数(Scoring/metrics)代码实现(仅代码) 目录 单个评价指标各种框架下实现 1 ...

  8. NLP:自然语言处理技术领域的代表性算法概述(技术迭代路线图/发展时间路线)、四大技术范式变迁概述(统计时代→大模型时代)、四个时代的技术方法论探究(少数公司可承担的训练成本原因)之详细攻略

    NLP:自然语言处理技术领域的代表性算法概述(技术迭代路线图/发展时间路线).四大技术范式变迁概述(统计时代→大模型时代).四个时代的技术方法论探究(少数公司可承担的训练成本原因)之详细攻略 目录 一 ...

  9. NLP之PTM:自然语言处理领域—预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transfo→GPT系列/BERT系列等)、关系梳理、模型对比之详细攻略

    NLP之PTM:自然语言处理领域-预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transformer→GPT系列/BERT系列等).关系梳理.模型对比之 ...

最新文章

  1. 贪心 ---- C. Anu Has a Function位运算+贪心证明
  2. argparse.ArgumentParser()用法解析
  3. wps office oa控件 痕迹_WPS大更新,Office的付费功能免费用,我不会是最后一个知道的吧?...
  4. Linux 脚本编写基础(二)
  5. 圈子 | 大数据分析汽车O2O的机会
  6. POJ 1904 King's Quest(强连通图)题解
  7. ES报错:Connection reset by peer 解决经历
  8. 计算机应用基础第二版在线作业一,计算机应用基础在线作业一
  9. c mysql命令_最基本的mysql命令
  10. String字符串工具类 StringUtils.java
  11. sqlserver 分组合并列_【双11秒杀】帕克96分阿根廷一级名庄鼎尖单一园马尔贝克...
  12. 深度学习—写作Dataset时是否应该使用shuffle
  13. 频率学派与贝叶斯学派的区别
  14. 基于51单片机的简易数字示波器proteus仿真
  15. bzoj3207 花神的嘲讽计划Ⅰ
  16. mac 长时间锁屏后进入无声音
  17. 三国群英传服务器维护是几点,20191112维护公告
  18. pip install 安装报错:ValueError: check_hostname requires server_hostname
  19. 学习笔记(109):R语言入门基础-text函数
  20. 自考行政管理计算机应用基础好考吗,通过自考《计算机应用基础》之经验谈

热门文章

  1. 新浪支付日常懵逼系列
  2. 诊所药品出入库软件如何做
  3. 商业虚拟专用网络技术十一 MPLS转发
  4. 爱尔兰都柏林圣三一大学计算机排名,爱尔兰都柏林圣三一大学在2020年世界大学学科排名表现亮眼...
  5. html5 h265播放器,PC端播放H265
  6. 最新计算机word基础知识,最新计算机Word、Excel及部分基础知识.doc
  7. 信息搜集(五)之网站目录
  8. 解决java.sql.SQLException: Access denied for user ‘‘@‘localhost‘ (using password: NO)
  9. Lua封装C++实践(一)——Lua和C/C++的基本交互
  10. 薪酬福利管理太复杂?有实在RPA就够了