TF-IDF算法概述及模型构建

1.应用场景

我在构建搜索引擎的时候，需要构建一个排名算法。我最初版本的做法为，根据一篇文章中词汇出现的频率，对各个网页进行排序。这样会有一个很明显的缺点，当我们页面中出现很多**中止词（例如，the,1,2）**时，这样不能客观反映搜索词对文档的重要程度。

我们需要调整某些单词在一般情况下更频繁出现的事实（过滤中止词）。TF-IDF值（搜索词的重要性），随着单词在文件中出现的次数成正比增加，但同时会随着它在包含该单词的所有文档中出现的频率成反比下降(从这里可以推出TF-IDF的公式)，从而获取该文章关于搜索词重要性的权值。

TF-IDF是当今最受欢迎的术语加权方案之一，旨在反映搜索词对集合中文档的重要程度。

它的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

应用方面：

搜索引擎经常使用tf-idf加权方案，作为在给定用户查询的情况下对文档的相关性进行评分和排序的核心工具。tf-idf可以成功地用于各种主题领域的停止词过滤，包括文本摘要的分类。
通过对每个查询项的tf-idf求和来计算最简单的排名函数之一 ; 许多更复杂的排名函数是这个简单模型的变体。

2.TF-IDF解释

TF(Term Frequency)：表示词汇频率。

假设我们有一套英文文本文档，并希望对与查询最相关的文档进行排名，搜索词为The Brown cow.我们最简单的方法是，删除不包含the，brown，cow所有这些词的文档，但如此操作后，仍剩余许多文档。为了进一步区分它们，需要计算这些搜索词在文档中出现的次数，我们将搜索词在文档中出现的频率称作词频(TF)，这个数字是对**词数（Term Count）**的归一化，以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否)。

如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这种搜索词加权可归纳为：

文档中出现的搜索词的权重与搜索词频率成正比

TF的不足之处：

它不能有效的过滤中止词，例如上述提到的the

IDF(Inverse document frequency)：表示逆向文档频率。

IDF是一个词语普遍重要性的度量(过滤中止词)

接着上面的例子讲，因为搜索词the很常见，TF(Term Frequency)倾向于错误地强调更频繁地使用“the”一词的文档（这里可以将the看作为中止词），而没有给予更有意义的术语“brown”和“cow”足够的权重。与不常见的单词“brown”和“cow”不同，术语“the”不是区分相关和非相关文档和术语的好关键词。因此，结合了逆文档频率因子，其减少了在文档集中频繁出现的术语的权重（降低中止词权重），并且增加了很少出现的词语的权重。这种加权可以归纳为：

词语的特异性可以量化为其出现的文档数量的反函数

3.模型解释

TF-IDF是两个统计量的乘积。有多种方法可以确定统计量的具体值。

词频(TF)

在术语频率 tf（t，d）的情况下，最简单的选择是使用文档中单词的原始计数，f(t,d)即单词t在文档d中出现的次数，即(t/d)。最简单的tf方案是tf（t，d）= f (t,d)。其他可能性包括：

布尔“频率”：TF（t,d）= 1，如果d中出现t为1，否则为0;
根据文件长度调整的词频： f(t,d)/ (d中的总词数);
对数缩放频率：TF（t,d）= log（1 + f(t,d) ） ;
增加频率，以防止偏向更长的文档，例如原始频率除以文档中最常出现的单词的原始频率：

词频（tf）权重的变体

加权计划	权重
二进制
原始计数
期限频率(使用最频繁)
日志规范化
双标准化K.
双归一化0.5

IDF（逆向文档频率）

对文档中的罕见词进行加权(通过将文档总数除以包含该项的文档数，然后取该商的对数得到).

N表示语料库中的文档总数

tf(t,d)表示包含搜索词的文档数，搜索词不在语料库中时为0。则这将导致除零。因此，通常将分母调整为

利用 lg1=0 解决0的问题

IDF（逆向文档频率）权重的变体

加权计划	（IDF权重）
一元	1
逆文档频率
逆文档频率平滑
逆文档频率最大值
概率逆文档频率

TF-IDF

下面给出TF-IDF的计算公式

TF-DIF模型原理解释

通过高频词汇(在给定文件中）达到tf-idf的高权重，并且在整个文档集合中该搜索词的文档频率低; 因此，权重倾向于过滤掉常用术语。由于idf的log函数内的比率始终大于或等于1(比率为1时，idf值为0)，因此idf（和tf-idf）的值大于或等于0.当一个术语出现在更多文档中时，对数内的比率接近1 ，使idf和tf-idf更接近0。

nt越大(中止词越多)，比率越接近于1，idf的值越接近于0.

推荐的加权组合方案

加权计划	文档搜索词权重	查询搜索词权重
1
2
3

4.实例展示

在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出现了 2 次、35 次和 5 次，那么它们的词频就分别是 0.002、0.035 和 0.005。我们将这三个数相加，其和 0.042 就是相应网页和查询“原子能的应用” 相关性的一个简单的度量。概括地讲，如果一个查询包含关键词 w1,w2,…,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, …, TFN.（TF: term frequency)。那么，这个查询和该网页的相关性就是:TF1 + TF2 + … + TFN。
在上面的例子中，词“的”占了总词频的 80% 以上，而它对确定网页的主题几乎没有用。我们称这种词叫“中止词”（Stopwords)，也就是说在度量相关性是不应考虑它们的频率。在汉语中，应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后，上述网页的相似度就变成了0.007，其中“原子能”贡献了 0.002，“应用”贡献了 0.005。细心的读者可能还会发现另一个小的漏洞。在汉语中，“应用”是个很通用的词，而“原子能”是个很专业的词，后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重，这个权重的设定必须满足下面两个条件：

一个词预测主题能力越强，权重就越大，反之，权重就越小。我们在网页中看到“原子能”这个词，或多或少地能了解网页的主题。我们看到“应用”一次，对主题基本上还是一无所知。因此，“原子能“的权重就应该比应用大。
应删除词的权重应该是零。

我们很容易发现，如果一个关键词只在很少的网页中出现，我们通过它就容易锁定搜索目标，它的权重也就应该大。反之如果一个词在大量网页中出现，我们看到它仍然不是很清楚要找什么内容，因此它应该小。概括地讲，假定一个关键词 w 在 Dw 个网页中出现过，那么 Dw 越大，w的权重越小，反之亦然。在信息检索中，使用最多的权重是“逆文本频率指数” （Inverse document frequency 缩写为IDF），它的公式为log（D/Dw）其中D是全部网页数。比如，我们假定中文网页数是D=10亿，应删除词“的”在所有的网页中都出现，即Dw=10亿，那么它的IDF=log(10亿/10亿）= log (1) = 0。假如专用词“原子能”在两百万个网页中出现，即Dw=200万，则它的权重IDF=log(500) =2.7。又假定通用词“应用”，出现在五亿个网页中，它的权重IDF = log(2)则只有 0.3。也就是说，在网页中找到一个“原子能”的匹配相当于找到九个“应用”的匹配。利用 IDF，上述相关性计算的公式就由词频的简单求和变成了加权求和，即 TF1IDF1 +　TF2IDF2 +… + TFN*IDFN。在上面的例子中，该网页和“原子能的应用”的相关性为 0.0069，其中“原子能”贡献了 0.0054，而“应用”只贡献了0.0015。这个比例和我们的直觉比较一致了。

5.总结

本质上IDF是一种试图抑制噪音的加权，并且单纯地认为文本频数小的单词就越重要，文本频数大的单词就越无用，显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能，所以TFIDF法的精度并不是很高。

我们在构建搜索引擎时，特征词在不同的标记符中对文章内容的反映程度不同，其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数，然后乘以特征词的词频，以提高文本表示的效果。