计算原理

第一项c(w,q)就是搜索q中词w的词频
第三项是词w的逆文档频率，M是所有文本的个数，df(w)是出现词w的文本个数
中间的第二项是关键，实质是词w的TF值的变换，c(w,d)是词w在文本d中的词频。首先是一个TF Transformation，目的是防止某个词的词频过大，经过下图中公式的约束，词频的上限为k+1，不会无限制的增长。例如，一个词在文本中的词频无论是50还是100，都说明文本与这个词有关，但相关度不可能是两倍关系。

优点

开源实现

snownlp
gensim_bm25
rank_bm25

实践

一般流程（对于中文）

构建corpus
1.1. 构建停用词词表（可加入部分高频词）
1.2. 分词
1.3. 去除停用词
训练BM25模型
使用模型计算相似性

gensim的使用

from gensim.summarization import bm25def test_gensim_bm25():corpus = [['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多'], ['第1', '个', '是', '应该', '第2', '个', '是'], ['不', '对', '应该', '就是', '差', '不', '多'], ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']]bm25Model = bm25.BM25(corpus)test_strs = [['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁'],['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁', '问题', '第1', '个'],['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁', '问题', '第1', '个','来', '问', '几', '个', '问题'],['应该', '差', '不', '多', '一定', '要', '退', '60', '岁'],['差', '不', '多', '一定', '要', '退'],['一定', '要', '差', '不', '多', '退'],['一定', '要', '退'],['一定', '差', '不', '多'],]for test_str in test_strs:scores = bm25Model.get_scores(test_str)print('测试句子：', test_str)for i, j in zip(scores, corpus):print('分值：{},原句：{}'.format(i, j))print('\n')if __name__ == '__main__':test_gensim_bm25()

运行结果

测试句子： ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']
分值：0.2828807225045471,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0.226504790662966,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.42164043562468434,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：2.2007072441488233,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']测试句子： ['应该', '差', '不', '多', '一定', '要', '退', '60', '岁']
分值：0.202827468444139,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0.09756782248085916,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.42164043562468434,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：1.2213019690359779,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']测试句子： ['差', '不', '多', '一定', '要', '退']
分值：0.15212060133310423,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.3240726131438252,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：1.1406697377282669,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']测试句子： ['一定', '要', '差', '不', '多', '退']
分值：0.15212060133310423,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.3240726131438252,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：1.1406697377282669,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']测试句子： ['一定', '要', '退']
分值：0.0,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：0.898773043805134,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']测试句子： ['一定', '差', '不', '多']
分值：0.15212060133310423,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.3240726131438252,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：0.24189669392313295,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']

TODO

对开源实现的深度优劣分析

参考：
python根据BM25实现文本检索

相关性算法BM25的python实现

计算原理

优点

开源实现

实践

一般流程（对于中文）

gensim的使用

运行结果

更多关于`gensim BM25`

TODO

相关性算法BM25的python实现相关推荐

最新文章

热门文章

相关性算法BM25的python实现

计算原理

优点

开源实现

实践

一般流程（对于中文）

gensim的使用

运行结果

更多关于gensim BM25

TODO

相关性算法BM25的python实现相关推荐

最新文章

热门文章

更多关于`gensim BM25`