当计算出文本的Count Vector后,通过如下几种方法计算文本相似度。

Count Vector相关计算:(8条消息) 利用python文章关键信息提取_菜鸟1号——的博客-CSDN博客https://blog.csdn.net/qq_45099699/article/details/125798516?spm=1001.2014.3001.5501

以下相似度计算均以此例子进行:

句子1:这只皮靴号码大了,那只号码合适

句子2:这只皮靴号码不小,那只更合适

1.余弦相似度(常用)

#运用前边计算的count vector
def cosine(v1,v2):v1_arr=np.array(v1)v2_arr=np.array(v2)up = np.sum(v1_arr*v2_arr)downl = np.power(np.sum(v1_arr*v1_arr),0.5)downr = np.power(np.sum(v2_arr * v2_arr), 0.5)cosine_=up/(downl*downr)return cosine_
print('cosine:',cosine(count_vector[0],count_vector[1]))

2.Jaccard相似度

# 该方法不需要count vector,只用文本的交并集
def Jaccard(v1,v2):v1=set(v1)v2=set(v2)up=v1.intersection(v2)down=v1.union(v2)jaccard=1.0*len(up)/len(down)return jaccard
print('Jaccard:',Jaccard(list_[0],list_[1]))

3.欧式距离计算

# 运用前边计算的count vector
def Distance(v1,v2):v1_arr=np.array(v1)v2_arr=np.array(v2)distance=np.linalg.norm(v1_arr-v2_arr)return distance
print('欧式距离:',Distance(count_vector[0],count_vector[1]))

python文本相似度计算相关推荐

  1. python 文本相似度计算函数_一文讲述常见的文本相似度计算方法

    作者 | LU_ZHAO 责编 | 徐威龙 前言 在自然语言处理中,我们经常需要判定两个东西是否相似. 比如,在微博的热点话题推荐那里,我们需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个 ...

  2. python 文本相似度计算函数_四种计算文本相似度的方法对比

    作者:Yves Peirsman 编译:Bing 编者按:本文作者为Yves Peirsman,是NLP领域的专家.在这篇博文中,作者比较了各种计算句子相似度的方法,并了解它们是如何操作的.词嵌入(w ...

  3. python 文本相似度现状_python文本相似度分析

    如何用python计算文本的相似度 同学欢迎来到CSS布局HTML~文本的相似度计算是NLP(自然语言处理)方向的范畴,感兴趣可以找相关的书籍详细学习研究.同学问的这个问题,可以搜索:python文本 ...

  4. 文本相似度计算python lda_如何识别“答非所问”?使用gensim进行文本相似度计算...

    在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性. 评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情色彩,比较注重描述商品的属性和 ...

  5. 文本相似度计算——Simhash算法(python实现)

    互联网网页存在着大量重复内容,必须有一套高效的去重算法,否则爬虫将做非常多的无用功,工作时效性无法得到保证,更重要的是用户体验也不好.业界关于文本指纹去重的算法众多,如 k-shingle 算法.go ...

  6. 如何识别“答非所问”?使用gensim进行文本相似度计算

    在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性. 评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情色彩,比较注重描述商品的属性和 ...

  7. sklearn tfidf求余弦相似度_【基础算法 】文本相似度计算

    在自然语言处理中,文本相似度是一种老生常谈而又应用广泛的基础算法模块,可用于地址标准化中计算与标准地址库中最相似的地址,也可用于问答系统中计算与用户输入问题最相近的问题及其答案,还可用于搜索中计算与输 ...

  8. 最准的中文文本相似度计算工具

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx text2vec, chinese text to vetor.(文本向量化表示工具,包括词向 ...

  9. 使用BERT做中文文本相似度计算与文本分类

    转载请注明出处,原文地址: https://terrifyzhao.github.io/2018/11/29/使用BERT做中文文本相似度计算.html 简介 最近Google推出了NLP大杀器BER ...

最新文章

  1. python与excel的应用-Python利用pandas处理Excel数据的应用
  2. MySQL双主io线程起不来_解决master and slave have equal MySQL server UUIDs导致Slave_IO_thread起不来问题...
  3. javaweb学习总结(二十四):jsp传统标签开发
  4. 常见操作系统调度算法研究(2)
  5. 原生JS封装ajax以及request
  6. mysql操作json优点和缺点_SQL-mysql操作json
  7. php 设置 server 变量,php 服务器变量 $_SERVER
  8. win8专业版激活---遇到的问题
  9. 计算机实践游戏报告范文,关于在校学生玩电脑游戏的调查报告
  10. 如何用Python网络爬虫爬取网易云音乐歌词
  11. 上学期c语言作业答案,C语言作业答案4
  12. PPT基础(四十五)调整图片透明度
  13. 查看bpl 引用的dll_BPL与DLL
  14. oracle数据库内存结构pga/sga/uga做比较分析
  15. 小程序之mpvue使用
  16. Zotero 中英文文献通用快捷引用方法
  17. 计算机两个硬盘那个快,固态硬盘可以装两个吗_电脑装两个固态会快吗
  18. td是什么意思php,td是什么意思?
  19. Latex写文章时如何让表格的标题序号单独一行,注释居中大写
  20. 师兄帮帮忙 UVa12412 一个简单的成绩查询问题

热门文章

  1. java+Springboot+vue漫画投稿交流网站源码介绍
  2. 网易企业邮箱新增邮件传真功能啦,服务升级
  3. ubuntu关闭端口命令
  4. 信息安全入门——web安全介绍
  5. 梅西夺冠,TikTok跨境卖家如何把握这销售良机?
  6. 存储若三分天下,谁是不可或缺的一极?华为,还有……
  7. 电脑能录屏吗?当然可以!看看这3种方法!
  8. HTML5_04_存储_缓存_SQL
  9. 人工智能实战_第三次作业_杨佳宁
  10. 【华东交大】计算机网络实验六