java计算句子相似度的代码_4种方法计算句子相似度
Edit Distance
计算两个字符串之间,由一个转成另一个所需要的最少编辑次数,次数越多,距离越大,也就越不相关。比如,“xiaoming”和“xiamin”,两者的转换需要两步:
去除‘o’
去除‘g’
所以,次数/距离=2。
!pip install distance
import distance
def edit_distance(s1, s2):
return distance.levenshtein(s1, s2)
s1 = 'xiaoming'
s2 = 'xiamin'
print('距离:'+str(edit_distance(s1, s2)))
杰卡德系数
用于比较有限样本集之间的相似性与差异性。Jaccard 系数值越大,样本相似度越高,计算方式是:两个样本的交集除以并集。
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
def jaccard_similarity(s1, s2):
def add_space(s):
return ' '.join(list(s))
java计算句子相似度的代码_4种方法计算句子相似度相关推荐
- python计算今年第几天_Python三种方法计算指定日期是今年的第几天
今天早上和腾讯面试官进行了视频面试,由于音量和网络以及我的垃圾电脑的原因,个人感觉黄了... 最后面试官给了我一道简单的计算题:指定日期是今年的第几年 由于电脑卡到打字都打不动,我勉勉强强写了一点,虽 ...
- python生成相似句子_4种方法计算句子相似度
Edit Distance 计算两个字符串之间,由一个转成另一个所需要的最少编辑次数,次数越多,距离越大,也就越不相关.比如,"xiaoming"和"xiamin&quo ...
- java判断图片是否被修改过_4种方法判断图片是否被PS处理过,你都会吗? | X的博客...
"你用什么牌子的化妆品?" "Photoshop" 你是不是经常在网上看到新闻里说某官员的艳照系PS处理过,看到漂亮妹子照片又怀疑是Photoshop处理过?本 ...
- java se 定时任务_Java实现定时任务的三种方法
一.Quartz的特点 按作业类的继承方式来分,主要有以下两种: 作业类继承org.springframework.scheduling.quartz.QuartzJobBean类的方式作业类不继承o ...
- Java构造和解析Json数据的两种方法详解一
在www.json.org上公布了很多JAVA下的json构造和解析工具,其中org.json和json-lib比较简单,两者使用上差不多但还是有些区别.下面首先介绍用json-lib构造和解析Jso ...
- Java 判断字符串是否为空的四种方法、优缺点与注意事项
以下是Java 判断字符串是否为空的四种方法: 方法一: 最多人使用的一个方法, 直观, 方便, 但效率很低: if(s == null ||"".equals(s)); 方法二: ...
- [转]DES加密 java与.net可以相互加密解密两种方法
[转]原文地址:http://jumpman.javaeye.com/blog/605996 DES加密 java与.net可以相互加密解密两种方法 文章分类:Java编程 通过这个方法可以实现jav ...
- JAVA中获取文件MD5值的四种方法
JAVA中获取文件MD5值的四种方法其实都很类似,因为核心都是通过JAVA自带的MessageDigest类来实现.获取文件MD5值主要分为三个步骤,第一步获取文件的byte信息,第二步通过Messa ...
- 5种方法计算均方位移MSD
5种方法计算均方位移MSD (1)lammps计算 (2)VMD计算 (3)OVITO计算 (4)ISAACS软件计算 (5)自编程计算-附MATLAB代码 总结 在统计力学中,均方位移(MSD,均方 ...
最新文章
- 【C++】C++11 STL算法(七):排列操作(Permutation operations)、数值操作(Numeric operations)
- Android studio Day01-23
- 深度学习——卷积神经网络 的经典网络(LeNet-5、AlexNet、ZFNet、VGG-16、GoogLeNet、ResNet)
- ITK:使用最小最大曲率流平滑图像
- PV 和 UV IP
- python ioc di_PHP的依赖注入(DI) 和 控制反转(IoC)
- [数据结构-严蔚敏版]P64循环队列-队列的顺序存储结构
- 牛逼!简单的代码提交能玩出这么多花样
- struts2漏洞_Apache Struts2057远程代码执行漏洞复现
- DE29 Matrix Exponentials
- Nginx 基于nginx-sticky-module模块进行会话保持
- 在html中标记bdo,HTML_HTML非常用标签 optgroup、sub、sup和bdo示例代码,optgroup 用在select 标记中 可以 - phpStudy...
- XJOI 3266 Dyeing 染色 题解
- diameter协议栈_Diameter协议摘要
- unity按钮的使用
- Windows10 中的字母映射表
- cin、cout的使用
- 浅谈PLC电力线载波技术
- Centos7 安装CUPS (安装斑马ZP450打印机驱动)
- 网易云音乐全链路跟踪系统实践