Cosine

余弦定理计算文章相似度

实现思路

前些天看了阮一峰大神的文本相似度的实现思路于是就自己搞了一个效果还不错

句子A:我喜欢看电视,不喜欢看电影。

句子B:我不喜欢看电视,也不喜欢看电影。

1首先是分词,这里我用的是结巴分词。

句子A:我/喜欢/看/电视,不/喜欢/看/电影。

句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。

2列出所有的词(使用tfidf算法提取20个关键词)

我,喜欢,看,电视,电影,不,也。

3计算词频

句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。

句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。

4列出词频向量

句子A:[1, 2, 2, 1, 1, 1, 0]

句子B:[1, 2, 2, 1, 1, 2, 1]

两条线段之间形成一个夹角,如果夹角为0度,意味着方向相同、线段重合;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。因此,我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。

(ps:由于git对上传文件大小有限制程序里有些训练文本没有上传或者只上传了一部分,需要的话联系qq:1137543175)

python余弦定理求角_余弦定理计算文章相似度相关推荐

  1. python余弦定理求角_python余弦定理计算相似度

    #-*- coding: utf-8 -*- importjiebaimportjieba.analyseimportmathdefsentence_resemble():'''计算两个句子的相似度: ...

  2. python余弦定理求角_python实现的文本相似度算法(余弦定理)

    只对汉字进行相似度分析,以单个字为向量,然后每个字在章节中出现的次数,便是以此字向量的值.现在我们假设: 章节1中出现的字为:Z1c1,Z1c2,Z1c3,Z1c4--Z1cn:它们在章节中的个数为: ...

  3. python列表求平均值_长篇文讲解:Python要求O(n)复杂度求无序列表中第K的大元素实例...

    本文内容主要介绍了Python要求O(n)复杂度求无序列表中第K的大元素实例,具有很好的参考价值,希望对大家有所帮助.一起跟随小编过来看看吧! 昨天面试上来就是一个算法,平时基本的算法还行,结果变个法 ...

  4. python怎么求指数_求指数 python

    softmax用于多分类过程中最后一层,将多个神经元的输出,映射到(0, 1)区间内,可以看成概率来理解,从而来进行多分类! softmax函数如下: 更形象的如下图表示: softmax 直白来说就 ...

  5. python四分位数怎么算_四分位数计算以及使用pandas计算

    最近学习python数据分析,遇到了四分位数计算问题,因四分位数计算公式不一致,导致结果不一样,坑爹的百度只给了一种计算方法,容易迷惑初学者,故总结如下: 计算方法 三个四分位数的确定: 先按从小到大 ...

  6. 直方图计算文章相似度

    博主原文 https://blog.csdn.net/lanphaday/article/details/2325027 计算图像相似度--<Python也可以>之一 声明:本文最初发表于 ...

  7. python 多项式求系数_在Python中用于计算“多项式系数”的numpy / scipy函数

    是否有任何 python函数(可能来自numpy或scipy)计算扩展中x ** r的系数(1 xx ** 2 x ** 3 - x **(k-1))** n ,其中k> = 1,n> = ...

  8. python编程求导数_用python怎么计算导数最简单?

    谢邀,请恕我微积分学得不扎实,我记得常数的一阶导数均为0. 如果列表中传入的为含变量x的式子,代码可能如下. from sympy import Symbol, diff x = Symbol('x' ...

  9. python 多项式求系数_多项式系数的计算

    def evalPoly(lst, x): total = 0 for power, coeff in enumerate(lst): # starts at 0 by default total + ...

  10. python编程求导数_面向对象编程 —— java实现函数求导

    首先声明一点,本文主要介绍的是面向对象(OO)的思想,顺便谈下函数式编程,而不是教你如何准确地.科学地用java求出函数在一点的导数. 一.引子 defd(f) :defcalc(x) : dx= 0 ...

最新文章

  1. Datawhale组队学习:初级算法梳理课程任务
  2. Windows下安装Objective-C开发环境
  3. 计算平方根【牛顿迭代法】
  4. HUD2795 线段树(单点更新)
  5. vue怎么改logo_vue全家桶项目构建教程
  6. SpringBoot—JPA和JDBC常用配置说明
  7. 泛型编程和元编程概念(先学泛型编程再学元编程)
  8. Linux中常用查看日志命令
  9. deepin输入法配置
  10. GitHub开源项目学习 电商系统Mall (一) Mall简介
  11. 浏览器架构的误区和瘦客户端应用
  12. [域] 大量日志错误,事件ID:1058 事件ID:1030
  13. java的HMACSHA1加密算法
  14. 怎么下载淘宝商品大图
  15. POJ 1737 Connected Graph (大数+递推)
  16. 南昌大学计算机高级应用,南昌大学计算机应用技术调剂生复试经验
  17. SEO学习笔记二:在搜索引擎竞价排名环境下,个人网站将何去何从?
  18. 不同波段成像(数字图像)
  19. 小程序和Web项目的区别
  20. 如果收到这条短信,直接删除,是病毒!

热门文章

  1. Netty中的Channel之数据冲刷与线程安全(writeAndFlush)
  2. 国外项目跳板机访问时差问题
  3. 【洛谷P5018 对称二叉树】
  4. 呼叫中心几种常见质检方式的对比
  5. hibernate的HQL查询部分属性
  6. TurboMail 邮件系统V5.2.0新品发布会盛况直击
  7. vue运行报错:Cannot find module 'webpack/bin/config-yargs'
  8. MySQL查询用户行为,网站用户行为分析
  9. 直线电机原理动画_直线振动筛工作原理结构图以及结构解析
  10. 软件工程期末设计(校园教务系统)