文章目录

  • 概述
  • 余弦定理
  • 新闻分类
    • 数字化
    • 计算相似性
  • 案例

概述

三角函数的美在生活中可以说是无处不在,下面就给大家介绍一下计算机用余弦定理对新闻进行自动分类的基本方法。感兴趣的小伙伴可以了解一下,你只用掌握初高中的知识就够了!
  

余弦定理

什么是余弦定理?余弦定理是描述三角形中三边长度与一个角的余弦值关系的数学定理。余弦定理能让我们在已知三个边的情况下计算任意一个角的余弦值。

现在有如下一个三角形:

用余弦定理求这个三角形的角A的余弦值为:

如果将三角形的两条边b和c看成是两个以A为起点的向量,那么上诉公式等价于如下图,其中分母表示两个向量的长度,分子是两个向量的内积。

  

新闻分类

新闻分类是什么?新闻分类,或者更广义地将任何文本的分类,无非就是把相似的新闻归入同一类中。

如果人来完成这个任务,那么他首先会读懂新闻,然后找出其特征,最后和所有主题的特征比较,归入最相似的那个主题。比如一篇新闻的特征是多次出现了“NBA”、“绝杀”、“篮球之神”这些字眼,那么这篇新闻的主题大概率就是体育。

但是计算机不同,计算机不可能读懂新闻,对于它来说一篇新闻就是一串0,1序列。计算机如果想完成自动新闻分类,首先得用一组可计算的数字来表示一篇新闻的特征,然后在找到一个方法来计算这组数字的相似性,最后在用以上提到的人的分类方法进行分类。
  

数字化

同一类新闻的用词都是相似的,不同类的新闻用词各不相同。所以可以用新闻中出现词的重要性来体现一篇新闻的特征,而每个词的重要性可以用它的TF-IDE值表示(TF-IDE值的计算方法这里就不讲了,感兴趣的小伙伴可以自己去研究)。

有了上诉的思路,将一篇新闻数字化的大概流程如下:

  • 确定一个词汇表。
  • 计算出现的每一个词的TF-IDF值。如果词汇表里的某个词在新闻中没有出现,对应的TF-IDF值为零。
  • 把这些TF-IDF值按照对应的实词在词汇表的位置依次排列,就得到一个向量,这个向量被称为特征向量。

      

计算相似性

不同的文本,因为文本长度不同,它们的特征向量的每个维度的数值也不同,一篇1000字的文本,各个维度都比一篇500字的文章来得大。所以比较各个维度的大小没有意义,但是向量的方向却很有意义。如果两个向量的方向一致,说明相应的新闻用词的比例基本一致。

而余弦定理可以用来判断两个向量的方向是否一致。如果新闻X和Y对应的向量分别是:

那它们的夹角等于:

余弦函数在区间[0,π][0, \pi][0,π]的图像如下图,分析可得当余弦值越接近1的时候,两个特征向量的夹角越等于零,其方向越相同,两条新闻的主题越相似。

以上就是用计算机自动进行新闻分类的基本原理。当然要真正解决这个问题还有很多东西需要考虑,比如如何提高算法的运行效率、同一个词出现在新闻的不同位置的重要性不同。

案例

  • 2002年夏天,Google推出了自己的新闻“服务”。这些新闻不是记者写的,是计算机整理、分类和聚合各个新闻网站的内容,一切都是自动生成的,而这里面的关键技术就是我们上面讲的新闻的自动分类。
  • 在审核论文的时候,可以用这个方法首先对论文进行分类,然后再交给对应研究方向最权威的专家审核。

数学之美 | 余弦定理和新闻分类相关推荐

  1. 数学之美:GOOGLE新闻归类算法与余弦定理

    原文:http://www.kuqin.com/math/20071204/2786.html 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系.具体说,新闻的分类很大程度上依靠 ...

  2. 余弦定理和新闻的分类

    世界上有些事情常常超乎人们的想象.余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系.具体地说,新闻的分类很大程度上依靠的是余弦定理. 早在2002年夏天,Google就推出了自己 ...

  3. 《数学之美》-吴军 读书笔记

    从吴军的<数学之美>找到了伽莫夫的<从一到无穷大>,前段时间先整理了<从一到无穷大>的笔记.现在整理下<数学之美>以巩固下. 近段时间AlfaGo 与人 ...

  4. 《数学之美》——吴军#读书笔记

    <数学之美> 吴军 第一章:文字和语言vs数字和信息 主要内容概述:"语言和数学的产生都是为了同一个目的--记录和传播信息".科技是伴随着人类的不断进化而发展进步的.信 ...

  5. 【读书笔记】数学之美

    数学之美 00 计算复杂度 算法之父:高德纳 算法好坏的的度量不再和问题大小有关 算法复杂度 多项式复杂度函数:P问题(Polynomial) 非多项式函数:NP问题(Non-polynomial) ...

  6. 《数学之美》中的模型及启示总结

    目录 初衷 文章编排 章节总结 第1章 文字和语言 vs 数字和信息 第2章 自然语言处理--从规律到统计 第3章 统计语言模型 第4章 谈谈中文分词 第5章 隐含马尔可夫模型 第6章 信息的度量和作 ...

  7. 读书笔记——数学之美

    读完数学之美,收获很多,在这里我对我的收获进行简要的总结,这些总结中不包括对具体算法和模型的详解,详解请参考其他资料,这里只进行简要的总结. 1 文字和语言 vs 数字和信息 文字.数字.语言和数学是 ...

  8. 余弦定理实现新闻自动分类算法

    前言 余弦定理,这个在初中课本中就出现过的公式,恐怕没有人不知道的吧.但是另外一个概念,可能不是很多的人会听说过,他叫空间向量,一般用e表示,高中课本中有专门讲过这个东西,有了余弦定理和向量空间,我们 ...

  9. [转]《数学之美》 阅读笔记

    文字和语言 vs 数字和信息 不同的文字系统(包括数学)在记录信息上的能力是等价的. 印度人发明了阿拉伯数字,不是阿拉伯人. 如果把中文的笔画作为字母,它其实也是一种拼音文字,不过它是二维的而已. 所 ...

最新文章

  1. 腾讯99公益日︱深圳市慈善会:那些无力的故事,都拥有了力量
  2. eclipse下解决明明有jar包,却找不到的问题
  3. 微信小程序项目文件配置介绍
  4. 基于时间片轮转程序分析进程调度
  5. java -jar 启动优化_Android 8.1 启动时间优化--耗时分析
  6. constexpr函数
  7. MySQL Group Replication 介绍
  8. java akiba,Map集合的遍历(java)
  9. make check 时出现:Error importing caffe
  10. 2.12 主成分分析(下)
  11. linux中pip安装步骤与使用详解
  12. 极客学院 HTML5
  13. Cmdkey 凭证管理器工具
  14. JDK安装与环境变量配置(Win10)
  15. Hough变换原理-直线检测
  16. leetcode:买卖股票最佳时机含手续费
  17. 【游记】记清北学堂国庆刷题班
  18. “集五福”瓜分20亿!互联网巨头扎堆春节红包大战,暗藏啥玄机?
  19. 只能存储12KB数据,“码农女神”是怎样把人类送上月球的?
  20. Android 朋友圈之多图显示

热门文章

  1. 支付宝不用网络,也能正常支付,太神奇了吧!
  2. Mybatis plus 数据加密
  3. 德邦面试java_【德邦物流Java面试】德邦面试被耍经验分享。-看准网
  4. 虚拟机Windows 2008 搭建Java、PHP study、burp suite+foxyproxy组件、sqli-labs、DVWA渗透环境
  5. 求助:火狐浏览器使用 本地代理后无法连接网络的解决方法
  6. Java bho插件,C# 开发BHO(Browser Helper Object)插件
  7. 三态输出的CMOS门电路(2021.3.5)
  8. webpack模块解析
  9. python poi爬取
  10. 卸载完百度影音以后天气助手还在,而且总是自己主动打开ie浏览器,解决方式...