简单的新闻分类算法(流程图描述)
在指定网页中,某个关键词出现的次数除以该网页长度称为该关键词在此网页中的词频。对新闻类网页,存在一组的关键词。因此,每个新闻页都存在一组词频,称为该新闻网页的特征向量。设两个新闻网页的特征向量分别为:甲(a1 ,a2,.... ak)、乙(b1 ,b2,.... bk),则计算这个网页的相似度时需先计算它们的内积S=a1b1+a2b2+.....+akbk。一般情况下,新闻网页特征向量的维数时巨大的,但每个特征向量中非零元素却并不多。为了节省存储空间和计算时间,我们依次用特征向量中非零元素的序号及相应词频值来简化特征向量。为此,
我们用(NA(i),A(i)| i=1,2,…,m)和(NB(j),B(j)| j=1,2,…,n)来简化两个网页的特征向量。其中:NA(i)从前到后描述了特征向量甲中非零元素A(i)的序号(NA(1)<NA(2)<…),NB(j))从前到后描述了特征向量乙中非零元素B(j)的序号(NB(1)<NB(2)<…)。
下面的流程图描述了计算这两个特征向量内积S的过程。(题来自软考2014上)
(1)处,由题目信息和最终输出,可以得知,流程图得S代表特征向量内积和,所以S 的初值为0
(2)处,由S=a1b1+a2b2+…+akbk 得,S=S+A(i)*B(j),所以填S+A(i)*B(j)
(3)处,分析流程图得要正常计算内积必须保证i=j,当NA[i]<NB[J]时,j不变,i加1。此时正常来说应该用新的i值接着计算内积,但是特征向量中非零元素个数时有限的,无论如何i的值不能超出最大值m,所以此处应该判断是否越界,填入i>m?
同理可得(4)处应填,j>n?
(5)处,分析流程图得知,流程图中间部分是用来正常计算内积的,从(2)下去,自增后,应当判断是否计算完成,作为结束条件。计算结束意味着其中有一个简化向量结束,即NA(i)或NB(j)结束,此处应填i>m or j>n
—————————————————————————————————————————————————————
附:(答案中的一些描述)
世界上有大量的新闻网页,门户网站需要将其自动进行分类,并传送给搜索的用户。为了分类,需要建立相似度衡量方法。流行的算法是,先按统一的关键词组计算各个关键词的词频,形成网页的特征向量,这样,两个网页特征向量的夹角余弦(内积/两个向量模具的乘积),就可以衡量两个网页的相似度。因此,计算两个网页特征向量的内积就是分类计算中的关键。
对于存在大量零元素的稀疏向量来说,题中的简化表示方法很有效。
(1)0
(2)S+A(i)B(j)
(3) i>m 或i=m+1或等价表示
(4)j>n或j=n+1或等价表示
(5)i>m or i=m+1 或 i=m+1 or j=n+1
简单的新闻分类算法(流程图描述)相关推荐
- 简单明了的分类算法:OneR。
在之前介绍的kNN算法属于一种分类算法,之后会介绍的决策树也是属于分类算法.分类算法的目的就是根据训练集的特征将新的数据进行预测,当然能够找到特征之间的联系越多那么最后的分类结果也就应该越准确.但是有 ...
- [Python从零到壹] 十四.机器学习之分类算法五万字总结全网首发(决策树、KNN、SVM、分类对比实验)
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- 余弦定理实现新闻自动分类算法
前言 余弦定理,这个在初中课本中就出现过的公式,恐怕没有人不知道的吧.但是另外一个概念,可能不是很多的人会听说过,他叫空间向量,一般用e表示,高中课本中有专门讲过这个东西,有了余弦定理和向量空间,我们 ...
- 朴素贝叶斯Naïve Bayes分类算法在Hadoop上的实现
1. Naïve Bayes算法介绍 Naïve Bayes是一个简单有效的分类算法,已经得到广泛使用.本文讨论了海量数据(TB级)下Naïve Bayes算法的实现方法,并给出了Hadoop上的实现 ...
- 数据挖掘分类算法的学习总结
一.中文摘要 大数据时代的我们每时每刻都在产生海量数据,如何快速准确获取其中有价值的数据一直是亟待解决的问题.数据挖掘技术的应运而生为该问题提供了解决手段,作为数据挖掘核心内容之一的分类算法同样发挥了 ...
- 机器学习(8)朴素贝叶斯算法(20条新闻分类)
目录 一.基础理论 二.实战:20条新闻分类 1.读取数据 2.训练集划分 3.特征工程(文本特征提取) 4.朴素贝叶斯算法训练 5.模型评估 方法一:预测值与真实值比对 方法二:计算准确率 总代码 ...
- 分类算法学习(二)——贝叶斯算法的原理及简单实现
1.3.贝叶斯分类的基础--贝叶斯定理 每次提到贝叶斯定理,我心中的崇敬之情都油然而生,倒不是因为这个定理多高深,而是因为它特别有用.这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两 ...
- python分类算法的应用_Python基于sklearn库的分类算法简单应用示例
Python基于sklearn库的分类算法简单应用示例 来源:中文源码网 浏览: 次 日期:2018年9月2日 [下载文档: Python基于sklearn库的分类算法简单应用示例.tx ...
- python分类算法的应用_Python使用sklearn库实现的各种分类算法简单应用小结
本文实例讲述了Python使用sklearn库实现的各种分类算法简单应用.分享给大家供大家参考,具体如下: KNN from sklearn.neighbors import KNeighborsCl ...
- 16Python文本数据分析:新闻分类任务 (贝叶斯算法应用实例)
唐宇迪<python数据分析与机器学习实战>学习笔记 16Python文本数据分析:新闻分类任务 (贝叶斯算法应用实例) ** 一.流程分析 ** 数据如下图:content为主体内容, ...
最新文章
- Memcache 内存分配策略和性能(使用)状态检查
- AOP 中必须明白的概念-目标对象(Target Object)
- 小知识:常用开源协议详细解析
- 剑指 Offer 32 . 从上到下打印二叉树
- javascript实现窗口随着鼠标移动且移动路径重现
- 这段代码很Pythonic | 相见恨晚的 itertools 库
- 使用EF框架的增删改查和分页的公共类
- 为什么MES系统要定制化?看这三家汽车供应商的苦恼
- Java基础:查漏补缺
- Mac系统下安装Port
- Java经典基础项目——《学生教务系统》立项需求说明书
- 筛数方法相关系数_相关系数的检验方法.ppt
- Squid代理服务器
- java里直线绕z轴逆时针旋转_空间直线绕任意轴旋转后的方程
- android wear 制作时钟界面,android wear开发之绘制表盘.doc
- Linux之python版本升级
- 微信连wifi 电脑怎么连接到服务器,微信连wifi怎么用 微信连Wi-Fi开通使用教程-电脑教程...
- 【go/方法记录】数学中的组合问题
- AI:大模型领域最新算法SOTA总结、人工智能领域AI工具产品集合分门别类(文本类、图片类、编程类、办公类、视频类、音频类、多模态类)的简介、使用方法(持续更新)之详细攻略
- 蓝桥杯STEAM测试python2022一月测试题第五题
热门文章
- 基于Prometheus的ego运动规划实现
- 广告联盟中CPC CPA CPM CPS CPV分别是什么意思
- 关于“程序员996”,互联网大神发话了,能顶用吗?
- 数字万用表常用软件分享:数字万用表自动计量软件数字万用表上位机软件
- 将白色背景图片变透明
- 百度指数、淘宝指数学习笔记
- G1这么强,你确定不了解一下?
- 世界一流学科排名计算机科学,2019上海软科世界一流学科排名计算机科学与工程专业排名哥伦比亚大学排名第22...
- 定积分求导例题_高中数学导数简单题——定积分、导数、导数的几何意义等解题方法...
- 确定互异字符(编程基础)