(1)from <有效HTM L文本信息抽取方法的研究木>

为了评估选择算法的优劣,本文采用了两个指标进行评
价,分别是阴性率(false negatives rate,FN)与假阳性率(false
positives rate,FP)。设Ⅳ代表选择的总行数,rg、m分别代表结
果中非文本行的数量与漏选的文本行数量,FN与f'P的计算用
如下公式表示:
FN=m/n.F'P=n/N

其中:FP表示选择过程中选择了错误行的比例;FN表示选择
过程中漏选了正确行的比例。这两个指标经常被用来衡量选
择一类算法的优劣,是非常重要的两个指标。这两个指标与被
用来评估信息检索和TOP·K查询技术的关键指标,即查全率
(precision)和查准率(recall)效果相同,所以选择这两个指标
具有较好的说明力。图3显示了Sina与Sohu两个网站网页的
阈值在0.4一O.6下的FP与FN的效果。

从图3中可以看出两个特征:
a)不同的阈值对选择的效果存在较大的差异。例如图3
(b)中FP在阈值0.42与0.6处相差0.06;(a)中FN在阈值
O.42与0.6处相差0.03。
b)如果选择恰当的阈值,那么可以简单得到较好的FP与
FN;但是每个网站网页的特征不同,阈值需要进行调整。
利用相对固定的阈值控制行的选择,在处理风格相近的网
页有较好的效果,但存在两个问题:a)需要对不同的网页选择
不同的阈值,才可能达到较好的效果;b)虽然选择阈值可以改
善选择效果,但是某些短文本还是被过滤掉了,同样较长的版
权、注释以及与其相关链接却被选择中。
分析固定阈值实验结果,可以触发两个想法:a)可以对网
页进行阈值的自动选择和输出,从丽提高查准率和查全率Ib)
固定的阈值难以处理较长的非文本行以及短文本行,如果针对
网页的上下文进行学习,利用智能方法直观上分析可以提高查
准率和查全率。

(2)FROM  基于MapReduce的巧叶斯文本分类器

4.4.1实验设计
通常我们评价每个类别的分类效果时会用准确率、召回率、F1值。这种情况下,
只需H个统计值就能计算,即判断属于某类别且实际就是该类别的文本数A,判断属
于某类别而实际不是该类别的文本数B,判断不属于某类别但实际是该类别的文本
数C。"

由此可&看出,当特征维数加大时,分类效果会有所改善。而且本文的CDMT
方法效果优于MI方法。当特征选擇维数达到9000维时,分类结果趋于稳定且已经
能够得到良好分类效果。为此,使用搜狗语料库进行验证实验时,将通过CDMT方
法选择9000维的规模来构建恃征词库。得到如图4.7所示的实验结果。

算法的优劣评估选择-常用方法相关推荐

  1. 冒泡排序,插入排序,选择排序三种算法的优劣

    https://www.jianshu.com/p/9f724c880124 最近听了王争老师的数据结构与算法之美,大有获益,特写此博客与大家分享. 排序算法太多了,但大体可以归结于三类,冒泡排序,插 ...

  2. 分类算法列一下有多少种?应用场景?分类算法介绍、常见分类算法优缺点、如何选择分类算法、分类算法评估

    分类算法 分类算法介绍 概念 分类算法 常见分类算法 NBS LR SVM算法 ID3算法 C4.5 算法 C5.0算法 KNN 算法 ANN 算法 选择分类算法 分类算法性能评估 分类算法介绍 概念 ...

  3. 8.3 算法流程与评估-机器学习笔记-斯坦福吴恩达教授

    算法流程与评估 算法流程 有了前面的知识,我们可以得到,采用了高斯分布的异常检测算法流程如下: 选择一些足够反映异常样本的特征 xjx_jxj​ . 对各个特征进行参数估计: μj=1m∑i=1mxj ...

  4. 牛客网算法工程师能力评估

    牛客网算法工程师能力评估 题目来源:https://www.nowcoder.com/test/200/summary 1.递归算法x(x(8))需要调用几次函数x(int n)? class pro ...

  5. 武器装备作战效能评估系统软件常用方法

    武器装备作战效能评估系统软件常用方法 武器效能评估系统是为解决武器装备效能评估问题新研发的一款软件,武器效能评估系统用于武器装备论证.研制.试验.使用等不同阶段的效能评估,武器效能评估系统为作战体系. ...

  6. 机器学习Top10算法,教你选择最合适的那一个!

    本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处 本文共3800字,建议阅读6分钟. 选什么算法?本文为你梳理TOP10机器学习算法特点. 在机器学习领域里,不存在一种万能 ...

  7. 【机器学习】机器学习Top10算法,教你选择最合适的那一个!一文读懂ML中的解析解与数值解...

    在机器学习领域里,不存在一种万能的算法可以完美解决所有问题,尤其是像预测建模的监督学习里. 比方说,神经网络不见得比决策树好,同样反过来也不成立. 最后的结果是有很多因素在起作用的,比方说数据集的大小 ...

  8. php四种基础算法:冒泡,选择,插入和快速排序法

    许多人都说 算法是程序的核心,一个程序的好于差,关键是这个程序算法的优劣.作为一个初级phper,虽然很少接触到算法方面的东西 .但是对于冒泡排序,插入排序,选择排序,快速排序四种基本算法,我想还是要 ...

  9. 机器学习算法的效果评估和优化方法

    当我们运用训练好了的模型来预测未知数据的时候发现有较大的误差,我们下一步可以做什么? 1.获得更多的训练实例--通常是有效的,但代价较大,下面的方法也可能有效,可考虑先采用下面的几种方法. 2.尝试减 ...

最新文章

  1. 谷歌15个人工智能开源免费项目!开发者:懂了
  2. 柳传志:华为采取自主研发,联想通过并购实现品牌国际化
  3. 文本占用的高度和范围
  4. OpenGL简单镶嵌
  5. zend framework1.12 没找到php.exe,请加一个zend framework的有关问题
  6. python实验三答案_20194123 实验三《Python程序设计》实验报告
  7. OpenShift 4 - 验证 Pod 内部容器 使用 CA 和 ServiceAccount Token访问API服务
  8. C++ C++11新特性--右值引用
  9. Access 97 , Access 2k , Access 03 数据库密码破解
  10. 高性能初级维修电工及技能考核实训装置
  11. java 二叉树详解 + 实现代码
  12. php nginx 伪静态规则,常见PHP程序的Nginx 伪静态规则
  13. RocketMQ实战2
  14. Linux环境准备五---VMWare打开CentOS虚拟机报错VT(长模式不兼容)等错误的解决方案
  15. 国家卫生计生委医院管理研究所简介
  16. Ubuntu 12.04系统天嵌Linux交叉编译开发工具的安装
  17. 如何从Windows 10注销其他用户
  18. python输出古诗词_python爬虫——爬取古诗词
  19. Tracert命令 路由跟踪数据包解析
  20. 手游外挂入侵(三)外挂接口服务提供

热门文章

  1. 阿里高可用、高并发不传之秘!Spring Cloud+Nginx架构核心编程笔记限时开源!
  2. 计算机硬件配件调查,计算机硬件和市场调查与配置单
  3. iMac登录后黑屏,只剩下鼠标可见
  4. 淘宝京东购物网站突然访问不了
  5. Linux文件与目录操作 ls 命令(2)
  6. 网吧无盘服务器ghost,无盘之家XP sp3 ghost G1 网吧专用加强版
  7. 解决邮箱下载下来的word打不开的问题
  8. Boost库学习笔记(二)算法模块-C++11标准
  9. 将数据从MongoDB数据库洗到MySQL数据库
  10. php 有道翻译api,PHP微信开发之有道翻译