算法的优劣评估选择-常用方法

（1）from <有效HTM L文本信息抽取方法的研究木>

为了评估选择算法的优劣，本文采用了两个指标进行评
价，分别是阴性率(false negatives rate，FN)与假阳性率(false
positives rate，FP)。设Ⅳ代表选择的总行数，rg、m分别代表结
果中非文本行的数量与漏选的文本行数量，FN与f'P的计算用
如下公式表示：
FN=m／n．F'P=n／N
‘
其中：FP表示选择过程中选择了错误行的比例；FN表示选择
过程中漏选了正确行的比例。这两个指标经常被用来衡量选
择一类算法的优劣，是非常重要的两个指标。这两个指标与被
用来评估信息检索和TOP·K查询技术的关键指标，即查全率
(precision)和查准率(recall)效果相同，所以选择这两个指标
具有较好的说明力。图3显示了Sina与Sohu两个网站网页的
阈值在0．4一O．6下的FP与FN的效果。

从图3中可以看出两个特征：
a)不同的阈值对选择的效果存在较大的差异。例如图3
(b)中FP在阈值0．42与0．6处相差0．06；(a)中FN在阈值
O．42与0．6处相差0．03。
b)如果选择恰当的阈值，那么可以简单得到较好的FP与
FN；但是每个网站网页的特征不同，阈值需要进行调整。
利用相对固定的阈值控制行的选择，在处理风格相近的网
页有较好的效果，但存在两个问题：a)需要对不同的网页选择
不同的阈值，才可能达到较好的效果；b)虽然选择阈值可以改
善选择效果，但是某些短文本还是被过滤掉了，同样较长的版
权、注释以及与其相关链接却被选择中。
分析固定阈值实验结果，可以触发两个想法：a)可以对网
页进行阈值的自动选择和输出，从丽提高查准率和查全率Ib)
固定的阈值难以处理较长的非文本行以及短文本行，如果针对
网页的上下文进行学习，利用智能方法直观上分析可以提高查
准率和查全率。

（2）FROM 基于ＭａｐＲｅｄｕｃｅ的巧叶斯文本分类器

４．４．１实验设计
通常我们评价每个类别的分类效果时会用准确率、召回率、Ｆ１值。这种情况下，
只需Ｈ个统计值就能计算，即判断属于某类别且实际就是该类别的文本数Ａ，判断属
于某类别而实际不是该类别的文本数Ｂ，判断不属于某类别但实际是该类别的文本
数Ｃ。＂

由此可＆看出，当特征维数加大时，分类效果会有所改善。而且本文的ＣＤＭＴ
方法效果优于ＭＩ方法。当特征选擇维数达到９０００维时，分类结果趋于稳定且已经
能够得到良好分类效果。为此，使用搜狗语料库进行验证实验时，将通过ＣＤＭＴ方
法选择９０００维的规模来构建恃征词库。得到如图４．７所示的实验结果。