2.4 两类错误率、Neyman-Pearson 决策与 ROC 曲线

两类错误率

第一类错误率（假阳性率）用α\alphaα表示，指真实的阴性样本中被错误判断为阳性的比例。
第二类错误率（假阴性率）用β\betaβ表示，指真实的阳性样本中被错误判断为阴性的比例。
灵敏度表示在真正的阳性样本中有多少比例能被正确检测出来
Sn=TPTP+FN(2−32)Sn = \dfrac {TP} {TP+FN} \quad(2-32) Sn=TP+FNTP(2−32)
特异度表示在真正的阴性样本中有多少比例没有被误判
Sp=TNTN+FP(2−33)Sp = \dfrac {TN} {TN+FP} \quad(2-33) Sp=TN+FPTN(2−33)
因此：
Sn=1−β(2−34)Sp=1−α(2−35)Sn = 1 - \beta \quad(2-34) \newline Sp = 1 - \alpha \quad(2-35) Sn=1−β(2−34)Sp=1−α(2−35)

Neyman-Pearson决策

有时我们希望保证某一类错误率为一个固定的水平，在此前提下再考虑另一类错误率尽可能低。即
min⁡P1(e)s.t.P2(e)−ϵ0=0(2−36)\min P_1(e) \newline s.t. P_2(e) - \epsilon_0 = 0 \quad(2-36) minP1(e)s.t.P2(e)−ϵ0=0(2−36)
可以用拉格朗日乘子法将（2-36）中有约束的极值问题转化为无约束的极值问题
min⁡γ=P1(e)+λ(P2(e)−ϵ0)(2−37)\min \gamma = P_1(e) + \lambda(P_2(e) - \epsilon_0) \quad(2-37) minγ=P1(e)+λ(P2(e)−ϵ0)(2−37)
并且有
∫R2p(x∣ω1)dx=1−∫R1p(x∣ω1)dx(2−38)\int_{R_2} p(x|\omega_1) dx = 1 - \int_{R_1} p(x|\omega_1) dx \quad(2-38) ∫R2p(x∣ω1)dx=1−∫R1p(x∣ω1)dx(2−38)
将（2-16）和（2-38）代入（2-37）化简得
γ=∫R2p(x∣ω1)dx+λ[∫R1p(x∣ω2)dx−ϵ0]=(1−λϵ0)+∫R1[λp(x∣ω2)−p(x∣ω1)]dx(2−39)\gamma = \int_{R_2}p(x|\omega_1) dx + \lambda [\int_{R_1} p(x|\omega_2) dx - \epsilon_0] \newline =(1-\lambda \epsilon_0) + \int_{R_1}[\lambda p(x|\omega_2) - p(x|\omega_1)] dx \quad(2-39) γ=∫R2p(x∣ω1)dx+λ[∫R1p(x∣ω2)dx−ϵ0]=(1−λϵ0)+∫R1[λp(x∣ω2)−p(x∣ω1)]dx(2−39)
分别对λ\lambdaλ和决策边界ttt求导

R1R_1R1 区域为 (−∞,t)(-\infin,t)(−∞,t) ，因此对 ttt 求导就是变上限积分求导

λ=p(x∣ω1)p(x∣ω2)(2−40)\lambda = \dfrac {p(x|\omega_1)} {p(x|\omega_2)} \quad(2-40) λ=p(x∣ω2)p(x∣ω1)(2−40)
∫R1p(x∣ω2)dx=ϵ0(2−41)\int_{R_1}p(x|\omega_2)dx = \epsilon_0 \quad(2-41) ∫R1p(x∣ω2)dx=ϵ0(2−41)
在（2-39）中，要使γ\gammaγ最小，应选择R1R_1R1使积分项内全为负值，因此
λp(x∣ω2)−p(x∣ω1)<0(2−42)\lambda p(x|\omega_2) - p(x|\omega_1) < 0 \quad(2-42) λp(x∣ω2)−p(x∣ω1)<0(2−42)
所以决策规则为
若l(x)=p(x∣ω1)p(x∣ω2)≷λ，则x∈{ω1ω2(2−43)若l(x) = \dfrac {p(x|\omega_1)} {p(x|\omega_2)} \gtrless \lambda，则x \isin \begin{cases} \omega_1 \\ \omega_2 \end{cases} \quad(2-43) 若l(x)=p(x∣ω2)p(x∣ω1)≷λ，则x∈{ω1ω2(2−43)

补充：在数理统计学中，似然函数（英语：likelihood function）是一种关于统计模型中的参数的函数，表示模型参数中的似然性（英语：likelihood）。概率，用于在已知一些参数的情况下，预测接下来在观测上所得到的结果；似然性，则是用于在已知某些观测所得到的结果时，对有关事物之性质的参数进行估值。
举例：
考虑抛硬币实验，我们已知抛硬币时正面（H）朝上的概率pH=0.5p_H = 0.5pH=0.5,因此我们可以求出连续两次正面朝上的概率pHH=0.52=0.25p_{HH} = 0.5^2 = 0.25pHH=0.52=0.25。
但假设我们现在并不知道单独抛一次硬币时正面朝上的概率是多少，我们知道抛硬币得到的结果，假设我们实际抛三次硬币得到两次正面朝上，估计正面朝上的概率pH=0.5p_H = 0.5pH=0.5 与 pH=0.6p_H = 0.6pH=0.6哪个结果更有可能。用事件A来表示上面的结果，则p(A∣pH)=3pH2(1−pH)p(A|p_H) = 3 p_H^2 (1-p_H)p(A∣pH)=3pH2(1−pH)，将pH=0.5p_H = 0.5pH=0.5 与 pH=0.6p_H = 0.6pH=0.6代入上式得P(A∣pH=0.5)=0.375P(A|p_H = 0.5) = 0.375P(A∣pH=0.5)=0.375 与 P(A∣pH=0.6)=0.432P(A|p_H = 0.6) = 0.432P(A∣pH=0.6)=0.432 ，因此在这个结果下 pH=0.6p_H = 0.6pH=0.6 更有可能。
但我们单独看 0.375 与 0.432 这两个数字是没有意义的，似然性与概率不同，因为似然性的和并不等于 1 。

三次投掷中头两次正面朝上，第三次反面朝上时的似然函数

引入似然比，用似然比密度函数来确定λ\lambdaλ值。似然比为l(x)=p(x∣ω1)p(x∣ω2)l(x) = \dfrac {p(x|\omega_1)} {p(x|\omega_2)}l(x)=p(x∣ω2)p(x∣ω1)，似然比密度函数为p(l∣ω2)p(l|\omega_2)p(l∣ω2)，将（2-41）变为
P2(e)=1−∫0λp(l∣ω2)dl=ϵ0(2−44)P_2(e) = 1 - \int_0^\lambda p(l|\omega_2)dl = \epsilon_0 \quad(2-44) P2(e)=1−∫0λp(l∣ω2)dl=ϵ0(2−44)

这里的似然比建立了变量lll与变量xxx的关系，因此似然比密度函数，应该是将原本的类条件概率密度函数p(x∣ω2)p(x|\omega_2)p(x∣ω2)中的xxx通过变量代换替换成了lll，因此积分区域由(−∞,t)(-\infin,t)(−∞,t)变为了(λ,+∞)(\lambda,+\infin)(λ,+∞)

ROC曲线

以假阳性率为横坐标，以真阳性率为纵坐标

AUC(area under ROC curves)曲线下的相对面积

参考
张学工. 模式识别. 第三版. 北京：清华大学出版社，2010
张学工，汪小我. 模式识别与机器学习. 第四版. 北京：清华大学出版社，2021
部分图片来源于网络

两类错误率、Neyman-Pearson 决策与 ROC 曲线相关推荐

模式识别学习笔记——第2章—2.4 两类错误率、Neyman-Pearson决策与ROC曲线
上一节学习了决策表,这一节我们在只有两类情况的决策表中继续深入研究.假设现在我们有两类状态分别是阳性和阴性.可以绘制出如下的决策表: 截至<模式识别(第三版)>阳性阴性状态与决策的可能性关 ...
[数理知识]统计决策理论——贝叶斯决策与两类错误率
文章目录前序 1 决策理论与方法 1.1 基于先验概率的决策过程 1.2 基于贝叶斯公式的决策过程 1.3 决策错误率 2 贝叶斯决策的优化 2.1 最小错误率贝叶斯决策 2.1.1 二分类问题的决 ...
ROC 曲线/准确率、覆盖率（召回）、命中率、Specificity（负例的覆盖率）
欢迎关注博主主页,学习python视频资源 sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/introduction.ht ...
ROC曲线的概念和意义
ROC曲线受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve).得此名的原因 ...
构造matlab决策树分类器,Matlab建立逻辑回归，决策树，SVM，KNN和朴素贝叶斯模型分类绘制ROC曲线...
尽管对于较高的阈值,SVM可以产生更好的ROC值,但逻辑回归通常更擅长区分不良雷达收益与良好雷达.朴素贝叶斯的ROC曲线通常低于其他两个ROC曲线,这表明样本内性能比其他两个分类器方法差. 比较所 ...
matlab绘制贝叶斯曲线,Matlab建立SVM，KNN和朴素贝叶斯模型分类绘制ROC曲线
原文链接:http://tecdat.cn/?p=15508 绘制ROC曲线通过Logistic回归进行分类加载样本数据.load fisheriris通过使用与versicolor和virgini ...
如何画ROC曲线和FROC曲线
画ROC曲线代码具体去看https://www.jianshu.com/p/5df19746daf9.,里面的代码讲的详细例子 # coding=UTF-8 from sklearn import ...
python画roc曲线需要什么数据,Python ROC曲线绘制
一.混淆矩阵分类问题中,不管建模人员使用什么模型都难以到达100%的预测准确率,所以人们普遍使用分类错误率来衡量一个模型的优劣.但是在实际生产过程中分类问题经常存在样本不均衡问题,所以仅仅使用错误率 ...
分类模型-评估指标（2）：ROC曲线、 AUC值（ROC曲线下的面积）【只能用于二分类模型的评价】【不受类别数量不平衡的影响；不受阈值取值的影响】【AUC的计算方式：统计所有正负样本对中的正序对】
评价二值分类器的指标很多,比如precision.recall.F1 score.P-R曲线等.但这些指标或多或少只能反映模型在某一方面的性能.相比而言,ROC曲线则有很多优点,经常作为评估二值分类器 ...

两类错误率、Neyman-Pearson 决策与 ROC 曲线

2.4 两类错误率、Neyman-Pearson 决策与 ROC 曲线

两类错误率

Neyman-Pearson决策

ROC曲线

两类错误率、Neyman-Pearson 决策与 ROC 曲线相关推荐

最新文章

热门文章