在介绍这些概念之前,先来看一下混淆矩阵:

TP: True Positive,将正类预测类正类的样本数量(预测正确)
FN: False Negtive,将正类预测为负类的样本数量(type II error, 漏报)
FP: False Positive,将负类预测为正类的样本数量(type I error)
TN: True Negtive,将负类预测为负类的样本数量(预测正确)

  • 准确度:准确度表示分类正确的样本数所占比例

ACC=TP+TNTP+TN+FP+FNACC = \frac {TP+TN}{TP+TN+FP+FN}ACC=TP+TN+FP+FNTP+TN​

  • 精确度、精度:该概念是针对“预测结果”而言的。表示预测为正类的样本中有多少是真的正样本

P=TPTP+FPP = \frac {TP}{TP+FP}P=TP+FPTP​

  • 召回率:该概念是针对“原始样本”而言的。表示样本中的正例有多少被分类正确了

R=TPTP+FNR = \frac{TP}{TP+FN}R=TP+FNTP​

在知乎上看到一个图可以很好的理解:(点击查看原文)

  • ROC曲线
    在介绍ROC曲线之前,还需要引入其他概念:

1.敏感性Sensitivity、召回率Recall、hit rate、TPR(True Positive Rate):表示样本中正类被分类正确的比例

TPR=TPTP+FNTPR = \frac{TP}{TP+FN}TPR=TP+FNTP​
2.假阴性率FNR(False Negative Rate):

FNR=FNTP+FN=1−TPRFNR =\frac{FN}{TP+FN} =1-TPRFNR=TP+FNFN​=1−TPR
3.假阳性率FPR(False Positive Rate):

FPR=FPFP+TN=1−TNRFPR = \frac{FP}{FP+TN} = 1-TNRFPR=FP+TNFP​=1−TNR
4.特异性specificity、真阴性率TNR(True Negative Rate):表示样本中负类被分类正确的比例

TNR=TNFP+TNTNR = \frac {TN}{FP+TN}TNR=FP+TNTN​

  ROC(Receiver Operating Characteristic Curve)接受者特征曲线,是反应敏感性和特异性连续变量的综合指标。
  ROC曲线图的横坐标是FPR,表示预测为正但实际为负的样本占所有负例样本的比例,纵坐标是TPR,,表示预测正类中实际负类就越多,纵坐标为TPR,表示预测为正且实际为正的样本占所有正例样本的比例,其值越大,表示预测正类中实际正类就越多。所以理想情况下,TPR应该越接近1越好,FPR越接近0越好。

  经过上面的描述我们知道,ROC曲线的横坐标和纵坐标其实是没有相关性的,所以不能把ROC曲线当做一个函数曲线来分析,应该把ROC曲线看成无数个点,每个点都代表一个分类器,其横纵坐标表征了这个分类器的性能。为了更好的理解ROC曲线,我们先引入ROC空间,如下图所示。

其中,A,B,C,C’为四个分类器,其工作结果如下:

  明显的,C’的性能最好。而B的准确率只有0.5,几乎是随机分类。特别的,图中左上角坐标为(1,0)的点为完美分类点(perfect classification),它代表所有的分类全部正确,即归为1的点全部正确(TPR=1),归为0的点没有错误(FPR=0)。

  通过ROC空间,我们明白了一条ROC曲线其实代表了无数个分类器。那么我们为什么常常用一条ROC曲线来描述一个分类器呢?仔细观察ROC曲线,发现其都是上升的曲线(斜率大于0),且都通过点(0,0)和点(1,1)。其实,这些点代表着一个分类器在不同阈值下的分类效果,具体的,曲线从左往右可以认为是阈值从1到0的变化过程。当分类器阈值为1,代表不加以识别全部判断为False负类,此时TP=FP=0,TPR=TP/(TP+FN)=0TPR=TP/(TP+FN)=0TPR=TP/(TP+FN)=0,FPR=FR/(FP+TN)=0FPR=FR/(FP+TN)=0FPR=FR/(FP+TN)=0;当分类器阈值为0,代表不加以识别全部判断为True正类,此时FN=TN=0,TPR=TP/(TP+FN)=1TPR=TP/(TP+FN)=1TPR=TP/(TP+FN)=1,FPR=FR/(FP+TN)=1FPR=FR/(FP+TN)=1FPR=FR/(FP+TN)=1。所以,ROC曲线描述的其实是分类器性能随着分类器阈值的变化而变化的过程。对于ROC曲线,一个重要的特征是它的面积,面积为0.5为随机分类,识别能力为0,面积越接近于1识别能力越强,面积等于1为完全识别,该面积值用AUC值表示。

  下图中的实线为ROC曲线,线上的每个点表示一个阈值。
  在一个二分类模型中,假设采用逻辑回归分类器,其给出针对每个实例为正类的概率,那么通过设定一个阈值如0.6,概率大于等于0.6的为正类,小于0.6的为负类。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。

  • AUC值:表示ROC曲线下的面积,即ROC曲线与x轴、(1,0)-(1,1)围绕的面积

参考:
1.简书zhwhong:https://www.jianshu.com/p/c61ae11cc5f6
2.知乎李云浩:https://zhuanlan.zhihu.com/p/26293316
3.知乎Charles Xiao:https://www.zhihu.com/question/19645541
4.CSDN nana-li:https://blog.csdn.net/quiet_girl/article/details/70830796

准确度、精确度、召回率、ROC曲线、AUC值相关推荐

  1. 混淆矩阵 正确率 召回率 ROC曲线

    混淆矩阵: 预测结果 真实结果 +1 -1 +1 TP FN -1 FP TN TP:真阳      TN:真阴 FP:假阳      FN:假阴 正确率/精准率(precision):TP/(TP+ ...

  2. ROC曲线 AUC值

    全面了解ROC曲线 一. 初识ROC曲线 1. ROC的前世今生: ROC的全称是"受试者工作特征"(Receiver Operating Characteristic)曲线,  ...

  3. 准确率(Precision)、召回率(Recall)以及F值(F-Measure)

    在信息检索.分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总. 准确率.召回率.F1 信息检索.分类.识别.翻译等领域两个最基本指标是召回率 ...

  4. 推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

     下面简单列举几种常用的推荐系统评测指标: 1.准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量.其 ...

  5. 机器学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线

    增注:虽然当时看这篇文章的时候感觉很不错,但是还是写在前面,想要了解关于机器学习度量的几个尺度,建议大家直接看周志华老师的西瓜书的第2章:模型评估与选择,写的是真的很好!! 以下第一部分内容转载自:机 ...

  6. 机器学习深度学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线

    增注:虽然当时看这篇文章的时候感觉很不错,但是还是写在前面,想要了解关于机器学习度量的几个尺度,建议大家直接看周志华老师的西瓜书的第2章:模型评估与选择,写的是真的很好!! 以下第一部分内容转载自:机 ...

  7. 机器学习模型评价指标:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线

    转自机器学习:准确率(Precision).召回率(Recall).F值(F-Measure).ROC曲线.PR曲线 摘要: 数据挖掘.机器学习和推荐系统中的评测指标-准确率(Precision).召 ...

  8. 机器学习各种模型评价指标:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线

    周志华老师的西瓜书的第2章:模型评估与选择 摘要: 数据挖掘.机器学习和推荐系统中的评测指标-准确率(Precision).召回率(Recall).F值(F-Measure)简介. 引言: 在机器学习 ...

  9. 机器学习评估指标汇总:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线

    摘要: 数据挖掘.机器学习和推荐系统中的评测指标-准确率(Precision).召回率(Recall).F值(F-Measure)简介. 引言: 在机器学习.数据挖掘.推荐系统完成建模之后,需要对模型 ...

  10. 机器学习:PR曲线、准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线

    增注:虽然当时看这篇文章的时候感觉很不错,但是还是写在前面,想要了解关于机器学习度量的几个尺度,建议大家直接看周志华老师的西瓜书的第2章:模型评估与选择,写的是真的很好!! 以下第一部分内容转载自:机 ...

最新文章

  1. linux c 通过套接字获取本地远程地址信息 getsockname getpeername 简介
  2. 3142:[HNOI2013]数列 - BZOJ
  3. 社群分享:涨粉的35个玩法和技巧
  4. latex换页_备忘 | Latex 双栏模式下表格太长怎么办?
  5. mysql数据库参考_干货:MySQL数据库优化参考
  6. 记事本linux命令换行符,Windows 10版记事本应用终于支持Linux/Mac换行符 排版不再辣眼睛...
  7. Webpack:“WARNING in configuration The ‘mode‘ option hasnot been set, webpack will fallback .... “
  8. MySQL的DDL、DML、DCL、TCL什么意思?
  9. 在Windows Mobile上隐藏你的应用程序
  10. 产品必备技能(五):如何使用商业画布分析一款产品?附实操报告
  11. python解析visio_再见,Visio!
  12. android nfc MifareUltralight读写
  13. Horner规则求多项式
  14. 蓝桥杯--鲁卡斯队列
  15. VMWare 虚拟机, CentOS7环境下 部署Cobbler (含web)
  16. Linux 显示文件内行号显示
  17. 网狐荣耀系列之微星棋牌在运营过程中用户登录不上
  18. 句子深度假说——冯志伟
  19. 用 MQL5 向导创建您自己的 EA 交易
  20. war3 win8系统 在11对战平台 切屏后 无法切回游戏

热门文章

  1. mails plugin
  2. 回波损耗,失配损耗,VSMR,反射系数
  3. 左部导航实现图片的显示和隐藏(display:none和block的使用)
  4. oracle数据库监听配置
  5. Qt 多线程显示gif动态图
  6. 【软件开发之聊天软件】
  7. 计算机科学引发的道德问题,由我国网络伦理道德失范问题引发的思考
  8. 学系统集成项目管理工程师(中项)系列21b_整体管理(下)
  9. 在一个采用CSMA/CD协议的网络中,传输介质是一根完整的电缆,传输速率为1Gbps,电缆中的信号传播速度是200 000km/s。若最小数据帧长度减少800比特,则最远的两个站点之间的距离至少需要(
  10. TikTok视频播放量低,是被限流了吗?