模型评价指标——混淆矩阵/ROC曲线/AUC曲线

一、混淆矩阵

TP = True Postive真阳性；FP = False Positive假阳性；FN = False Negative假阴性；TN = True Negative真阴性

① 精度(precision, 或者PPV, positive predictive value) = TP / (TP + FP)

在上面的例子中，精度 = 5 / (5+4) = 0.556

② 召回(recall，敏感度，sensitivity，真阳性率，TPR，True Positive Rate) = TP / (TP + FN)

在上面的例子中，召回 = 5 / (5+2) = 0.714

③ 特异度(specificity，真阴性率，TNR，True Negative Rate) = TN / (TN + FP)

在上面的例子中，特异度 = 4 / (4+4) = 0.500

④ F1-值(F1-score) = 2*TP / (2*TP+FP+FN)

在上面的例子中，F1-值 = 2*5 / (2*5+4+2) = 0.625

二、PR曲线

PR曲线实则是以precision（精准率）和recall（召回率）这两个为变量而做出的曲线，其中recall为横坐标，precision为纵坐标。

一个阈值对应PR曲线上的一个点。通过选择合适的阈值，比如50%，对样本进行划分，概率大于50%的就认为是正例，小于50%的就是负例，从而计算相应的精准率和召回率。（选取不同的阈值，就得到很多点，连起来就是PR曲线）

如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住，则可断言后者的性能优于前者，例如上面的A和B优于学习器C。但是A和B的性能无法直接判断，我们可以根据曲线下方的面积大小来进行比较，但更常用的是平衡点或者是F1值。平衡点（BEP）是P=R时的取值，如果这个值较大，则说明学习器的性能较好。而F1 = 2 * P * R ／( P + R )，同样，F1值越大，我们可以认为该学习器的性能较好。

三、ROC曲线

在ROC曲线中，横轴是假正例率（FPR），纵轴是真正例率（TPR）。
(1)真正类率(True Postive Rate)TPR: TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例。
(2)负正类率(False Postive Rate)FPR: FP/(FP+TN)，代表分类器预测的正类中实际负实例占所有负实例的比例。
我们可以发现：TPR=Recall。
ROC曲线也需要相应的阈值才可以进行绘制，原理同上的PR曲线。

下图为ROC曲线示意图，因现实任务中通常利用有限个测试样例来绘制ROC图，因此应为无法产生光滑曲线，如右图所示。

绘图过程：

给定m个正例子，n个反例子，根据学习器预测结果进行排序，先把分类阈值设为最大，使得所有例子均预测为反例，此时TPR和FPR均为0，在（0，0）处标记一个点，再将分类阈值依次设为每个样例的预测值，即依次将每个例子划分为正例。设前一个坐标为(x,y)，若当前为真正例，对应标记点为(x,y+1/m)，若当前为假正例，则标记点为（x+1/n,y），然后依次连接各点。

四、AUC曲线

AUC (Area under Curve)：ROC曲线下的面积，介于0.1和1之间，作为数值可以直观的评价分类器的好坏，值越大越好。
AUC = 1，是完美分类器，采用这个预测模型时，存在至少一个阈值能得出完美预测。但是绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。