整理最近学习的算法：SVM支持向量机（简单）、kappa值、ROC曲线和AUC值

整理最近学习的算法：kappa值、ROC曲线和AUC值、SVM支持向量机（简单）

1.分类精度的检验

（1）kappa系数检验一致性和分类效果

下面给出公式:

其中，p0是每一类正确分类的样本数量之和除以总样本数，也就是总体分类精度。

假设每一类的真实样本个数分别为a1,a2,…,aC，而预测出来的每一类的样本个数分别为b1,b2,…,bC
总样本个数为n，则有：

kappa计算结果为-1-1，但通常kappa是落在 0-1 间，可分为五组来表示不同级别的一致性：0.0-0.20极低的一致性(slight)、0.21-0.40一般的一致性(fair)、0.41-0.60 中等的一致性(moderate)、0.61-0.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)。

这里
p0=（1+5+9）/45=0.333
pe=[（1+4+7）×（1+2+3）+（2+5+8）×（4+5+6）+（3+6+9）×（7+8+9）] / 45^2=0.36

则有

此结果代表分类结果不太好。

（2）ROC曲线和AUC值

ROC曲线：

例如：
下面的表格代表某个二分类事件中分类的情况：

在ROC曲线中，横坐标为TPR，纵坐标为：FPR

TPR：在所有实际为阳性的样本中，被正确地判断为阳性之比率。TPR=TP/(TP+FN)
FPR：在所有实际为阴性的样本中，被错误地判断为阳性之比率。FPR=FP/(FP+TN)

ROC曲线空间如下：

上图中每一个点代表一个分类器。

我们可以通过改变分类器分类的阈值来形成一条连续的曲线，即是ROC曲线。
如上，是三条ROC曲线，在0.23处取一条直线。那么，在同样的FPR=0.23的情况下，红色分类器得到更高的TPR。也就表明，ROC越往上，分类器效果越好。

AUC值：

AUC值为ROC曲线所覆盖的区域面积，显然，AUC越大，分类器分类效果越好。

AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

（3）accuracy

精度公式比较简单，如下给出计算公式：

公式中TP、TN、P、N含义与上面的相同。

2. SVM分类器以及核函数

SVM即是Support vector machine（支持向量机）在这里可能我记录的有些粗线条，但是理解起来绝对平民，在这里你会觉得这个东西并不像想象中的那么难。

2.1线性分类器

首先，我们知道线性分类器吧，比如g(x)=wx+b就是一个简单的线性分类器。假设其中g(x)>0 的样本为正类，g(x)<0的样本为负类，则wx+b=0即是分类边界。由平面的法向量可知，w即为这个分类超平面的法向量。

知道了线性分类器，接下来还要知道空间中的一个点到超平面的距离公式（高中知识呦）。公式给出如下：

这里不方便理解的话参考一下这个公式（点到平面的距离公式）：

有了以上基础，就可以进一步往下看

2.2最大化分类间隔

在上面的二分类中我们可以有很多条分类边界，比如左图和右图。但是我们的目的是为了最大化上图中的margin，逻辑意义上讲就是把两类分的更开一点。

但是如何才能找出这个最大Margin，如何用数学表达式定义margin呢？
上图中两侧直线上的任何点到分类平面的距离为M。
所以最大间隔分类问题变成了两个公式：
（1）满足分类正确的公式
即当y=1的时候，wx+b>=1;
当y=-1的时候，wx+b<=-1;
上面两个不等式等价于下面的公式
=> y(wx+b)-1>=0
（2）最大化间隔公式

2.3 求解w、b的值

为了计算w和b的值，上面的两个公式通过拉格朗日乘子法得到如下公式：
对变量分别求导数：

把上面两公式代入Lp，得到：

这里有条件限制如下：

把L_D这个方程解出来就能得到许多α的值，并且每一个样本都有一个对应的α。大部分的α为0，不为0的α对应的样本就是支持向量。然后求得w和b，就把公式求出来了。注：这里的求解过程是个对偶问题，这里不细讲。

2.4核函数的讲解

先看下图：
对于左图线性不可分的情况，可以把自变量映射成其他变量。这里左图可以映射到右图中，只需要把x1,x2映射成x1²和x2²就可以。可以明显的看到两类样本在右图中变成线性可分了。
但是对于每一个问题不必像上图中单独设计一个映射，因为很多时候数据很复杂，凭借先验知识根本无从下手，所以便有了核函数。

核函数一般有几种固定的映射方法，比如下式：

其中向量维数为：

上式将一个m维向量映射到约等于m²/2维向量。

接下来分析两个映射后向量之间的内积

上式可以简化为下式：

根据上式可以看到，

上式中左项是在原本的m维样本空间做的运算，右项是在m²/2维空间做的运算。即低维空间的内积操作等价于高维空间做出的内积操作，运算量将大大减少。这样既能利用高维空间的数据可分性，又避免了高维空间数据计算的复杂性。

那么接下来如何计算w和b的值呢？其实在整个计算过程中，我们只要把原来公式中的x替换为Φ(x)即可。如下所示：

从公式中可以看出，我们不直接计算w，因为Φ(x)是未知的。而是计算w·Φ(x)的值。这样就可以转化为计算核函数K值，从而算出g（x）整个公式。

常用的核函数有：

好了好了，这篇文章到这里结束了，看客们喝口茶该退场了。
以上的算法都是前段时间学习的，但是最近编辑文章的时候不免又有很多不了解的地方。所以干脆自己写一遍，加深记忆免得忘记，毕竟强迫症的我真的想深入理解它们。同时也希望这篇文章能帮助你们理解SVM原理，好了，下次继续编辑机器学习的部分吧。

文章参考b站清华大学SVM视频讲解，个人觉得很清晰易懂