基于AdaBoostSVM的不平衡数据训练（原理+代码，超详细）

文章目录

Boosting思想
AdaBoost
SVM
- 最大间隔
- 支持向量 & 支持向量平面
- 寻找最大间隔
AdaBoostSVM代码实现

Boosting思想

Boosting一族是可将弱学习器提升为强学习器的算法，它的思想就是每一个基分类器纠正前一个基分类器的错误，至于纠正的方式不同所以有不同的boosting算法。算法思想如下：

1.先从训练集训练出一个基学习器。
2.再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续得到较大的关注。
3.然后基于调整后的样本分布来训练下一个基学习器。
4.如此重复进行，直到基学习器数目达到指定的阈值T位置。
5.再将这T个基学习器进行加权结合得到强集成学习器。

AdaBoost

在boosting思想的基础上，adaboost思想如下：

1.初始化训练集权重，从初始训练集里训练得到一个基学习器
2.增加错分样本的权重，减少分对样本的权重
3.增加错误率小的基学习器的权重，减少错误率大的基学习器的权重
4.用调整后的(样本权重归一化)样本训练下一个基学习器
5.直到基学习器的数目达到实现指定的值
6.然后将这几个基学习器加权进行投票

数学定义如下：

经典adaboost只能解决二分类问题， y i ∈ { − 1 , 1 } y_i ∈ \{-1, 1\} yi∈{−1,1}，数据定义如下：
T = ( x 1 , y 1 ) ， ( x 2 , y 2 ) … ( x n , y n ) ， y i ∈ ( − 1 , 1 ) T = {(x_1, y_1)，(x_2, y_2) \ldots (x_n, y_n)，y_i∈(-1, 1)} T=(x1,y1)，(x2,y2)…(xn,yn)，yi∈(−1,1)
初始化训练样本权重分布
w 1 = ( w 11 , w 12 , w 13 … w 1 N ) ， w 1 i = 1 N ， i = 1 , 2 , … , N 权重初始化为 1 N [ 1 N , 1 N , 1 N , … , 1 N ] w_1 = (w_{11}, w_{12}, w_{13} \ldots w_{1N})，w_{1i} = \frac{1}{N}，i=1,2, \dots ,N \\ 权重初始化为 \frac{1}{N} \\ [\frac{1}{N}, \frac{1}{N}, \frac{1}{N}, \ldots, \frac{1}{N}] w1=(w11,w12,w13…w1N)，w1i=N1，i=1,2,…,N权重初始化为N1[N1,N1,N1,…,N1]
使用有权值分布 w m i w_{mi} wmi 的训练集学习得到基分类器 h m ( x ) h_m(x) hm(x)
计算 h m ( x ) h_m(x) hm(x) 在训练集上的错误率
e m = P ( h m ( x ) ≠ y i ) = ∑ i = 1 N w m i I ( h m ( x i ) ≠ y i ) ∑ i = 1 N w m i 因为权重会归一化，所以分母为一 e m = ∑ i = 1 N w m i I ( h m ( x i ) ≠ y i ) e_m = P(h_m(x) ≠ y_i) = \frac{\sum_{i=1}^{N} w_{mi} I(h_m(x_i) ≠ y_i)}{\sum_{i=1}^{N} w_{mi}} \\ 因为权重会归一化，所以分母为一 \\ e_m = \sum_{i=1}^{N} w_{mi} I(h_m(x_i) ≠ y_i) em=P(hm(x)=yi)=∑i=1Nwmi∑i=1NwmiI(hm(xi)=yi)因为权重会归一化，所以分母为一em=i=1∑NwmiI(hm(xi)=yi)
- h m ( x i ) ≠ y i h_m(x_i) ≠ y_i hm(xi)=yi：相等是0，不相等是1
- e m e_m em：所有错分样本的加总
- 如果错误率大于0.5，算法终止
- 正确率小于0.5，算法也终止
计算 h m ( x ) h_m(x) hm(x)的相关系数 α α α，即基分类器的重要性，错误率越小，基分类器越重要
α m = 1 2 l n 1 − e m e m α_m = \frac{1}{2} ln \frac{1 - e_m}{e_m} αm=21lnem1−em
更新训练数据的权重分布
w m + 1 = ( w m + 1 , 1 , w m + 1 , 2 , … w m + 1 , N ) w m + 1 , i = w m i Z m e x p ( − α m i h m ( x i ) ) = { w m i Z m e − α m i ， h m ( x ) = y i 减小分对样本的权重 w m i Z m e α m i ， h m ( x ) ≠ y i 增加错分样本的权重这里 Z m 是规范化因子，它使 w ( m + 1 ) 成为一个概率分布 Z m = ∑ i = 1 N w m i e x p ( − α m y i h m ( x i ) ) ，其实作为分母来讲它归一化后加总等于 1 也可以这样看：原来权重： [ 1 N , 1 N , … 1 N ] 现在权重： [ 1 N e − α ， 1 N e α ， … ] w_{m+1} = (w_{m+1}, 1, w_{m+1}, 2, \ldots w_{m+1}, N) \\ w_{m+1, i} = \frac{w_{mi}}{Z_m} exp(-α_{mi} \ h_m(x_i)) = \begin{cases} \frac{w_{mi}}{Z_m} e^{-α_{mi}}，h_m(x) = y_i \ \ 减小分对样本的权重 \\ \frac{w_{mi}}{Z_m} e^{α_{mi}}，h_m(x) ≠ y_i \ \ 增加错分样本的权重 \end{cases} \\ \\ 这里Z_m是规范化因子，它使w_{(m+1)}成为一个概率分布 \\ Z_m = \sum_{i=1}{N} w_{mi} exp(-α_m \ y_i \ h_m(x_i))，其实作为分母来讲它归一化后加总等于1 \\ 也可以这样看： \\ 原来权重：[\frac{1}{N}, \frac{1}{N}, \ldots \frac{1}{N}] \\ 现在权重：[\frac{1}{N} e^{-α}，\frac{1}{N} e^{α}，\dots] wm+1=(wm+1,1,wm+1,2,…wm+1,N)wm+1,i=Zmwmiexp(−αmi hm(xi))={Zmwmie−αmi，hm(x)=yi 减小分对样本的权重Zmwmieαmi，hm(x)=yi 增加错分样本的权重这里Zm是规范化因子，它使w(m+1)成为一个概率分布Zm=i=1∑Nwmiexp(−αm yi hm(xi))，其实作为分母来讲它归一化后加总等于1也可以这样看：原来权重：[N1,N1,…N1]现在权重：[N1e−α，N1eα，…]
构建基分类器的线性组合
- M M M个基分类器的加权表决， α α α越大，基分类器越重要
f ( x ) = ∑ m = 1 M α m h m ( x ) f(x) = \sum_{m=1}^{M} α_mh_m(x) f(x)=m=1∑Mαmhm(x)
得到最终分类器
H ( x ) = s i g n ( f ( x ) ) s i g n : 符号函数 = { s i g n ( x ) = 1 ， x > 0 s i g n ( x ) = 0 ， x = 0 s i g n ( x ) = − 1 ， x < 0 H(x) = sign(f(x)) \\ sign: 符号函数 = \begin{cases} sign(x) = 1，x>0 \\ sign(x) = 0，x=0 \\ sign(x) = -1，x<0 \end{cases} H(x)=sign(f(x))sign:符号函数=⎩⎪⎨⎪⎧sign(x)=1，x>0sign(x)=0，x=0sign(x)=−1，x<0
最小化指数损失
L ( f ( x ) , H ( x ) ) = e x p ( − f ( x ) H ( x ) ) L(f(x), H(x)) = exp(-f(x)H(x)) L(f(x),H(x))=exp(−f(x)H(x))
其中 f ( x ) f(x) f(x)是真实的分类，等于-1或者1。 H ( x ) H(x) H(x)是分类器的分类结果，等于-1或者1
优化损失函数求偏导， α α α就出来了

SVM

最大间隔

SVM是在特征空间中找间隔最大的超平面，以此来进行分类的。对于线性可分问题，我们需要求硬间隔最大即可。对于非线性可分问题，我们需要通过核函数映射到高维空间，计算软间隔最大即可。下面以线性可分为例，我们来看一下SVM的形式化表示。

如上图所示，线性可分的时候，我们有很多条线(超平面)可以把这两类区分开。我们需要找到最优的超平面，即以这个超平面划分能让我们的数据尽可能的分开。所以支持向量机就是来求这个超平面的。

尽可能分开的意思是：这两组数据离这个超平面最近的距离最大。如下图所示：

假设红线即为超平面，上方为一类、下方为一类。 d 1 d_1 d1、 d 2 d_2 d2 分别为上下两个类别到这个超平面最短的距离，我们要让这个超平面尽可能的分开两组数据，就要让这两个最小的距离加起来最大，这就是最大间隔。

支持向量 & 支持向量平面

支持向量定义为：距超平面距离最近的那些点。如上图所示到超平面距离为 d 1 d_1 d1、 d 2 d_2 d2的点。支持向量平面就是恰好过这些点的平面。二分类有两个支持向量平面，这两个平面是平行的。超平面是位于这两个平面中间的。如下图所示， a a a、 b b b 即为支持向量平面， c c c 为超平面。我们只需要使 a a a、 b b b 的间隔最大，那么超平面的分隔效果就越好。

所以我们的问题就是寻找最大的距离间隔。

寻找最大间隔

首先我们定义我们要求解的超平面，其实就是我们的线性方程：

c = w T x + b 设： w T x + b = 0 c = w^Tx + b \\ 设：\ w^Tx + b = 0 c=wTx+b设： wTx+b=0

w w w 为超平面 c c c 的法向量，即垂直于超平面的向量，它能决定超平面的方向。b就是截距，能确定超平面的位置。

为方便运算我们设支持向量平面为：

a ： w T x + b = 1 b ： w T x + b = − 1 a： \ w^Tx + b = 1 \\ b： \ w^Tx + b = -1 a： wTx+b=1b： wTx+b=−1

算最大间隔
- 假设 a a a上有一点 x 1 x_1 x1， b b b上有一点 x 2 x_2 x2，如下图所示分别做原点到 x 1 x_1 x1、 x 2 x_2 x2的向量。那么我们可以求得两向量的差： x 1 ⃗ − x 2 ⃗ \vec{x_1} - \vec{x_2} x1 −x2 。所以我们的间隔就可以表示成： ∣ ∣ x 1 ⃗ − x 2 ⃗ ∣ ∣ c o s θ ||\vec{x_1} - \vec{x_2}|| \ cosθ ∣∣x1 −x2 ∣∣ cosθ
- 我们需要求得距离 d d d 最大。
  将 x 1 带入 a ： w T x 1 + b = 1 ( 1 ) 将 x 2 带入 b ： w T x 2 + b = − 1 ( 2 ) ( 1 ) − ( 2 ) ： w T ⋅ ( x 1 ⃗ − x 2 ⃗ ) = 2 即： ∣ ∣ w ∣ ∣ ⋅ ∣ ∣ ( x 1 ⃗ − x 2 ⃗ ) ∣ ∣ ⋅ c o s θ = 2 ∣ ∣ w ∣ ∣ ⋅ d = 2 d = 2 ∣ ∣ w ∣ ∣ 将x_1带入a：\ \ w^Tx_1 + b = 1 \ \ \ (1) \\ 将x_2带入b：\ \ w^Tx_2 + b = -1 \ \ \ (2) \\ (1) - (2)：\ \ w^T \cdot (\vec{x_1} - \vec{x_2}) = 2 \\ 即：\ \ ||w|| \cdot ||(\vec{x_1} - \vec{x_2})|| \cdot cosθ = 2 \\ ||w|| \cdot d = 2 \\ d = \frac{2}{||w||} 将x1带入a： wTx1+b=1 (1)将x2带入b： wTx2+b=−1 (2)(1)−(2)： wT⋅(x1 −x2 )=2即： ∣∣w∣∣⋅∣∣(x1 −x2 )∣∣⋅cosθ=2∣∣w∣∣⋅d=2d=∣∣w∣∣2
- 所以问题就从求 d d d的最大值，转为求 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣的最小值。

+ 假设我们把超平面上方的点标记为1，下方的点标记为-1，根据两个支持向量平面 a a a、 b b b，我们可得约束条件如下：

{ w T x i + b ≥ 1 ， y i = 1 w T x i + b ≤ − 1 ， y i = − 1 即： s . t . ： y i ( w T x i + b ) ≥ 1 \begin{cases} w^T x_i + b ≥ 1，y_i = 1 \\ w^T x_i + b ≤ -1，y_i = -1 \end{cases} \\ 即：\ \ s.t.：\ \ y_i (w^T x_i + b) ≥ 1 {wTxi+b≥1，yi=1wTxi+b≤−1，yi=−1即： s.t.： yi(wTxi+b)≥1

所以我们需要再 s . t . s.t. s.t.约束下，求 m i n ∣ ∣ w ∣ ∣ min ||w|| min∣∣w∣∣，问题一。
为了方便计算我们将 m i n ∣ ∣ w ∣ ∣ min ||w|| min∣∣w∣∣，加 1 2 \frac{1}{2} 21，并把摸写为矩阵形式，因为摸也是范数就是向量根自己的内积再开方，写为 m i n 1 2 w T w min \frac{1}{2}w^Tw min21wTw。
所以这其实是一个凸优化问题，因为 m i n 1 2 w T w min \frac{1}{2}w^Tw min21wTw 可以写为 m i n 1 2 ∣ ∣ w ∣ ∣ 2 min \frac{1}{2} ||w||^2 min21∣∣w∣∣2。
在一定约束下求某个极值，满足拉格朗日乘法，所以我们先引入拉格朗日乘子 λ i ≥ 0 \lambda_i ≥ 0 λi≥0

m i n w , b m a x λ L ( w , b , λ i ) = 1 2 w T w + ∑ i = 1 n λ i ( 1 − y i ( w T x i + b ) ) \underset {w, b}{min} \ \underset {\lambda}{max} \ L(w, b, \lambda_i) = \frac{1}{2}w^Tw + \sum_{i=1}^{n} \lambda_i (1 - y_i(w^Tx_i + b)) w,bmin λmax L(w,b,λi)=21wTw+i=1∑nλi(1−yi(wTxi+b))

相当于我们把求 m i n ∣ ∣ w ∣ ∣ min ||w|| min∣∣w∣∣，将约束带进拉格朗日方程，转为无约束问题 问题二。
我们对 w w w、 b b b求偏导可得：

∂ L ∂ w = 0 w = ∑ i = 1 n λ i y i x i ∂ L ∂ b = 0 b = ∑ i = 1 n λ i y i \frac{\partial L}{\partial w} = 0 \\ w = \sum_{i=1}^{n} \lambda_i y_i x_i \\ \frac{\partial L}{\partial b} = 0 \\ b = \sum_{i=1}^{n} \lambda_i y_i ∂w∂L=0w=i=1∑nλiyixi∂b∂L=0b=i=1∑nλiyi

将 w w w、 b b b带回拉格朗日方程得：

m i n w , b m a x λ L ( w , b , λ i ) = ∑ i = 1 n λ i − 1 2 ∑ i = 1 n ∑ j = 1 n λ i λ j y i y j x i T x j \underset {w, b}{min} \ \underset {\lambda}{max} \ L(w, b, \lambda_i) = \sum_{i=1}^{n}\lambda_i - \frac{1}{2} \sum_{i=1}^{n}\sum_{j=1}^{n}\lambda_i \lambda_j y_i y_j x_i^Tx_j w,bmin λmax L(w,b,λi)=i=1∑nλi−21i=1∑nj=1∑nλiλjyiyjxiTxj

我们称这个方程为问题二的对偶问题，并且还可以证明它是强对偶的关系。
然后我们可以通过KKT、SMO(序列最小化优化)来求得我们的最优解。这里就不再过多阐述了。

SVM的通俗讲解可以看下这篇文章：https://wangguisen.blog.csdn.net/article/details/107210881?spm=1001.2014.3001.5502

AdaBoostSVM代码实现

from sklearn.svm import SVC
from sklearn.naive_bayes import BernoulliNB
from sklearn.ensemble import AdaBoostClassifierbase = SVC(kernel='rbf', class_weight='balanced', C=1.0, probability=True)
# base = BernoulliNB()model = AdaBoostClassifier(n_estimators=10, base_estimator=base)
model.fit(x_train, y_train)print(model.predict_proba(x_train))