SVM算法理解以及编程练习

  • 支持向量机
  • 如何找到超平面
  • 最大间隔分类器
  • 代码练习理解
    • 代码1
    • 代码2
    • 代码3
    • 代码4

支持向量机

支持向量机就算法作为机器学习的经典算法,从被提出后快速发展,在很多场景和领域都取得了非常好的效果,同时兼有速度块、支持数据量大等特点使其在工程实践中得到广泛应用。

首先我们先来看一个3维的平面方程:Ax+By+Cz+D=0
这就是我们中学所学的,从这个方程我们可以推导出二维空间的一条直线:Ax+By+D=0

那么,依次类推,更高维的空间叫做一个超平面。
二维空间的几何表示:

SVM的目标是找到一个超平面,这个超平面能够很好的解决二分类问题,所以先找到各个分类的样本点离这个超平面最近的点,使得这个点到超平面的距离最大化,最近的点就是虚线所画的。由以上超平面公式计算得出大于1的就属于打叉分类,如果小于0的属于圆圈分类。

如何找到超平面

在超平面wx+b=0确定的情况下,|wx+b|能够表示点x到距离超平面的远近,而通过观察wx+b的符号与类标记y的符号是否一致可判断分类是否正确,所以,可以用(y(w*x+b))的正负性来判定或表示分类的正确性。于此,我们便引出了函数间隔(functional margin)的概念。定义函数间隔(用γ表示)为:

但是这个函数间隔有个问题,就是我成倍的增加w和b的值,则函数值也会跟着成倍增加,但这个超平面没有改变。所以有函数间隔还不够,需要一个几何间隔。

几何间隔
我们把w做一个约束条件,假定对于一个点 x ,令其垂直投影到超平面上的对应点为 x0 ,w 是垂直于超平面的一个向量,为样本x到超平面的距离,如下图所示:

最大间隔分类器

对一个数据点进行分类,当超平面离数据点的“间隔”越大,分类的确信度(confidence)也越大。所以,为了使得分类的确信度尽量高,需要让所选择的超平面能够最大化这个“间隔”值。这个间隔就是下图中的Gap的一半。

代码练习理解

代码1

import numpy as np
import matplotlib.pyplot as pltfrom sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVCiris = datasets.load_iris()X = iris.data
y = iris.targetX = X [y<2,:2] #只取y<2的类别,也就是0 1 并且只取前两个特征
y = y[y<2] # 只取y<2的类别# 分别画出类别0和1的点
plt.scatter(X[y==0,0],X[y==0,1],color='red')
plt.scatter(X[y==1,0],X[y==1,1],color='blue')
plt.show()# 标准化
standardScaler = StandardScaler()standardScaler.fit(X) #计算训练数据的均值和方差
X_standard = standardScaler.transform(X) #再用scaler中的均值和方差来转换X,使X标准化svc = LinearSVC(C=1e9) #线性SVM分类器
svc.fit(X_standard,y) # 训练svm

这是未经过标准化的原始数据点分布

代码2

绘制决策边界

def plot_decision_boundary(model, axis):x0, x1 = np.meshgrid(np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1,1),np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1,1))X_new = np.c_[x0.ravel(), x1.ravel()]y_predict = model.predict(X_new)zz = y_predict.reshape(x0.shape)from matplotlib.colors import ListedColormapcustom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)# 绘制决策边界
plot_decision_boundary(svc,axis=[-3,3,-3,3]) # x,y轴都在-3到3之间
# 绘制原始数据
plt.scatter(X_standard[y==0,0],X_standard[y==0,1],color='red')
plt.scatter(X_standard[y==1,0],X_standard[y==1,1],color='blue')
plt.show()


上面说了CCC是控制正则项的重要程度,这里我们再次实例化一个svc,并传入一个较小的C。

代码3

svc2 = LinearSVC(C=0.01)
svc2.fit(X_standard,y)
plot_decision_boundary(svc2,axis=[-3,3,-3,3]) # x,y轴都在-3到3之间
# 绘制原始数据
plt.scatter(X_standard[y==0,0],X_standard[y==0,1],color='red')
plt.scatter(X_standard[y==1,0],X_standard[y==1,1],color='blue')
plt.show()


可以很明显的看到和第一个决策边界的不同,在这个决策边界汇总,有一个红点是分类错误的。
C越小容错空间越大。

代码4

使用多项式特征和核函数

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasetsX, y = datasets.make_moons() #使用生成的数据
print(X.shape) # (100,2)
print(y.shape) # (100,)

生成月亮数据集

plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

X, y = datasets.make_moons(noise=0.15,random_state=777) #随机生成噪声点,random_state是随机种子,noise是方差plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()


多项式特征的SVM来对它进行分类。

from sklearn.preprocessing import PolynomialFeatures,StandardScaler
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipelinedef PolynomialSVC(degree,C=1.0):return Pipeline([("poly",PolynomialFeatures(degree=degree)),#生成多项式("std_scaler",StandardScaler()),#标准化("linearSVC",LinearSVC(C=C))#最后生成svm])
poly_svc = PolynomialSVC(degree=3)
poly_svc.fit(X,y)plot_decision_boundary(poly_svc,axis=[-1.5,2.5,-1.0,1.5])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()


我们可以看到,生成的边界不再是线性的直线了。

使用核技巧来对数据进行处理,使其维度提升,使原本线性不可分的数据,在高维空间变成线性可分的。再用线性SVM来进行处理。

from sklearn.svm import SVCdef PolynomialKernelSVC(degree,C=1.0):return Pipeline([("std_scaler",StandardScaler()),("kernelSVC",SVC(kernel="poly")) # poly代表多项式特征])poly_kernel_svc = PolynomialKernelSVC(degree=3)
poly_kernel_svc.fit(X,y)plot_decision_boundary(poly_kernel_svc,axis=[-1.5,2.5,-1.0,1.5])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()


可以看到这种方式也生成了一个非线性的边界。

这里SVC(kernel=“poly”)有个参数是kernel,就是核函数.

害!就这样吧…

SVM算法理解以及编程练习相关推荐

  1. 最容易理解的SVM算法原理

    基于最大间隔分隔数据 1.1支持向量与超平面 SVM(Support Vector Mac)又称为支持向量机,是一种二分类的模型.当然如果进行修改之后也是可以用于多类别问题的分类.支持向量机可以分为线 ...

  2. 小白学习机器学习---第六章:SVM算法原理(1)

    SVM的英文全称是Support Vector Machines,我们叫它支持向量机.支持向量机是我们用于分类的一种算法.让我们以一个小故事的形式,开启我们的SVM之旅吧. 在很久以前的情人节,一位大 ...

  3. 程序员面试、算法研究、编程艺术、红黑树、机器学习5大系列集锦

    (七月在线:https://www.julyedu.com/,面试 & 算法 & 机器学习在线课程) 作者:July--结构之法算法之道blog之博主. 时间:2010年10月-201 ...

  4. 程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结

    程序员面试.算法研究.编程艺术.红黑树.机器学习5大经典原创系列集锦与总结 (七月在线:https://www.julyedu.com/,面试 & 算法 & 机器学习在线课程) 作者: ...

  5. (转载)程序员面试、算法研究、编程艺术、红黑树、机器学习5大系列集锦

    作者:July–结构之法算法之道blog之博主. 时间:2010年10月-2018年5月,一直在不断更新中.. 出处:http://blog.csdn.net/v_JULY_v . 说明:本博客中部分 ...

  6. 神级:程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结

    https://blog.csdn.net/v_JULY_v/article/details/6543438 https://blog.csdn.net/v_JULY_v/article/detail ...

  7. 【转自JULY大佬】程序员面试、算法研究、编程艺术、红黑树、机器学习5大系列集锦

    感谢原作者分享,转载自   https://blog.csdn.net/v_JULY_v/article/details/6543438 程序员面试.算法研究.编程艺术.红黑树.机器学习5大经典原创系 ...

  8. 程序员面试、算法研究、编程艺术、红黑树、数据挖掘5大经典原创系列集锦与总结

    点击打开链接(具体详情 点击链接) 程序员面试.算法研究.编程艺术.红黑树.数据挖掘5大经典原创系列集锦与总结 (七月在线:点击打开链接,面试 & 算法 & 机器学习在线课程) 作者: ...

  9. 程序员面试、算法研究、编程艺术、红黑树、机器学习5大系列集锦(转)

    原文链接:https://blog.csdn.net/v_july_v/article/details/6543438 一.微软面试100题系列 横空出世,席卷Csdn--评微软等数据结构+算法面试1 ...

最新文章

  1. CUDA C 纹理提取Texture Fetching
  2. Nature Microbiology:微生物与海洋全球变化
  3. R语言ggplot2可视化:ggplot2可视化直方图(histogram)并在直方图的顶部外侧(top upper)或者直方图内部添加数值标签
  4. 2017年第十一届中国电子产业品牌盛会盛大开启
  5. 【网络编程】之七、select聊天室
  6. Xamarin组件包 Xamarin.ToolKit
  7. harmonyos con,鸿蒙HarmonyOS系统中的JS开发框架
  8. php 正则获取html标签,php正则取嵌套html标签
  9. Python strip()与split()方法
  10. 为何各家抢滩物联网?
  11. Mac应用程序、软件、工具仓库
  12. Python 脚本查询 ip纯真数据库
  13. V-layout 卡顿消除
  14. 智能工厂ERP解决方案
  15. php系统主题,第8章 drupal主题系统
  16. 书单丨流量成本越来越高,6本书带你实现爆发式增长!
  17. 前后端不分离,分页器组件(python-dango)
  18. sort函数的用法(C++排序库函数的调用)对数组进行排序,在c++中有库函数帮我们实现,这们就不需要我们自己来编程进行排序了。
  19. iOS 工作中遇到的问题(面试重点)
  20. FIR窗函数和IIR模拟、数字滤波器的MATLAB实现

热门文章

  1. Comparison of online algorithms for the tracking of multiple magnetic targets in a myokinetic contro
  2. 50万年薪程序员的面试题
  3. IROS2021 自动驾驶文章汇总
  4. 对话:人狠话不多 vs 中间件小姐姐
  5. RS2323 RS485
  6. django前后端跨域问题。 has been blocked by CORS policy: No ‘Access-Control-Allow-Origin‘
  7. 西交利物浦计算机分数,考多少分才能上西交利物浦大学 录取分数是多少
  8. 车联网上云最佳实践(一) 1
  9. 海思Hi3719CV100芯片怎么样?Hi3719处理器参数详细说明
  10. 如何快速有效的发散思维