一、SVM简介

在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。

SVM的主要思想可以概括为两点:

⑴它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而 使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;

⑵它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。

SVM方法是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。

二、R语言实现简单SVM

我们采用iris数据集进行学习和测试,最后看看它的效果。

1、载入SVM算法包

library(e1071)

2、划分训练和测试集

划分训练和测试集时,采用set.seed函数设随机数种子,这能保证划分得到的训练和测试集与C5.0完全相同,方便后续测试效果的比较。

set.seed(2016)

train.indeces

iris.train

iris.test

3、建立SVM模型

采用svm函数基于训练集iris.train建立SVM模型:

model

svm函数参数:

formula:模型的方程

data:训练集

4、测试数据

采用测试数据集iris.test进行测试:

results

采用predict泛型函数进行预测:

object:svm类的模型对象

newdata:测试集

type:预测类型,type = “class”返回所属的类,type = “prob”返回概率值

5、查看预测效果

res

res

results/

setosa

versicolor

virginica

setosa

12

0

0

versicolor

0

18

2

virginica

0

0

18

可以看到SVM算法在测试集上的预测准确度为96%,仅有2个样本分类错误。

在这个数据集上,采用SVM算法效果最好,C5.0算法次之,K均值的表现相对较差。

r语言 svm 大样本_R语言数据分析实战:十大算法之SVM模型 - 数据分析相关推荐

  1. r语言 svm 大样本_r语言基于SVM模型的文本分类研究 附数据代码

    1 Perceptron 与 SVM 概念介绍 1.1 感知机 (Perceptron) 感知机( perceptron ) 1957 年由 Rosenblatt 提出,是神经网络与支持向 量机的基础 ...

  2. 数据分析必备十大思维(下)

    "在上一篇文章<数据分析必备十大思维(上)>中,我们总结了数据分析必备的前五大分析思维,今天这篇文章给大家带来后五大分析思维,和十大分析思维系列做个了断." 六.分类思 ...

  3. 大数据学习要知道的十大发展趋势,以及学习大数据的几点建议

    2016年,近40%的公司正在实施和扩展大数据技术应用,另有30%的公司计划在未来12个月内采用大数据技术,62.5%的公司现在至少有一个大数据项目投入生产,只有5.4%的公司没有大数据应用计划,或者 ...

  4. 【干货】2020年人工智能十大技术进展及2021年十大技术趋势.pdf(附下载链接)...

    大家好,我是文文(微信号:sscbg2020),今天给大家分享北京智源人工智能研究院发布的干货报告<2020年人工智能十大技术进展及2021年十大技术趋势.pdf>,人工智能赛道的伙伴们别 ...

  5. 2021年会议平板十大品牌榜中榜,十大会议平板品牌销量排行榜

    会议一体机-会议平板一体机品牌,会议平板哪个品牌好?据CNPP品牌榜中榜大数据研究与中国客观公正评测研究机构的"MAIGOO机构"排行,皓丽会议平板稳居2021年会议平板十大品牌销 ...

  6. 中国十大系统软件外包公司排名:互联网十大外包公司

    中国十大系统软件外包公司排名:互联网十大外包公司 2022中国互联网软件外包公司名单 一线 华盛恒辉.五木恒润.北京华盛恒辉.北京五木恒润.中科软. 博彦科技.浪潮.亚信科技.新致软件: 二线 华盛恒 ...

  7. r语言中mpg数据_R语言数据实战 | 统计检验

    原标题:R语言数据实战 | 统计检验 1.单个总体均值的t检验 1. 什么是检验? 检验(test)是统计学中最重要的概念之一,在科学研究和实际业务中都有着广泛的应用.用一句话来概括就是:人们希望通过 ...

  8. r语言remarkdown展示图_R语言knitr之rmarkdown

    R语言knitr之rmarkdown 数据报告是作为数据分析师必不可少的工作之一,而目前大部分数据分析师所处环境可能是excel画图制表,然后制作成word或者email的方式.对于周期性的报告,每次 ...

  9. 【业务数据分析】——十大常用数据分析方法

    目录 一.数据分析方法 二.营销管理方法论 1.SWOT分析 2.PEST分析 3.4P理论 三.常用数据分析方法论 1.公式拆解 2.对比分析 3.A/Btest 4.象限分析 5.帕累托分析 6. ...

最新文章

  1. ESB学习笔记(Spring Integration实战)
  2. 我与TCP连接不得不说的故事
  3. java逸出_Java并发编程 - 对象的共享
  4. linux急救模式_抢救Linux:我如何将组织介绍给Linux
  5. SysTick_Handler cortex-m0 LPC1114
  6. 5分绩点转4分_U19男篮世界杯 | 郭昊文空砍23分4篮板5助攻 国青72-86负菲律宾
  7. Spring MVC 基于URL的映射规则(注解版)
  8. linux下将多个文件去除文件头合并_使用 PDF Mix Tool 执行常见的 PDF 编辑任务 | Linux 中国...
  9. java高级面试题及答案
  10. 【MCMC】基于贝叶斯优化的自适应MCMC算法仿真
  11. 【自考】-计算机网络原理
  12. python画喜羊羊_PYTHON养成日记 DAY-8
  13. apache php gzip压缩输出的实现方法
  14. 氨基苯酚/多巴胺仿生修饰碳纳米管/α-氧化铝/ CNTs-Ag纳米复合材料
  15. 【工程应用五】 opencv中linemod模板匹配算法诸多疑惑和自我解读。
  16. 职场吐槽大会,原来办公软件也有如此多神技能?
  17. 手把手Selenium安装使用及实战爬取前程无忧招聘网站(一)
  18. Kong网关upstream健康检查机制
  19. linux 工作笔记软件下载,最新为知笔记linux版本下载地址电脑版-CC软件
  20. win 8 store app 国通快递查询 隐私声明

热门文章

  1. OpenCV直方图计算函数calcHist详解
  2. 机器学习的数学基础(5):最小均方误差的回归问题
  3. 数据库密码忘记了怎么办
  4. 从零开始免费搭建自己的博客(五)——Typora + PicGo + GitHub/Gitee图床
  5. QPainter绘制图片填充方式(正常大小、剪切大小、自适应大小、平铺)
  6. contos6.5卸载php7,centos安装php5、卸载php、安装php7的教程
  7. Typecho魔改版二次元风格G主题
  8. 作者:邓晖(1974-),中兴软创科技股份有限公司智慧产品部副部长。
  9. windows编程 标准控件的使用(按钮,文本框)
  10. 终于找全了!Go的三种常见的安装方式,各种系统多个版本应有尽有