1 统计学习方法概论

1.1 统计学习

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。

统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库中的数据等。

统计学习总的目的就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。

学习:如果一个系统能够通过执行某个过程改进它的性能

计算机科学由三维组成:系统、计算、信息。

1.2 监督学习

1.2.1 基本概念

在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间。

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定。

1.3 统计学习三要素

方法=模型+策略+算法

1.3.1 模型

在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。

1.3.2 策略

监督学习问题就变成了经验风险或结构风险函数的最优化问题。

1.3.3 算法

统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。

1.4 模型评估与模型选择

将学习方法对未知数据的预测能力称为泛化能力。

过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。

1.5 正则化与交叉验证

正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。

正则化符合奥卡姆剃刀原理。奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。从贝叶斯估计的角度来看,正则化对应于模型的先验概率。可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率。

1.6 泛化能力

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。

1.7 生成模型与判别模型

监督学习方法又可以分为生成方法和判别方法。

1.7.1 生成方法

生成方法由数据学习联合概率分布P(X, Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:

P(Y|X)= P(X, Y) / P(X)

模型表示了给定输入X产生输出Y的生成关系。

生成方法的特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。

1.7.2 判别方法

判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。

判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或决策函数,直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

1.8 分类问题

在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。这时,输入变量X可以是离散的,也可以是连续的。

1.9 标注问题

标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。

1.10 回归问题

回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

统计学习方法笔记1--统计学习方法概论相关推荐

  1. 李航-统计学习方法-笔记-1:概论

    写在前面 本系列笔记主要记录<统计学习方法>中7种常用的机器学习分类算法,包括感知机,KNN,朴素贝叶斯,决策树,逻辑斯谛回归与最大熵模型,SVM,boosting. 课本还涉及到3种算法 ...

  2. 统计学习方法笔记_cbr:统计学习及监督学习概论

    第一章笔记,统计学习及监督学习概论 目录 第一章笔记,统计学习及监督学习概论 1.1统计学习 1.统计学习的特点 2.统计学习的对象 3.统计学习的方法 4.统计学习的研究 1.2统计学习的分类 1. ...

  3. 统计学习笔记(1)——统计学习方法概论

    1.统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习.统计学习是数据驱动的学科.统计学习是一门概率论.统计学.信息论.计算理论.最优化理 ...

  4. 统计学习方法--笔记(1)

    学习理由:趁着研一的下半期刚开始有空闲的时候,打算开始学习朋友上学期介绍的李航<统计学习方法>,自己本身对于数学有着不一样的感情,所以,一旦跟自己专业相关的数学自己还是很感兴趣的读一读,学 ...

  5. 电信保温杯笔记——《统计学习方法(第二版)——李航》第16章 主成分分析

    电信保温杯笔记--<统计学习方法(第二版)--李航>第16章 主成分分析 介绍 总体主成分分析 基本思路 直观解释 定义 主要性质 主成分个数 规范化变量 样本主成分分析 样本主成分的定义 ...

  6. 电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析

    电信保温杯笔记--<统计学习方法(第二版)--李航>第17章 潜在语义分析 论文 介绍 单词向量空间 话题向量空间 话题向量空间 文本在话题向量空间的表示 从单词向量空间到话题向量空间的线 ...

  7. 统计学习方法笔记第二章-感知机

    统计学习方法笔记第二章-感知机 2.1 感知机模型 2.2感知机学习策略 2.2.1数据集的线性可分型 2.2.2感知机学习策略 2.3感知机学习算法 2.3.1感知机算法的原始形式 2.3.2算法的 ...

  8. 统计学习笔记—手撕“感知机”

    统计学习方法笔记(1)-感知机 引言 感知机模型 模型简述 感知机算法思想 感知机算法性质 算例实现 导入数据 使用前两类莺尾花数据 利用感知机进行线性分类 小结 参考 轻松一刻 引言 下午拜读了李航 ...

  9. 【统计学习笔记】泛化误差上界

    [统计学习笔记]泛化误差上界 1. 泛化误差 2. 泛化误差上界 1. 泛化误差 学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质.测试误差是依赖于测试数据集 ...

最新文章

  1. Error in hist.default(data) : ‘x‘ must be numeric
  2. WINCE5.0+S3C2443系统每隔几分钟会自动关闭LCD显示
  3. 【postgresql】远程连接
  4. MQ的引言|不同MQ的特点|RabbitMQ安装
  5. 优化:更优雅的异步代码?
  6. request.cookie[name]的到的过期时间是{0001-1-1 0:00:00}
  7. 51CTO访问量BUG
  8. pjsip workshop
  9. C语言编写的算数小游戏(附源码)
  10. thinkpad T480安装WIN7系统NVM固态硬盘+INTEL HD620显卡
  11. Highcharts的spline示例
  12. vulcan 编程_我如何在四天内使用Vulcan.js构建应用程序
  13. qt在表格中如何画线_在QtreeWidget中显示表格线,该如何处理
  14. 使用PLSQL Developer连接Oracle数据库详解
  15. bestcoder 百度之星 1002 列变位法解密
  16. 阿里云easy-excel的使用(springboot整合)
  17. 自考计算机应用毕业证,注意!自考考试通过≠可以拿毕业证!
  18. Can not find a java.io.InputStream with the name [downloadFile] in the invocation stack.
  19. 【附源码】计算机毕业设计SSM网上求职招聘系统
  20. python写双色球的开发语言_Python双色球完整代码

热门文章

  1. 主生产计划 操作教程 用友u8_用友财务软件不会操作?超详细操作流程及技巧,收藏...
  2. css3 火焰文字,CSS3-CSS3源码之火焰文字特效
  3. php mysql项目开源_8个国内知名的PHP开源项目
  4. 英语中不“吃醋”,所以a touch of vinegar啥意思?
  5. SEO网站站长如何写一篇高质量的软文
  6. Future API
  7. Kindle中的文件组织方式-收藏夹
  8. 机器学习实战专题(四)Naive Bayes
  9. 你的作品集够好了吗?20份精选UI设计作品集给你灵感
  10. Python Turtle 绘制勾股树