chapter 2 统计学习

2.1基本概念

  1. 统计学习是关于估计 f ( ⋅ ) f(\cdot) f(⋅) 的一系列方法,其中 f ( ⋅ ) f(\cdot) f(⋅)为一个定量的响应变量 Y Y Y和 p p p个不同的预测变量 X = ( X 1 , X 2 , . . . , X p ) X=(X_1,X_2,...,X_p) X=(X1​,X2​,...,Xp​)之间的关系,一般形式如下:

    Y = f ( X ) + ϵ Y=f(X)+\epsilon Y=f(X)+ϵ

    其中, ϵ \epsilon ϵ是随机误差项(error term),与X独立,且均值为0;误差项包含了一下因素:

    • 真实的关系可能不是 f ( ⋅ ) f(\cdot) f(⋅),例如在简单线性回归估计中,实际关系可能并不是线性的;
    • 可能是其他变量导致了 Y Y Y的变化;
    • 可能存在测量误差。
  2. 估计 f ( ⋅ ) f(\cdot) f(⋅)的主要原因可分为预测(prediction)和推断(inference),其中:

    • 预测

      关注预测的结果,不关注模型的可解释性和变量之间的关系,可表示为:

      Y ^ = f ^ ( X ) \hat Y = \hat f(X) Y^=f^​(X)

      Y ^ \hat Y Y^其精确性依赖于两个量:

      • 一个是可约误差 (reducible error)时:可以通过提高f精度降低。
      • 另一个是不可约误差 (irreducible error) 。不可约误差 ϵ \epsilon ϵ是无法降低的,所以即使得到一个 f f f的精确估计,预测仍然存在误差,预测的均方误差可表示为

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hcpwNZgq-1649058786244)(chapter2%20%E7%BB%9F%2022ff9/Untitled.png)]

    • 推断

      目标不是为了预测Y,而是想明白X和Y之间的关系,可以描述为以下问题:

      • 哪些预测变量与响应变量相关?

        • 响应变量与每个预测因子之间的关系是什么?
        • Y与每个预测变量的关系是否能用一个线性方程概括,还是需要更复杂的形式?
  3. 估计 f ( ⋅ ) f(\cdot) f(⋅)的方法可分为参数方法非参数方法

    • 参数方法(选定模型,估计参数eg:最小二乘回归)

      ✅缺点:选定的模型未必与真实f一致的。

      ✅优点:可以将 f ( ⋅ ) f(\cdot) f(⋅)假设为具体的参数形式可简化估计。

      参数方法指有一定的形式或形状的模型,如假设 f ( ⋅ ) f(\cdot) f(⋅)是线性的,则具有如下形式: f ( X ) = β 0 + β 1 X 1 + β 2 X 2 + . . . + β p X p f(X)=\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_pX_p f(X)=β0​+β1​X1​+β2​X2​+...+βp​Xp​在模型选完后则需要使用训练数据去拟合训练模型,即估计参数 β 0 , β 1 , . . . , β p \beta_0,\beta_1,...,\beta_p β0​,β1​,...,βp​。

    • 非参数方法(不需对f形式事先做明确的假设)

      ✅缺点:无法将估计 f ( ⋅ ) f(\cdot) f(⋅)的问题简化成对参数的估计,需要大量的数据。

      ✅优点:是不限定函数 f ( ⋅ ) f(\cdot) f(⋅)的具体形式,可在更大的范围选择更适宜 f ( ⋅ ) f(\cdot) f(⋅)。然而有最致命的缺陷即(远远超出参数方法所需要的)。

  4. 监督学习非监督学习的区别在于前者有响应变量(标签),而后者无响应变量(标签)。

  5. 根据变量的定量(连续)和定性(离散)类型,可将任务分为回归和分类问题,前者如对GDP、PM2.5的预测,后者如对动物、生病与否的识别。

2.2模型可解释性与柔性:

2.2.1 mse与flexibility:训练与测试

当统计学习方法的光滑度增加时,观测到训练均方误差单调递减,测试均方误差U形分布。这是统计学习的一个基本的特征,无论所处理的数据集怎样特殊,也无论曾经使用怎样的统计方法。当模型的光滑度增加时,训练均方误差将降低,但测试均方误差不一定会降低。当所建的模型产生一个较小的训练均方误差 但却有一个较大的测试均方误差,就称该数据被过拟合




2.4 方差-偏差权衡:

  • 欠拟合:模型不能适配训练样本,有一个很大的偏差。
  • 过拟合:模型很好的适配训练样本,但在测试集上表现很糟,有一个很大的方差。


Mse、均方误差


偏差、方差与bagging、boosting的关系?

Bagging算法是对训练样本进行采样,产生出若干不同的子集,再从每个数据子集中训练出一个分类器,取这些分类器的平均,所以是降低模型的方差(variance)。Bagging算法和Random Forest这种并行算法都有这个效果。

Boosting则是迭代算法,每一次迭代都根据上一次迭代的预测结果对样本进行权重调整,所以随着迭代不断进行,误差会越来越小,所以模型的偏差(bias)会不断降低。

针对偏差和方差的思路

  • 偏差:

    实际上也可以称为避免欠拟合。

    1、寻找更好的特征 – 具有代表性。

    2、用更多的特征 – 增大输入向量的维度。(增加模型复杂度)

  • 方差:

    避免过拟合

    1、增大数据集合 – 使用更多的数据,减少数据扰动所造成的影响

    2、减少数据特征 – 减少数据维度,减少模型复杂度

    3、正则化方法

    4、交叉验证法

统计学习-01统计学习概念相关推荐

  1. Java多线程学习——01

    Java多线程学习--01 1.核心概念 程序:是指令和数据的有序集合,其本身没有任何运行的含义,是一个静态的概念 进程Process:是执行程序的一次执行过程,它是一个动态的概念,是系统资源分配的单 ...

  2. 【前端学习】React学习资料

    React 是一种开源的 JavaScript 库,用于构建用户界面.它由 Facebook 开发并维护,已经成为了当今最流行的前端库之一.与其他框架不同,React 主要专注于视图层(View),旨 ...

  3. 物联网课程学习目标_学习攻略|软件工程统计方法amp;amp;物联网

    软件工程统计方法 && 物联网 任课老师:余松森,葛红 课程特点及困难 本课程的主要内容涉及统计机器学习方法, 以及如何采用Python进行应用实现. 同学们在学习中主要遇到以下问题: ...

  4. 《深度学习,统计学习,数学基础》人工智能算法工程师手册:程序员写的AI书,50 章一网打尽...

    来源:专知 本文约3400字,建议阅读10+分钟. 免费开源人工智能手册,带你快速上手写代码! [ 导读 ]市面上很多人工智能相关的书籍.大部分的书,面向小白,内容深度不够:小部分教材书或者科研书,内 ...

  5. 【统计学习方法】统计学习及监督学习概论

    1.1 统计学习 1.1.1统计学习的特点 数据对统计学习很重要 学习: 如果一个系统更能够通过执行某个过程改进它的性能 1.1.2 统计学习研究对象 统计学习研究对象:数据 数据的基本假设是同类数据 ...

  6. 《深度学习,统计学习,数学基础》人工智能算法工程师手册

    [ 导读 ]市面上很多人工智能相关的书籍.大部分的书,面向小白,内容深度不够:小部分教材书或者科研书,内容艰深,又过于复杂.那么有没有,面向算法工程师(程序员)人群的,面向有一定数学基础.算法基础,能 ...

  7. 关于机器学习、符号学习、统计学习、流形学习、深度学习关系的浅见:

    机器学习是人工智能领域中最能体现智能的一个分支.符号学习.统计学习.深度学习是机器学习的不同方向.符号学习主要以离散的方法处理遇到的问题,而统计学习主要以连续的方法处理问题:深度学习依赖于神经网络等: ...

  8. [学习PCL]统计滤波(离群点剔除)

    1.原理介绍 StatisticalOutlierRemoval滤波器主要可以用来剔除离群点,或者测量误差导致的粗差点. 滤波思想为:对每一个点的邻域进行一个统计分析,计算它到所有临近点的平均距离.假 ...

  9. 《贝叶斯思维:统计建模的Python学习法》——1.8 讨论

    本节书摘来异步社区<贝叶斯思维:统计建模的Python学习法>一书中的第1章,第1.8节,作者:[美]Allen B. Downey,更多章节内容可以访问云栖社区"异步社区&qu ...

最新文章

  1. 使用NeMo快速入门NLP、实现机器翻译任务,英伟达专家实战讲解,内附代码
  2. 程序媛计划——python正则表达式
  3. Uva_105 (类并查集)
  4. leetcode 1024. 视频拼接(dp/贪心)
  5. okhttp builder_从 OkHttp 到 Retrofit 到 OkHttps
  6. linux开启IOMMU方法
  7. wps怎么写分段函数_连Excel都做不到!WPS这几项真香功能你用过吗
  8. Puppet常用配置与管理
  9. 16g电脑内存有什么好处_电脑内存容量都是16GB, 买单根16G好还是双根8G好呢?
  10. 移动CMPP2.0封装
  11. 为何使用百度输入法老是出现错别字?
  12. ectouch v1 thinkphp的搜索问题
  13. linux新建目录自动777权限,什么是777权限?Linux及Windows下如何设置文件夹的权限为777?...
  14. 【latex】Latex文献报错 Something‘s wrong--perhaps a missing \item. \end{thebibliography}
  15. 如何实现简单粗暴靠谱的直播抓娃娃方案
  16. 情绪如何从边缘系统产生
  17. frame和iframe的使用与总结
  18. 题库来源:安全生产模拟考试一点通公众号小程序 安全生产模拟考试一点通:2021年焊工(初级)考试资料为正在备考焊工(初级)操作证的学员准备的理论考试专题,每个月更新的焊工(初级)免费试题祝您顺利通过
  19. matlab画出二维可行域,matlab中如何对线性规划不等式画图,以及标出可行域?
  20. softer-nms论文学习详解(Bounding Box Regression with Uncertainty for Accurate Object Detection)

热门文章

  1. JAVA:实现ILargestRectangle最大的矩形算法(附完整源码)
  2. LinearLayout
  3. Android复制手机号码到剪切板并调起打电话功能
  4. 20191212浅析JAVA的垃圾回收机制(GC)
  5. docker学习笔记(9):nvidia-docker安装、部署与使用
  6. lg手机历史机型_LG手机兵败国内市场 它的这些经典机型你用过哪款?
  7. Activiti6.0 事件详解
  8. Android---Uri全解
  9. 【Linux】Linux编程之 mmap解析
  10. 计算机系统结构:Pipelining 基本流水线技术