偏差方差分析

  • 偏差方差分析
  • 特征选择
    • 最优子集法
    • stepwise 方法
    • 皮尔逊相关系数法
    • 根据方差进行特征选择
    • 根据chi test 进行特征选择
    • 递归特征消除
    • 递归特征消除加交叉验证的方法
    • 基于L1 正则化特征选择
  • 正则化
  • PCA 降维
  • 调参

偏差方差分析







测试误差估计有两种形式:训练误差修正和交叉验证,单使用更多的是交叉验证。通过交叉验证先对模型的表现能力有个大概的了解,计算出其置信区间,然后进行特征选择等。

特征选择

当特征较多时,要从众多的特征中选出最具代表性的特征进行模型训练。

最优子集法

该方法就是给出所有可能的特征组合,一一建模,选出测试误差最小的模型的特征,作为最终的特征。最优子集法随着特征数量的增加,需要构建的模型的指数增长,是非常耗费自愿的方法。
Cn0+Cn1+Cn2+...+Cnn=2nC_{n}^0+C_{n}^{1}+C_{n}^{2}+...+C_{n}^{n} = 2^{n} Cn0​+Cn1​+Cn2​+...+Cnn​=2n

stepwise 方法

本质是贪心算法,先选出一个特征来,分别构建模型,选出测试误差最小的一个特征,然后从剩下的特征中再选出一个和前一个特征一起训练模型,从中选出测试误差最小的那个特征,然后继续从剩下的特征中选择。

皮尔逊相关系数法

根据方差进行特征选择

根据chi test 进行特征选择

递归特征消除

递归特征消除加交叉验证的方法

基于L1 正则化特征选择

正则化

正则化主要是为了防止模型过拟合,相当于加入了先验经验。常用的正则化有岭回归(L2正则化)、lasso回归(L1正则化)。L2正则化基于参数服从高斯分布的先验假设,L1正则化则基于参数服从拉普拉斯分布的先验假设。L1 正则化会是很多特征的参数0因此可以用来进行特征选择。

PCA 降维

原理很简单,机器学习认为,方差越大的特征其分辨能力越强,对预测结果越有利,那么将原特征矩阵按方差最大的方向进行重构分解,相当于在新的坐标性进行投影变换(类似于施密特正交化),从而保留对模型最有利的信息。

调参

最没意思的东西,直接使用调参工具进行调参就行了,hyperopt、skopt等工具进行调参就行。

Bias-variance trade off相关推荐

  1. 机器学习笔记:误差的来源(bias variance)

    1 bias & variance 简单的模型--bias大,variance小 复杂的模型--bias小,variance大 2 variance 3 bias 黑线--实际的曲线 蓝线-- ...

  2. Bias/variance tradeoff

    Bias/variance tradeoff 线性回归中有欠拟合与过拟合,例如下图: 则会形成欠拟合, 则会形成过拟合. 尽管五次多项式会精确的预测训练集中的样本点,但在预测训练集中没有的数据,则不能 ...

  3. 统计视角下的Bias Variance Tradeoff 和它在KNN模型中的体现

    统计视角下的Bias Variance Tradeoff 和它在KNN模型中的体现 前言 一.Bias Variance Tradeoff 1. 真实数据分布和取样的假设 2. 统计理论中的Bias和 ...

  4. DL中的Bias Variance

    Bias Variance Trade-off Prediction Error motivation bias variance comparison derivation Analysis los ...

  5. Machine Learning第六周笔记一:评估学习算法和bias/variance

    博客已经迁移到Marcovaldo's bolg (http://marcovaldong.github.io/) 入坑机器学习近一个月,学习资料主要是李航的<统计学习方法>.Peter ...

  6. A detailed derivation for the Bias Variance tradeoff Decomposition

    Introduction 在 ESL和 ISLR中,都给出了对于 bias和 variance的讨论,并给出这样的结论: Err(X)=Var(f^(X))+Bias(f^(X))2+Var(ϵ)Er ...

  7. Bias - Variance Decomposition

    偏差-方差分解定理 解释了训练的数据和调控因子lamda(惩罚项里的)的作用 因为机器学习的真实目标是期望风险最小化(Expected Generalization Loss),其可以分解为三个部分 ...

  8. Bias Variance Tradeoff

    统计学习中有一个重要概念叫做residual sum-of-squares RSS看起来是一个非常合理的统计模型优化目标.但是考虑k-NN的例子,在最近邻的情况下(k=1),RSS=0,是不是k-NN ...

  9. Machine Learning week 6 quiz: programming assignment-Regularized Linear Regression and Bias/Variance

    一.ex5.m %% Machine Learning Online Class % Exercise 5 | Regularized Linear Regression and Bias-Varia ...

  10. 偏见方差的权衡(Bias Variance Tradeoff)

    统计学习中有一个重要概念叫做residual sum-of-squares RSS看起来是一个非常合理的统计模型优化目标.但是考虑k-NN的例子,在最近邻的情况下(k=1),RSS=0,是不是

最新文章

  1. ADB 查看 crash log
  2. linux top命令查看内存及多核CPU的使用讲述 [转]
  3. xxl-job使用实例
  4. 算法练习day8——190326(队列实现栈、栈实现队列)
  5. mysql 命名 冲突_MySQL中字段名和保留字冲突的解决办法
  6. mysql8.0.12插件_MySQL8.0.12 安装及配置
  7. python创建多线程_初学者看过来:Python中多线程和多处理的指南
  8. Updating Homebrew... ...长时间卡住的问题
  9. Python提示ModuleNotFoundError: No module named ‘PIL‘,已解决
  10. Linux内核分析-week 1
  11. 我不断收到“ Uncaught SyntaxError:意外令牌o”
  12. java中switch条件_关于java:你能在Android的switch-case中使用条件语句吗?
  13. 怎么删除flash弹出的广告_电脑桌面老是弹出广告怎么办?一个无需下载软件即可屏蔽的方法...
  14. MATLAB怎么做出三叶玫瑰线,matlab复习题
  15. Java I/O 全面详解
  16. 小程序生态化,Hybrid App要崛起了?
  17. wincc vbs mysql_WinCC 如何访问数据库(VBS)
  18. 基于聚类分析和因子分析的空气质量研究
  19. win32 指令大全
  20. Android调用手机自带图库选择图片

热门文章

  1. 打桩(Stubbing), Mocking 和服务虚拟化的差异
  2. 如何设置分享到微信朋友圈时链接的图片及标题
  3. 计算机专业的技能测试,中职学校计算机专业技能测试方法存在的主要问题及其对策...
  4. 企业为什么要构建双活数据中心?F5怎么样?
  5. 20210526一日总结
  6. 请根据以下需求使用决策表设计测试用例
  7. 一本通1548【例 2】A Simple Problem with Integers
  8. 该内存不能为 read/written解决办法
  9. go包管理之vender机制
  10. 员工转正申请书_试用期员工转正申请书范文5篇