Stacking和Blending的原理和各自的优劣

网上通用的解释:
Stacking是k折交叉验证,元模型的训练数据等同于基于模型的训练数据,该方法为每个样本都生成了元特征,每生成元特征的模型不一样(k是多少,每个模型的数量就是多少);测试集生成元特征时,需要用到k(k fold不是模型)个加权平均;

Blending 与Stacking大致相同,只是Blending的主要区别在于训练集不是通过K-Fold的CV策略来获得预测值从而生成第二阶段模型的特征,而是建立一个Holdout集。简单来说,Blending直接用不相交的数据集用于不同层的训练。

使用Stacking,组合1000多个模型,有时甚至要计算几十个小时;
但它也有优点:
1.它可以帮你打败当前学术界性能最好的算法;
2.我们有可能将集成的知识迁移到到简单的分类器上;
3.自动化的大型集成策略可以通过添加正则项有效的对抗过拟合,且并不需要太多的调参和特征选择。所以从原则上讲, stacking非常适合于那些“懒人”;
4.这是目前提升机器学习效果最好的方法,或者说是最效率的方法human ensemble learning。

blending是直接准备好一部分 10%留出集只在留出集上继续预测,用不相交的数据训练不同的Base Model ,将它们的输出取(加权)平均。实现简单,但对训练数据利用少了。

Blending的优点在于:
1.比stacking简单(因为不用进行k次的交叉验证来获得stacker feature);
2.避开了一个信息泄露问题:generlizers和stacker使用了不一样的数据集;
3.在团队建模过程中,不需要给队友分享自己的随机种子;
而缺点在于:
1.使用了很少的数据(是划分hold-out作为测试集,并非cv);
2.blender可能会过拟合(其实大概率是第一点导致的);
3.stacking使用多次的CV会比较稳健。

Stacking和Blending的原理和各自的优劣相关推荐

  1. 机器学习模型的集成方法总结:Bagging, Boosting, Stacking, Voting, Blending

    机器学习是人工智能的一个分支领域,致力于构建自动学习和自适应的系统,它利用统计模型来可视化.分析和预测数据.一个通用的机器学习模型包括一个数据集(用于训练模型)和一个算法(从数据学习).但是有些模型的 ...

  2. 集成学习VotingClassifier、HistGradientBoostingClassifier、Stacking、Blending

    集成学习VotingClassifier.HistGradientBoostingClassifier.Stacking.Blending 目录 集成学习VotingClassifier.HistGr ...

  3. stacking与blending的区别

    网上通用的解释: stacking是k折交叉验证,元模型的训练数据等同于基于模型的训练数据,该方法为每个样本都生成了元特征,每生成元特征的模型不一样(k是多少,每个模型的数量就是多少):测试集生成元特 ...

  4. 【书签】stacking、blending

    读懂stacking:模型融合Stacking详解/Stacking与Blending的区别 https://blog.csdn.net/u014114990/article/details/5081 ...

  5. Ensemble Learning常见方法总结(Bagging、Boosting、Stacking、Blending)

    看到过一个问题:Random Forest.Adaboost.GBDT.XGBoost的区别是什么?这个问题基本上覆盖了关于Ensemble Learning中常见的几种方法,以及Ensemble L ...

  6. B.数据挖掘机器学习[五]---汽车交易价格预测详细版本{模型融合(Stacking、Blending、Bagging和Boosting)}

    [机器学习入门与实践]入门必看系列,含数据挖掘项目实战:数据融合.特征优化.特征降维.探索性分析等,实战带你掌握机器学习数据挖掘 专栏详细介绍:[机器学习入门与实践]合集入门必看系列,含数据挖掘项目实 ...

  7. 机器学习之模型融合(详解Stacking,Blending)

    模型融合 Ensemble Generation 常见模型融合的方法 boosting bagging Stacking blending 各种模型融合的区别 Bagging,Boosting二者之间 ...

  8. 模型融合stacking原理

    一.Stacking思想简介 1.Stacking的思想是一种有层次的融合模型,比如我们将用不同特征训练出来的三个GBDT模型进行融合时,我们会将三个GBDT作为基层模型,在其上在训练一个次学习器(通 ...

  9. 数据挖掘终篇!一文学习模型融合!从加权融合到stacking, boosting

    Datawhale 作者:田杨军 ,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习如何进行模型融合?常见的模型融合的方法有哪些?针对不同的问题类型,应该选择哪种方法呢? 模型融合:通 ...

最新文章

  1. Mac Book 问题汇集
  2. 斐波那契数拓展问题:leetcode-70 爬楼梯问题 leetcode-1137 泰波那契数问题解法
  3. SAP Data Intelligence API如何获得Access Token - no authentication means found
  4. crontab 每周五_crontab定时任务 每隔一周的周五执行
  5. 1531: [POI2005]Bank notes二进制优化(c++)
  6. 试试Navicat和Axere RP Pro吧
  7. Guice 的工作原理
  8. Python 为什么不支持 switch 语句?
  9. 数据中台建设(三):数据中台架构介绍
  10. MySQL自定义函数和存储过程
  11. 线程二—— 网图下载
  12. CH340 +Micro USB转串口 不能识别 不起振问题
  13. tabLayout当tab数目较多,一屏无法展示时,按键有时会没有反应
  14. 感受美国小学生的幸福校园生活! (转)
  15. bootstrap 上传图片插件 file-input 的简单使用
  16. 确保web地址正确解决方案
  17. supplier java8_Java8之Consumer、Supplier、Predicate和Function攻略
  18. s3c2450下AC97驱动研究
  19. 【VALSE 2019 PPT】南开计算机视觉万人计划教授-程明明-《弱监督图像语义分割》学习记录
  20. 干货丨产业互联网时代的边缘计算·思享会

热门文章

  1. 在Android原生输入法LatinIME中添加自定义按键
  2. Macbook M1 相关软件适配和配置
  3. 姿态识别(1):DeepPose : Human Pose Estimation via Deep Neural Networks
  4. winform listview 动态编辑_霓虹灯:免费动画文字字体– 36个免费动态图形元素
  5. Java字符数组与字符串的相互转换
  6. uniapp app端使用html2canvas和renderjs实现生成海报图
  7. 《异常检测——从经典算法到深度学习》9 异常检测资料汇总(持续更新抛砖引玉)
  8. Spring security 中 access 所有类型以及security 配置文件中的写法和文件头学习总结
  9. 解压.gz和.tar.gz文件
  10. 初中计算机试题打开乱码,2019年计算机一级考试:Word文件乱码修复方法大全