bagging原理

  与投票法不同的是,Bagging不仅仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。在上一章中我们提到,希望各个模型之间具有较大的差异性,而在实际操作中的模型却往往是同质的,因此一个简单的思路是通过不同的采样增加模型的差异性。
  Bagging的核心在于自助采样(bootstrap)这一概念,即有放回的从数据集中进行采样,也就是说,同样的一个样本可能被多次进行采样。一个自助采样的小例子是我们希望估计全国所有人口年龄的平均值,那么我们可以在全国所有人口中随机抽取不同的集合(这些集合可能存在交集),计算每个集合的平均值,然后将所有平均值的均值作为估计值。
  首先我们随机取出一个样本放入采样集合中,再把这个样本放回初始数据集,重复K次采样,最终我们可以获得一个大小为K的样本集合。同样的方法, 我们可以采样出T个含K个样本的采样集合,然后基于每个采样集合训练出一个基学习器,再将这些基学习器进行结合,这就是Bagging的基本流程。
  对回归问题的预测是通过预测取平均值来进行的。对于分类问题的预测是通过对预测取多数票预测来进行的。Bagging方法之所以有效,是因为每个模型都是在略微不同的训练数据集上拟合完成的,这又使得每个基模型之间存在略微的差异,使每个基模型拥有略微不同的训练能力。
  Bagging同样是一种降低方差的技术,因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更加明显。在实际的使用中,加入列采样的Bagging技术对高维小样本往往有神奇的效果。

bagging的偏差方差

  我们常说集成学习中的基模型是弱模型,通常来说弱模型是偏差高(在训练集上准确度低)方差小(防止过拟合能力强)的模型,但并不是所有集成学习框架中的基模型都是弱模型。Bagging 和 Stacking 中的基模型为强模型(偏差低,方差高),而Boosting 中的基模型为弱模型(偏差高,方差低)。
  Bagging对样本重采样,对每一重采样得到的子样本集训练一个模型,最后取平均。由于子样本集的相似性以及使用的是同种模型,因此各模型有近似相等的bias和variance(事实上,各模型的分布也近似相同,但不独立)。

案例分析

  Sklearn为我们提供了 BaggingRegressor 与 BaggingClassifier 两种Bagging方法的API,我们在这里通过一个完整的例子演示Bagging在分类问题上的具体应用。这里两种方法的默认基模型是树模型。
  这里的树模型一般指决策树,它是一种树形结构,树的每个非叶子节点表示对样本在一个特征上的判断,节点下方的分支代表对样本的划分。决策树的建立过程是一个对数据不断划分的过程,每次划分中,首先要选择用于划分的特征,之后要确定划分的方案(类别/阈值)。我们希望通过划分,决策树的分支节点所包含的样本“纯度”尽可能地高。节点划分过程中所用的指标主要是信息增益和GINI系数。
  信息增益衡量的是划分前后信息不确定性程度的减小。信息不确定程度一般使用信息熵来度量,其计算方式是:

  其中i表示样本的标签,p表示该类样本出现的概率。当我们对样本做出划分之后,计算样本的条件熵:

  其中x表示用于划分的特征的取值。信息增益定义为信息熵与条件熵的差值:

  信息增益IG越大,说明使用该特征划分数据所获得的信息量变化越大,子节点的样本“纯度”越高。
  同样的,我们也可以利用Gini指数来衡量数据的不纯度,计算方法如下:

  当我们对样本做出划分后,计算划分后的Gini指数:

  一般来说,我们选择使得划分后Gini指数最小的特征(注意这里是直接根据Gini指数进行判断,而并非其变化量)。下方给出了决策树的一个例子,我们要训练一个模型,根据天气、温度和风力等级来判断是否打网球。

  首先我们通过计算信息增益或Gini指数确定了首先根据天气情况对样本进行划分,之后对于每个分支,继续考虑除天气之外的其他特征,直到样本的类别被完全分开,所有特征都已使用,或达到树的最大深度为止。

数据准备

  我们创建一个含有1000个样本20维特征的随机分类数据集:

# test classification dataset
from sklearn.datasets import make_classification
# define dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=5)
# summarize the dataset
print(X.shape, y.shape)

评估模型

  我们将使用重复的分层k-fold交叉验证来评估该模型,一共重复3次,每次有10个fold。我们将评估该模型在所有重复交叉验证中性能的平均值和标准差。

# evaluate bagging algorithm for classification
from numpy import mean
from numpy import std
from sklearn.datasets import make_classification
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.ensemble import BaggingClassifier
# define dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=5)
# define the model
model = BaggingClassifier()
# evaluate the model
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
n_scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1, error_score='raise')
# report performance
print('Accuracy: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))

参考

  • 【机器学习】决策树(中)——Random Forest、Adaboost、GBDT (非常详细) - 阿泽的文章 - 知乎
  • Datawhale集成学习项目地址
  • 为什么说bagging是减少variance,而boosting是减少bias? - 过拟合的回答 - 知乎

集成学习——bagging原理及分析相关推荐

  1. 集成学习-Bagging原理与实现 西瓜书

    Bagging简介 Bagging是并行式集成学习的最著名代表,名字是由Bootstrap AGGregatING缩写而来,看到Bootstrap我们就会联想到boostrap的随机模拟法和它对应的样 ...

  2. 集成学习——BAGGING和随机森林

    集成学习--BAGGING和随机森林 集成学习--BAGGING和随机森林 1.什么是集成学习 2.怎样进行集成学习 3.Bagging方法 4.Bagging方法训练.预测过程 5.Bagging方 ...

  3. 集成学习——Bagging、Boosting、Stacking

    目录 偏差与方差 投票法 集成学习 Bagging Bootstraps Bagging Boosting 基本概念 Adaboost 前向分步算法 梯度提升树(GBDT) XGBoost Light ...

  4. 集成学习-Bagging和Boosting算法

    文章目录 集成学习 Bagging 随机森林 Bosting Adaboost GBDT XGBoost 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网 ...

  5. R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型、并评估模型在测试集和训练集上的分类效果(accuray、F1、偏差Deviance):Bagging算法与随机森林对比

    R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型.并评估模型在测试集和训练集上的分类效果(accuray.F1.偏差Deviance):Bagging算法与随机森林对比 ...

  6. 机器学习 - [集成学习]Bagging算法的编程实现

    机器学习 - [集成学习] Bagging算法的编程实现 李俊才 的 CSDN 博客:https://blog.csdn.net/qq_28550263?spm=1001.2101.3001.5343 ...

  7. 树模型系列之集成学习(Bagging、Boosting、Stacking)

    文章目录 树模型系列之集成学习(Bagging.Boosting.Stacking) bagging Boosting Stacking 偏差与方差 集成学习的偏差与方差 Bagging 的偏差与方差 ...

  8. 集成学习Bagging和Boosting算法总结

    一.集成学习综述 1.集成方法或元算法是对其他算法进行组合的一种方式,下面的博客中主要关注的是AdaBoost元算法.将不同的分类器组合起来,而这种组合结果被称为集成方法/元算法.使用集成算法时会有很 ...

  9. 机器学习--集成学习--Bagging,Boosting,Stacking

    在一些数据挖掘竞赛中,后期我们需要对多个模型进行融合以提高效果时,常常会用到Bagging,Boosting,Stacking等这几个框架算法.下面就来分别详细讲述这三个框架算法.这里我们只做原理上的 ...

最新文章

  1. c++ override final关键字
  2. Python:pmml格式文件的简介、安装、使用方法(利用python将机器学习模型转为Java常用的pmml格式文件)之详细攻略
  3. WebClient 通过get和post请求api
  4. 挺起你作为一个中国人的脊梁骨
  5. ddm模型公式_简单判断目前行情——从股利贴现模型切入
  6. OAuth 2.0 授权码请求
  7. Spring ---- ssm整合
  8. html缩放排版乱了_交作业 | 代码排版逐行显现效果
  9. HardSoft-Viewer SQL
  10. HTML的form表单标签
  11. centos7,关闭mysql。出现mysql启动不了的情况
  12. networkComms 通信框架之 消息处理器
  13. Netty权威指南(第2版)
  14. 推荐一个好组件Javascript文本比较工具
  15. win10你的设备遇到问题,需要重启的五种解决方法
  16. java时区时间ZoneOffset, ZoneId,OffsetTime,OffsetDateTime,ZonedDateTime
  17. 乘风破浪的技术大咖再次集结 | 腾讯云TVP持续航行中
  18. 红米Redmi品牌独立后首发新品 雷军:『友商就不要用性价比这个词了』
  19. 初识html5使用jsQR识别二维码
  20. 运筹学计算机求解运输,运筹学上机报告运输问题的计算机求解.doc

热门文章

  1. 非常强大的shell写的俄罗斯方块
  2. 机器翻译baseline
  3. python: del函数
  4. python常用的开发环境包括_Python 全栈:Python 四种常用开发环境总结
  5. python 画图自定义x轴刻度值
  6. python从云端服务器读数据_云服务器简单实现Python自动运维
  7. 计算机桌面文件保存位置是哪里,电脑微信接收文件存放位置在哪?怎么更改文件存放位置...
  8. 微信接收文件中断(解决方法)
  9. matlab 有一函数 _写一程序_输入自变量的值_输出函数值.,第2讲 MATLAB入门1_数学建模_ppt_大学课件预览_高等教育资讯网...
  10. 通过MediaRecorder 录制视频的时候,魅族手机录制视频后,大小显示0