bagging

采用数据随机重抽样的分类器构建方法,从训练集进行子抽样组成每个基学习器的子训练集,结合所有基学习器的预测结果进行最终的预测。如下图所示:

关于“随机采样”:
随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本放回。也就是说,之前采集到的样本在放回后有可能继续被采集到。对于我们的Bagging算法,一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同,但是样本内容不同。如果我们对有m个样本训练集做T次的随机采样,,则由于随机性,T个采样集各不相同。其中有1/e(计算很简单)的数据是从未采样到的,可以用来作为测试集。
GBDT的子采样是无放回采样,bagging是有放回采样。
为什么说bagging是减少variance,而boosting是减少bias?
链接:https://www.zhihu.com/question/26760839/answer/40337791
随机森林的改进:
首先,RF使用了CART决策树作为弱学习器,这让我们想到了梯度提升树GBDT。第二,在使用决策树的基础上,RF对决策树的建立做了改进,对于普通的决策树,我们会在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分,但是RF通过随机选择节点上的一部分样本特征,这个数字小于n,假设为nsub,然后在这些随机选择的nsub个样本特征中,选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。
随机森林的优缺点

RF的主要优点有:

1) 训练可以高度并行化,对于大数据时代的大样本训练速度有优势。这是的最主要的优点。

2) 由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的训练模型。

3) 在训练后,可以给出各个特征对于输出的重要性

4) 由于采用了随机采样,训练出的模型的方差小,泛化能力强。

5) 相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。

6) 对部分特征缺失不敏感。

RF的主要缺点有:

1)在某些噪音比较大的样本集上,RF模型容易陷入过拟合。

2) 取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果。

bagging与随机森林(python实现)相关推荐

  1. Bagging与随机森林算法原理小结

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boos ...

  2. 监督学习 | 集成学习 之Bagging、随机森林及Sklearn实现

    文章目录 集成学习 1. 投票分类器 1.1 硬投票法 1.2 软投票法 2. Bagging & Pasting 2.1 包外评估 2.2 Random Patches 和 随机子空间 3. ...

  3. R语言决策树、bagging、随机森林模型在训练集以及测试集的预测结果(accuray、F1、偏差Deviance)对比分析、计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况

    R语言决策树.bagging.随机森林模型在训练集以及测试集的预测结果(accuray.F1.偏差Deviance)对比分析.计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况 ...

  4. (转载)机器学习知识点(十七)Bagging与随机森林算法原理小结

    集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合.本文就对集成学习中Bagging ...

  5. 机器学习算法总结之Bagging与随机森林

    写在前面 集成学习(ensemble learning)是现在非常热门的机器学习方法,在各种大赛中都可以看到它的身影.它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务, ...

  6. 【机器学习-西瓜书】八、Bagging;随机森林(RF)

    8.3 Bagging 与 随机森林 关键词: Bagging : 随机森林: 8.3.1 Bagging 上上一节已经提到,集成学习首要任务就是要解决个体学习器 "好而不同",要 ...

  7. 集成学习——BAGGING和随机森林

    集成学习--BAGGING和随机森林 集成学习--BAGGING和随机森林 1.什么是集成学习 2.怎样进行集成学习 3.Bagging方法 4.Bagging方法训练.预测过程 5.Bagging方 ...

  8. 集成学习中boosting、bagging、随机森林算法的介绍

    集成学习的概念 定义:集成学习通过构建并结合多个学习器来完成学习任务. 分类:只包含同种类型的个体学习器,这样的集成是"同质"的,例如都是神经网络或者决策树:包含不同类型的个体学习 ...

  9. 《ISLR》学习笔记 —— Bagging、随机森林、Boosting

    Bagging.随机森林.Boosting 1.Bagging(装袋算法) 2.随机森林 3.Boosting 参考 1.Bagging(装袋算法) bootstrap抽样:反复地从原始数据集中有放回 ...

  10. 决策树与剪枝、bagging与随机森林、极端随机树、Adaboost、GBDT算法原理详解

    目录 1.决策树 1.1 ID3 1.2 C4.5 1.3 CART 1.4 预剪枝和后剪枝 2 bagging与随机森林 2.1 bagging 2.2 随机森林 3 极端随机树 4 GBDT 5 ...

最新文章

  1. python:未找到命令
  2. base64的c语言实现方法
  3. java 模拟登陆exe_Java简单模拟登陆和爬虫实例---博客园老牛大讲堂
  4. 两个主机mtu不相同_案例详解:MTU不一致导致主机和RAC不断重启
  5. @override报错_C++ 多态性:C++11:override 与 final(学习笔记:第8章 09)
  6. 【MySQL】mysql show操作简单示例
  7. 知识蒸馏,中文文本分类,教师模型BERT,学生模型biLSTM
  8. Linux 五种I/O模型
  9. oracle sysoper角色,Oracle sys和system用戶、sysdba 和sysoper系統權限、sysdba和dba角色的區別...
  10. 是因为Session只能让服务器在一次连续的会话中记住你,而Cookie是记住浏览器一段时间...
  11. 慢速DoS攻击工具slowhttptest(网站压力测试工具)
  12. android onenote字体,【完美解决】OneNote中英文字体不统一,微软10多年未解决的Bug!...
  13. 相机的介绍--新手入门级介绍
  14. Nginx 去除多斜杠 (//)
  15. cubieboard 资源
  16. Android电子白板
  17. 频域法分析系统详解及个人笔记
  18. bugku 啊哒 有趣的表情包
  19. linux 计算内存使用率
  20. 给教师的一百条意见读后感

热门文章

  1. 晶晨S905X4对比晶晨S905X3 晶晨S905X4和晶晨S905X3区别
  2. mysql数据库中只能插入数字,不能插入中英文
  3. 拆机 短接 触点 线刷 斐讯 N1_魅族魅蓝手机刷错系统开不了机怎么办?试试线刷!已成功救砖!...
  4. openKylin:科东软件加入openKylin,共推社区繁荣发展
  5. matmul/mm 函数用法介绍
  6. JetBrains遭美国调查!
  7. Redis 删除Key命令会导致阻塞么?
  8. 零基础搭建双端影视盒子——三、生成双端影视
  9. 《matlab》Matlab程序设计
  10. MTK平台使用代码对GPIO管脚进行设置