bagging与随机森林(python实现)
bagging
采用数据随机重抽样的分类器构建方法,从训练集进行子抽样组成每个基学习器的子训练集,结合所有基学习器的预测结果进行最终的预测。如下图所示:
关于“随机采样”:
随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本放回。也就是说,之前采集到的样本在放回后有可能继续被采集到。对于我们的Bagging算法,一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同,但是样本内容不同。如果我们对有m个样本训练集做T次的随机采样,,则由于随机性,T个采样集各不相同。其中有1/e(计算很简单)的数据是从未采样到的,可以用来作为测试集。
GBDT的子采样是无放回采样,bagging是有放回采样。
为什么说bagging是减少variance,而boosting是减少bias?
链接:https://www.zhihu.com/question/26760839/answer/40337791
随机森林的改进:
首先,RF使用了CART决策树作为弱学习器,这让我们想到了梯度提升树GBDT。第二,在使用决策树的基础上,RF对决策树的建立做了改进,对于普通的决策树,我们会在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分,但是RF通过随机选择节点上的一部分样本特征,这个数字小于n,假设为nsub,然后在这些随机选择的nsub个样本特征中,选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。
随机森林的优缺点:
RF的主要优点有:
1) 训练可以高度并行化,对于大数据时代的大样本训练速度有优势。这是的最主要的优点。
2) 由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的训练模型。
3) 在训练后,可以给出各个特征对于输出的重要性
4) 由于采用了随机采样,训练出的模型的方差小,泛化能力强。
5) 相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。
6) 对部分特征缺失不敏感。
RF的主要缺点有:
1)在某些噪音比较大的样本集上,RF模型容易陷入过拟合。
2) 取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果。
bagging与随机森林(python实现)相关推荐
- Bagging与随机森林算法原理小结
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boos ...
- 监督学习 | 集成学习 之Bagging、随机森林及Sklearn实现
文章目录 集成学习 1. 投票分类器 1.1 硬投票法 1.2 软投票法 2. Bagging & Pasting 2.1 包外评估 2.2 Random Patches 和 随机子空间 3. ...
- R语言决策树、bagging、随机森林模型在训练集以及测试集的预测结果(accuray、F1、偏差Deviance)对比分析、计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况
R语言决策树.bagging.随机森林模型在训练集以及测试集的预测结果(accuray.F1.偏差Deviance)对比分析.计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况 ...
- (转载)机器学习知识点(十七)Bagging与随机森林算法原理小结
集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合.本文就对集成学习中Bagging ...
- 机器学习算法总结之Bagging与随机森林
写在前面 集成学习(ensemble learning)是现在非常热门的机器学习方法,在各种大赛中都可以看到它的身影.它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务, ...
- 【机器学习-西瓜书】八、Bagging;随机森林(RF)
8.3 Bagging 与 随机森林 关键词: Bagging : 随机森林: 8.3.1 Bagging 上上一节已经提到,集成学习首要任务就是要解决个体学习器 "好而不同",要 ...
- 集成学习——BAGGING和随机森林
集成学习--BAGGING和随机森林 集成学习--BAGGING和随机森林 1.什么是集成学习 2.怎样进行集成学习 3.Bagging方法 4.Bagging方法训练.预测过程 5.Bagging方 ...
- 集成学习中boosting、bagging、随机森林算法的介绍
集成学习的概念 定义:集成学习通过构建并结合多个学习器来完成学习任务. 分类:只包含同种类型的个体学习器,这样的集成是"同质"的,例如都是神经网络或者决策树:包含不同类型的个体学习 ...
- 《ISLR》学习笔记 —— Bagging、随机森林、Boosting
Bagging.随机森林.Boosting 1.Bagging(装袋算法) 2.随机森林 3.Boosting 参考 1.Bagging(装袋算法) bootstrap抽样:反复地从原始数据集中有放回 ...
- 决策树与剪枝、bagging与随机森林、极端随机树、Adaboost、GBDT算法原理详解
目录 1.决策树 1.1 ID3 1.2 C4.5 1.3 CART 1.4 预剪枝和后剪枝 2 bagging与随机森林 2.1 bagging 2.2 随机森林 3 极端随机树 4 GBDT 5 ...
最新文章
- python:未找到命令
- base64的c语言实现方法
- java 模拟登陆exe_Java简单模拟登陆和爬虫实例---博客园老牛大讲堂
- 两个主机mtu不相同_案例详解:MTU不一致导致主机和RAC不断重启
- @override报错_C++ 多态性:C++11:override 与 final(学习笔记:第8章 09)
- 【MySQL】mysql show操作简单示例
- 知识蒸馏,中文文本分类,教师模型BERT,学生模型biLSTM
- Linux 五种I/O模型
- oracle sysoper角色,Oracle sys和system用戶、sysdba 和sysoper系統權限、sysdba和dba角色的區別...
- 是因为Session只能让服务器在一次连续的会话中记住你,而Cookie是记住浏览器一段时间...
- 慢速DoS攻击工具slowhttptest(网站压力测试工具)
- android onenote字体,【完美解决】OneNote中英文字体不统一,微软10多年未解决的Bug!...
- 相机的介绍--新手入门级介绍
- Nginx 去除多斜杠 (//)
- cubieboard 资源
- Android电子白板
- 频域法分析系统详解及个人笔记
- bugku 啊哒 有趣的表情包
- linux 计算内存使用率
- 给教师的一百条意见读后感