bagging与随机森林（python实现）

bagging

采用数据随机重抽样的分类器构建方法，从训练集进行子抽样组成每个基学习器的子训练集，结合所有基学习器的预测结果进行最终的预测。如下图所示：

关于“随机采样”：
随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本，但是每采集一个样本后，都将样本放回。也就是说，之前采集到的样本在放回后有可能继续被采集到。对于我们的Bagging算法，一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同，但是样本内容不同。如果我们对有m个样本训练集做T次的随机采样，，则由于随机性，T个采样集各不相同。其中有1/e（计算很简单）的数据是从未采样到的，可以用来作为测试集。
GBDT的子采样是无放回采样，bagging是有放回采样。
为什么说bagging是减少variance，而boosting是减少bias?
链接：https://www.zhihu.com/question/26760839/answer/40337791
随机森林的改进：
首先，RF使用了CART决策树作为弱学习器，这让我们想到了梯度提升树GBDT。第二，在使用决策树的基础上，RF对决策树的建立做了改进，对于普通的决策树，我们会在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分，但是RF通过随机选择节点上的一部分样本特征，这个数字小于n，假设为nsub，然后在这些随机选择的nsub个样本特征中，选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。
随机森林的优缺点：

RF的主要优点有：

1）训练可以高度并行化，对于大数据时代的大样本训练速度有优势。这是的最主要的优点。

2）由于可以随机选择决策树节点划分特征，这样在样本特征维度很高的时候，仍然能高效的训练模型。

3）在训练后，可以给出各个特征对于输出的重要性

4）由于采用了随机采样，训练出的模型的方差小，泛化能力强。

5）相对于Boosting系列的Adaboost和GBDT， RF实现比较简单。

6）对部分特征缺失不敏感。

RF的主要缺点有：

1）在某些噪音比较大的样本集上，RF模型容易陷入过拟合。

2) 取值划分比较多的特征容易对RF的决策产生更大的影响，从而影响拟合的模型的效果。

bagging与随机森林（python实现）相关推荐

Bagging与随机森林算法原理小结
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boos ...
监督学习 | 集成学习之Bagging、随机森林及Sklearn实现
文章目录集成学习 1. 投票分类器 1.1 硬投票法 1.2 软投票法 2. Bagging & Pasting 2.1 包外评估 2.2 Random Patches 和随机子空间 3. ...
R语言决策树、bagging、随机森林模型在训练集以及测试集的预测结果（accuray、F1、偏差Deviance）对比分析、计算训练集和测试集的预测结果的差值来分析模型的过拟合（overfit）情况
R语言决策树.bagging.随机森林模型在训练集以及测试集的预测结果(accuray.F1.偏差Deviance)对比分析.计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况 ...
(转载)机器学习知识点(十七)Bagging与随机森林算法原理小结
集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合.本文就对集成学习中Bagging ...
机器学习算法总结之Bagging与随机森林
写在前面集成学习(ensemble learning)是现在非常热门的机器学习方法,在各种大赛中都可以看到它的身影.它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务, ...
【机器学习－西瓜书】八、Bagging；随机森林（RF）
8.3 Bagging 与随机森林关键词: Bagging : 随机森林: 8.3.1 Bagging 上上一节已经提到,集成学习首要任务就是要解决个体学习器 "好而不同",要 ...
集成学习——BAGGING和随机森林
集成学习--BAGGING和随机森林集成学习--BAGGING和随机森林 1.什么是集成学习 2.怎样进行集成学习 3.Bagging方法 4.Bagging方法训练.预测过程 5.Bagging方 ...
集成学习中boosting、bagging、随机森林算法的介绍
集成学习的概念定义:集成学习通过构建并结合多个学习器来完成学习任务. 分类:只包含同种类型的个体学习器,这样的集成是"同质"的,例如都是神经网络或者决策树:包含不同类型的个体学习 ...
《ISLR》学习笔记 —— Bagging、随机森林、Boosting
Bagging.随机森林.Boosting 1.Bagging(装袋算法) 2.随机森林 3.Boosting 参考 1.Bagging(装袋算法) bootstrap抽样:反复地从原始数据集中有放回 ...
决策树与剪枝、bagging与随机森林、极端随机树、Adaboost、GBDT算法原理详解
目录 1.决策树 1.1 ID3 1.2 C4.5 1.3 CART 1.4 预剪枝和后剪枝 2 bagging与随机森林 2.1 bagging 2.2 随机森林 3 极端随机树 4 GBDT 5 ...

bagging与随机森林（python实现）

bagging

bagging与随机森林（python实现）相关推荐

最新文章

热门文章