ET或Extra-Trees(Extremely randomized trees,极端随机树)是由PierreGeurts等人于2006年提出。
该算法与随机森林算法十分相似,都是由许多决策树构成。

极端随机森林与随机森林有两点主要的区别:

1、随机森林应用的是Bagging模型(随机抽取样本),而极端随机森林是使用所有的训练样本得到每棵决策树,也就是每棵决策树应用的是相同的全部训练样本;

2、随机森林是在一个随机子集内得到最佳分叉属性,而ET是完全随机的得到分叉值,从而实现对决策树进行分叉的。

对于第2点的不同,我们再做详细的介绍。

当特征属性是类别的形式时(使用基尼系数进行划分):

随机选择具有某些类别的样本为左分支,而把具有其他类别的样本作为右分支;

当特征属性是数值的形式时(使用均方误差进行划分):

1 随机选择一个处于该特征属性的最大值和最小值之间的任意数,
2 当样本的该特征属性值大于该值时,作为左分支,当小于该值时,作为右分支。

这样就实现了在该特征属性下把样本随机分配到两个分支上的目的。
然后计算此时的分叉值。遍历节点内的所有特征属性,按上述方法得到所有特征属性的分叉值,我们选择分叉值最大的那种形式实现对该节点的分叉。

从上面的介绍可以看出,这种方法比随机森林的随机性更强。

对于某棵决策树,由于它的最佳分叉属性是随机选择的,因此用它的预测结果往往是不准确的,但多棵决策树组合在一起,就可以达到很好的预测效果。

当ET构建好了以后,我们也可以应用全部的训练样本来得到该ET的预测误差。
这是因为尽管构建决策树和预测应用的是同一个训练样本集,但由于最佳分叉属性是随机选择的,所以我们仍然会得到完全不同的预测结果,用该预测结果就可以与样本的真实响应值比较,从而得到预测误差。

如果与随机森林相类比的话,在ET中,全部训练样本都是OOB样本,所以计算ET的预测误差,也就是计算这个OOB误差。

在这里,我们仅仅介绍了ET算法与随机森林的不同之处,ET算法的其他内容(如预测、OOB误差的计算)与随机森林是完全相同的,具体内容请看关于随机森林的介绍。

总结:
相比较随机森林来讲,极端随机森林主要的区别是:

  1. 极端随机森林使用全部样本数据
  2. 极端随机森林的最佳分叉属性是随机选择的

参考:
https://blog.csdn.net/zhaocj/article/details/51648966
https://blog.csdn.net/xbmatrix/article/details/69488867

随机森林与极端随机森林相关推荐

  1. 集成学习、Bagging算法、Bagging+Pasting、随机森林、极端随机树集成(Extra-trees)、特征重要度、包外评估

    集成学习.Bagging算法.Bagging+Pasting.随机森林.极端随机树集成(Extra-trees).特征重要度.包外评估 目录

  2. ML之回归预测:利用十类机器学习算法(线性回归、kNN、SVM、决策树、随机森林、极端随机树、SGD、提升树、LightGBM、XGBoost)对波士顿数据集回归预测(模型评估、推理并导到csv)

    ML之回归预测:利用十类机器学习算法(线性回归.kNN.SVM.决策树.随机森林.极端随机树.SGD.提升树.LightGBM.XGBoost)对波士顿数据集[13+1,506]回归预测(模型评估.推 ...

  3. 决策树与剪枝、bagging与随机森林、极端随机树、Adaboost、GBDT算法原理详解

    目录 1.决策树 1.1 ID3 1.2 C4.5 1.3 CART 1.4 预剪枝和后剪枝 2 bagging与随机森林 2.1 bagging 2.2 随机森林 3 极端随机树 4 GBDT 5 ...

  4. 为什么极度随机树比随机森林更随机?这个极度随机的特性有什么好处?在训练阶段、极度随机数比随机森林快还是慢?

    为什么极度随机树比随机森林更随机?这个极度随机的特性有什么好处?在训练阶段.极度随机数比随机森林快还是慢? ExtRa Trees是Extremely Randomized Trees的缩写,意思就是 ...

  5. 决策树(九)--极端随机森林及OpenCV源码分析

    原文: http://blog.csdn.net/zhaocj/article/details/51648966 一.原理 ET或Extra-Trees(Extremely randomized tr ...

  6. 词袋模型 matlab,【火炉炼AI】机器学习051-视觉词袋模型+极端随机森林建立图像分类器...

    [火炉炼AI]机器学习051-视觉词袋模型+极端随机森林建立图像分类器 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, m ...

  7. 随机森林(randomForest)和极限树或者叫做极端随机树(extraTree),

    随机森林:是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定.,随机森林对回归的结果在内部是取得平均 但是并不是所有的回归都是取的平均,有些是取的和,以后会发博文来解释这样 ...

  8. Python实现Stacking回归模型(随机森林回归、极端随机树回归、AdaBoost回归、GBDT回归、决策树回归)项目实战

    说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取. 1.项目背景 Stacking通常考虑的是异质弱学习器(不同的学习算法被组合在 ...

  9. 12_信息熵,信息熵公式,信息增益,决策树、常见决策树使用的算法、决策树的流程、决策树API、决策树案例、随机森林、随机森林的构建过程、随机森林API、随机森林的优缺点、随机森林案例

    1 信息熵 以下来自:https://www.zhihu.com/question/22178202/answer/161732605 1.2 信息熵的公式 先抛出信息熵公式如下: 1.2 信息熵 信 ...

最新文章

  1. VUE中使用Echarts绘制地图迁移
  2. Linux 小知识翻译 - 「架构」(arch)
  3. opencv视频处理和检测学习总结
  4. 我们从产品团队扩大中学到了什么
  5. python安装jupyterlab_【python】jupyter lab安装与配置
  6. Visual Studio Code 编辑器使用
  7. 我国初步建立法规,短期难扭转生物多样性减少趋势
  8. 监控视频异常检测数据集整理
  9. 实时数据库中的二级压缩技术
  10. day23 python学习 类 人狗大战
  11. kali linux 添加字体,在kali linux之下安装wps之后 报错字体缺失
  12. WIFI系列协议--802.11ac--增强非常高吞吐量简称VHT--1Gbit
  13. 解决win10下高分屏的字体显示模糊问题
  14. csdn人工客服体验2小时-9.26
  15. 小猿圈Java讲师分享开发9年Java进阶大全
  16. 美式期权定价利率衍生证券
  17. 如何使用VScode调试JS代码
  18. C语言 球弹跳高度的计算
  19. CF 809C about proof of previous solution
  20. 林大OJ--2031 凯撒密码

热门文章

  1. 无限机遇 无穷挑战 顺势而为 迎难而上
  2. 求关于一条直线的对称点
  3. Spark Streaming 新手指南(原始文章已经发布表在IBM Developworks)
  4. 【SVN】SVN的trunk、branches、tag的使用以及分支的概念
  5. 时势造英雄—读《浪潮之巅》有感
  6. 备份文件系统中的文件到磁带库中(四)
  7. TPAMI 2022 | 金字塔池化的骨干网络,各大任务都涨点!南开达摩院联合推出P2T
  8. 福州大学计算机网络技术实验室,实验室提升福州大学网络实践教学能力
  9. 解决在vmware中安装centos7时遇到的无法连接网络问题
  10. Uber Go 风格指南中文版