随机森林算法是机器学习、计算机视觉等领域内应用较为广泛的一个算法、它不仅可以用来做分类(包括二分类和多分类),也可用来做回归预测,也可以作为一种数据降维的手段。

在随机森林中,将生成很多的决策树,并不像在决策树那样只生成唯一的树。随机森林在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,每个树都是一个独立的判断分支,互相之间彼此独立。随机森林在运算量没有显著提高的前提下提高了预测精度,并且对多元公线性不敏感,判断结果缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用。

当在基于某此属性对一个新的对象进行分类判别时,随机森林中的每一棵树都会给出自己的分类选择,并由此进行“投票”,森林整体的输出将会是票数最多的分类选项;而在回归问题中,随机森林的输出将会是所有决策树输出的平均值。相比于单个决策树算法,它的分类、预测效果更好,不容易出现过度拟合的情况。

决策树的构建及其不足

决策树的构建是一个递归的过程,理想情况下所有的记录都能被精确分类,即生成决策树叶节点都有确定的类型,但现实这种条件往往很难满足,这使得决策树的构建时可能很难停止。即使构建完成,也常常会使得最终的节点数据过多,从而导致过度拟合(overfitting),因此在实际应用中需要设定停止条件,当达到停止条件时,直接停止决策树的构建。但这仍然不能完全解决过度拟合问题,过度拟合的典型表现是决策树对训练数据错误率很低,而对测试数据其错误率却非常高。

过度拟合常见原因有:(1)训练数据中存在噪声;(2)数据不具有代表性。过度拟合的典型表现是决策树的节点过多,因此实际中常常需要对构建好的决策树进行枝叶裁剪(Pumne Tree ),但它不能解决根本问题。随机森林算法的出现能够较好地解决过度拟合问题。

随机森林

随机森林是由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点,这便是随机森林算法的基本原理。

下图给出了随机森林算法分类原理,从图中可以看到,随机森林是一个组合模型,内部仍然是基于决策树,同单一的决策树分类不同的是,随机森林通过多个决策树投票结果进行分类,算法不容易出现过度拟合问题。

随机森林属于非传统式的机器学习算法,由多颗决策树组成,每棵决策树处理的是一个训练样本子集。训练阶段,通过 决策树的节点分裂来筛选特征,层层对样本进行细分,直至每个训练样本子集分类正确,测试阶段,直接基于训练出的特征进行样本分类,所以测试速度较快(但训练速度较慢)。属于“傻瓜式”的策略(这点和 adaboost很像很像),以下部分是标准随机森林训练阶段的大致流程。

  • 1. 假如有N个样本,则有回放的随机选择N个样本(每次随机选择一个样本,然后返回继续选择)。这选择好了的N个样本用来训练一个决策树,作为决策树根节点处的样本。
  • 2.当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m<<M。然后从这m个属性中采用某种策略(如信息增益)来选择一个属性,作为该节点的分裂属性。
  • 3.决策树形成过程中,每个节点都要按照步骤2来分裂(很容易理解,如果下一次该节点选出来的那一个属性是刚刚父节点分裂时用过的属性,则该节点已经达到了叶子节点,无需继续分裂)。一直到不能再分裂为止,注意整个决策树形成过程中没有剪枝。
  • 4.按步骤1-3建立大量决策树,如此形成随机森林。

从上边的步骤可以看出,随机森林每棵树的训练样本是随机的,数中每个节点的分类属性也是随机选择的,这2个随机的选择过程,保证了随机森林不会产生过拟合现象。

随机森林之“随机‘在哪里


随机森林是一种组合方法,由许多的决策树组成,对于每一颗决策树,随机森林采用的是有放回的对N个样本分N次随机取出N个样本,即这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一颗决策树分别进行分类,最后取所有决策树中分类多的那类为最终的结果。

随机森林的另一个"随机"点是对于每一个决策树,节点是按照从样本所有属性中随机抽取一定数量的属性进行分裂的,并不是对所有属性进行考量,按照这种思路,其中不同的决策树就拥有了对样本中某些属性强有力判断的能力,相当于每一颗决策树就是一个精通某些特定领域的专家,所有这些专家组合起来形成“强分类器”对样本进行投票。

以下是Opencv实现的随机森林样本训练、测试的简单说明程序:

#include "opencv2/core/core.hpp"
#include "opencv2/highgui/highgui.hpp"
#include "opencv2/imgproc/imgproc.hpp"
#include "opencv2/ml/ml.hpp"  #include <iostream>
using namespace cv;
using namespace std;  int main( int argc, char** argv )
{     double trainingData[28][2]={{210.4, 3}, {240.0, 3}, {300.0, 4}, {153.4, 3}, {138.0, 3},  {194.0,4}, {189.0, 3}, {126.8, 3}, {132.0, 2}, {260.9, 4},  {176.7,3}, {160.4, 3}, {389.0, 3}, {145.8, 3}, {160.0, 3},  {141.6,2}, {198.5, 4}, {142.7, 3}, {149.4, 3}, {200.0, 3},  {447.8,5}, {230.0, 4}, {123.6, 3}, {303.1, 4}, {188.8, 2},  {196.2,4}, {110.0, 3}, {252.6, 3} };  CvMat trainingDataCvMat = cvMat( 28, 2, CV_32FC1, trainingData );  float responses[28] = { 399900, 369000, 539900, 314900, 212000, 239999, 329999,  259900, 299900, 499998, 252900, 242900, 573900, 464500,  329900, 232000, 299900, 198999, 242500, 347000, 699900,   449900, 199900, 599000, 255000, 259900, 249900, 469000};  CvMat responsesCvMat = cvMat( 28, 1, CV_32FC1, responses );  CvRTParams params= CvRTParams(10, 2, 0, false,16, 0, true, 0, 100, 0, CV_TERMCRIT_ITER );  CvERTrees etrees;  etrees.train(&trainingDataCvMat, CV_ROW_SAMPLE, &responsesCvMat,   NULL, NULL, NULL, NULL,params);  double sampleData[2]={201.5, 3};  Mat sampleMat(2, 1, CV_32FC1, sampleData);  float r = etrees.predict(sampleMat);  cout<<endl<<"result:  "<<r<<endl;  return 0;
}  

随机森林算法原理及OpenCV应用相关推荐

  1. Bagging与随机森林算法原理小结

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boos ...

  2. Spark 随机森林算法原理、源码分析及案例实战

    图 1. Spark 与其它大数据处理工具的活跃程度比较 回页首 环境要求 操作系统:Linux,本文采用的 Ubuntu 10.04,大家可以根据自己的喜好使用自己擅长的 Linux 发行版 Jav ...

  3. (转载)机器学习知识点(十七)Bagging与随机森林算法原理小结

    集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合.本文就对集成学习中Bagging ...

  4. 机器学习-集成之随机森林算法原理及实战

    Bagging和随机森林 前言 集成学习是目前机器学习的一大热门方向.简单来说,集成学习就是组合许多弱模型以得到一个预测结果比较好的强模型.对于常见的分类问题就是指采用多个分类器对数据集进行预测,把这 ...

  5. 随机森林算法原理小结

    随机森林算法 理解了bagging算法,随机森林(Random Forest,以下简称RF)就好理解了.它是Bagging算法的进化版,也就是说,它的思想仍然是bagging,但是进行了独有的改进.我 ...

  6. 集成学习算法之boosting、bagging和随机森林算法原理

    集成学习的定义 集成学习的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果.一般而言,通常所说的集成学习中的多个学习器都是同质的"弱学习器&qu ...

  7. 基于随机森林算法的贷款违约预测模型研究(Give me some credit)

    本文实验代码github:https://github.com/dengsiying/give-me-some-credit/tree/master 参考链接:从决策树到随机森林 http://www ...

  8. 基于随机森林算法的糖尿病数据集回归

    基于随机森林算法的糖尿病数据集回归 作者介绍 1. 随机森林算法原理 1.1决策树与Bagging 1.2 随机森林算法 2. 实验过程 2.1 糖尿病数据集 2.2 实验过程 2.3 实验结果展示 ...

  9. 基于随机森林算法的人脸数据集分类

    目录 1. 作者介绍 2. 关于理论方面的知识介绍 随机森林 3. 实验过程 3.1 数据集介绍 3.2 实验代码 3.3 运行结果 3.3 实验总结 参考 1. 作者介绍 李佳敏,女,西安工程大学电 ...

最新文章

  1. 数据研发岗位需要技能
  2. java金字塔数字代码_Java基础代码实例 :在控制台中输出金字塔,这个金字塔是由左右对称的数字组成的。 | 学步园...
  3. 深入分析Java Web技术内幕pdf
  4. python查询sql_Python处理SQL语句(提供SQL查询平台使用)
  5. cad设计院常用字体_如何把CAD图纸坐标转换成现场坐标?
  6. 容器编排技术 -- Kubernetes kubectl create namespace 命令详解
  7. Oracle下载安装教程—Oracle19c下载安装(每一步)
  8. 无盘服务器缓存,深入研究无盘服务器缓存
  9. 100 个 Python 小例子(练习题)
  10. 资本运作下的腾讯和帝国梦想
  11. 基于freeswitch1.6的IVR智能语音机器人交互逻辑lua脚本
  12. win7 android studio 升级HAXM后无法启动安卓模拟器
  13. 视频播放器(二):视频解码
  14. 清除 柯美367打印机 转印辊组件、碳粉过滤器和臭氧过滤器报警
  15. 百度网盘真实地址解析(告别下载百度网盘)--修改版
  16. 原理解析!腾讯3轮面试都问了Android事件分发,已整理成文档
  17. MC模组发布:Joy的枪械工坊
  18. 计算机基础——操作系统篇概览
  19. 标量,向量,矩阵和张量的关系
  20. 每日新闻 | Gartner分析和商业智能平台魔力象限公布,阿里云Quick BI入选

热门文章

  1. linux 查询ip没有显示IPv4
  2. python_浅谈python多线程
  3. 让人叫绝的营销方案,客户疯狂裂变并带领别的商家都能月入几万
  4. 影响直播流畅度的因素有哪些?
  5. LoRaWAN 规范 1.0(2~4章)
  6. 2013.4.8早会
  7. GET和POST测试(支持需要登录的接口调用:高级功能-填写cookie)
  8. 天生我材必有用,千金散尽还复来(React Hooks + Egg.js + Mysql古诗文全栈项目)
  9. 第八届CUIT电磁智能车比赛参赛学习总结 Part1:工字电感+LMV358型电磁杆
  10. 地域和地方的区别_中国人在长相上有没有地域特征?不同地区,有不一样的美丽与风情...