机器学习——随机森林(Random forest)
相关文章链接:
机器学习——人工神经网络(NN)
机器学习——卷积神经网络(CNN)
机器学习——循环神经网络(RNN)
机器学习——长短期记忆(LSTM)
机器学习——决策树(decision tree)
机器学习——梯度提升决策树(GBDT)
机器学习——XGboost模型
一、集成思想
两大流派:
- Boosting一族通过将弱学习器提升为强学习器的集成方法来提高预测精度(典型算法:AdaBoost),GBDT也是Boosting的成员。
- Bagging,即通过自助采用的方法生成众多并行式的分类器,通过“少数服从多数”的原则来确定最终的结果(典型算法:随机森林)
二、随机森林定义
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森林解决了决策树泛化能力弱的缺点,随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。
随机是指随机选择样本,随机选择特征。即每一棵树是从整个训练样本集当中选取固定数量的样本集,然后选取固定数量的特征集,从而构建随机森林中的每一棵决策树。
森林是指模型中包含了很多棵决策树。
从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的Bagging思想。
随机森林
三、熵
熵越大即这个类别的不确定性更大,反之越小,当随机变量的取值为两个时,熵随概率的变化曲线如下图:
当p=0或p=1时,H(p)=0,随机变量完全没有不确定性,当p=0.5时,H(p)=1,此时随机变量的不确定性最大
四、条件熵
条件熵是用来解释信息增益而引入的概念,概率定义:随机变量X在给定条件下随机变量Y的条件熵,对定义描述为:X给定条件下Y的条件干率分布的熵对X的数学期望,在机器学习中为选定某个特征后的熵,公式如下:
p(xi)指是当xi发生时的概率
五、信息增益
信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好,在概率中定义为:待分类的集合的熵和选定某个特征的条件熵之差
六、随机森林的生成
1、预设模型的超参数。几棵树?分几层?
2、如果每个样本的特征维度为M,指定一个常数m<<M,随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的。
DATASTET [N*D] => data subset [n*d]
N,n表示样本数量 N>>n
D,d表示特征数量 D>>d
3、输入待测样本到每个树中,再将每个数的结果整合。
Regression问题求均值
Classification问题求众数
七、随机森林的优缺点
优点:
- 在当前所有算法中,具有极好的准确率;
- 能够有效地运行在大数据集上;
- 能够处理具有高维特征的输入样本,而且不需要降维;
- 能够评估各个特征在分类问题上的重要性;
- 在生成过程中,能够获取到内部生成误差的一种无偏估计;
- 对于缺省值问题也能够获得很好得结果
缺点:
1、模型往往过于General,不具备正确处理过于困难的样本的能力。
机器学习——随机森林(Random forest)相关推荐
- 机器学习 - 随机森林 Random Forest
先修知识: 决策树.可以看我之前写的文章https://blog.csdn.net/weixin_41332009/article/details/112276531 集成学习.也可以看之前写的文章h ...
- 【机器学习】随机森林 – Random forest
文章目录 一.随机森林是什么? 1. 随机森林是一种集成学习算法 2. 随机森林的基学习器是决策树 二.随机森林 – Random Forest | RF 三.构造随机森林的 4 个步骤 四.随机森林 ...
- 随机森林 – Random forest
随机森林 – Random forest 随机森林是一种由决策树构成的集成算法,他在很多情况下都能有不错的表现. 本文将介绍随机森林的基本概念.4 个构造步骤.4 种方式的对比评测.10 个优缺点和 ...
- 机器学习方法(六):随机森林Random Forest,bagging
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 前面机器学习方法(四)决策树讲了经典 ...
- 随机森林Random Forest,bagging
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 前面机器学习方法(四)决策树讲了经 ...
- 通俗解读随机森林Random Forest
通俗解读随机森林Random Forest 写在前面 1. 什么是集成学习 2. 什么是Bagging 3 随机森林 写在前面 声明:本文主要参考的是周志华老师的<机器学习>西瓜书,参杂了 ...
- 【ML】随机森林(Random Forest) 从入门到放弃再到掌握
目录 集成学习 决策树 Boosting Adaboost GBDT 梯度提升决策树是属于boosting集成学习的一种方法,通过构建多颗CART回归树,每一轮利用上一轮学习器的残差进行树的创建.该残 ...
- 随机森林(Random Forest)和梯度提升树(GBDT)有什么区别?
随机森林(Random Forest)和梯度提升树(GBDT)有什么区别? 随机森林属于 集成学习 中的 Bagging(Bootstrap AGgregation 的简称) 方法. 随机森林是由很多 ...
- 初勘数据处理之预测算法(随机森林random forest)附matlab源码
初勘数据处理之预测算法(随机森林random forest)附matlab源码 集成学习方法 集成学习方法,是整合多个分类方法的预测结果,以提高分类准确率.集成学习方法先用训练数据构建一组基分类器,再 ...
- 西瓜书+实战+吴恩达机器学习(十三)监督学习之随机森林 Random Forest
文章目录 0. 前言 1. 随机森林算法 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 Bagging:对数据集进行有放回采样,采mmm次构成一个新的数据集,基 ...
最新文章
- WeeklyBlogging_20100722
- 好久没更新日志了啊~!!今天发一个AS3的播放器
- UpdatePanel 后台注册脚本失效
- 使用Exiv2读取图像属性的详细信息
- (72)进程挂靠(attach)使用备用APC队列 SavedApcState 保存父进程 APC 队列,分析 NtReadVirtualMemory
- 阿德:工作与发财之间的秘密
- 【最短路】【spfa】小vijos P1447 Updown
- AJAX省市县三级联动的实现
- JS 中对数组按照数组中某个对象的属性值进行排序
- linux mysql5.7.18多实例_mysql5.7.13二进制包安装多实例
- iNeedle系统之国舜项目
- 处理Simulink的代数环的方法为逐个添加一阶惯性环节
- STM32 IIC协议详解
- Swift4-有妖气漫画精仿框架部分
- 如何快速调整图片亮度和对比度?
- 【JavaEE】网络基本概念与协议分层手术刀剖析
- 毕业设计-基于机器视觉的车型识别系统
- 【转】word提升图像质量
- 模电电路笔记———同向比例放大电路的使用
- 整数拆分 python_LeetCode 343. 整数拆分 | Python