文章目录

  • 随机森林
    • 构造随机森林
      • 自主采样(bootstrap sample)
      • 特征子集随机选择
      • 随机森林中的回归问题与分类问题
    • sklearn实现、分析随机森林
    • 优点、缺点及参数

随机森林

对于决策树来说,当数据集的特征较多时,构造的决策树往往深度很大,很容易造成对训练数据的过拟合

随机森林本质上是很多决策树的集合,其中每棵树都和其它树略有不同。尽管决策树可能会出现过拟合的特点,但我们可以对这些树的结果取平均值来降低过拟合,这样既可以减少过拟合,又能保持树的预测能力

构造随机森林

构造随机森林通过调整每个树的数据集特征选择来构造均不相同的决策树

由于使用了自主采样,随机森林中构造每颗决策树的数据集都是略有不同的。由于每个结点的特征选择,每颗树的每次划分都是基于特征的不同子集。这两种方法共同保证随机森林中所有树都不相同

自主采样(bootstrap sample)

随机森林中的每颗树在构造时是彼此完全独立的, 均随机选择进行构建,确保树的唯一性

从构造一棵树开始,首先对数据进行自主采样(bootstrap sample)。即从 n 个大小的数据集中有放回地抽取一个样本,重复多次抽取 n 次,这样就会创建一个与原数据集大小相同地数据集,但有些数据可能会缺失,有些会出现重复

#假如我们要创建列表['a', 'b', 'c', 'd']的自助采样
#可能出现的采样数据集为
#['a', 'b', 'b', 'd']、
#['a', 'b', 'b', 'c']、
#['b', 'b', 'b', 'd']、
#['a', 'c', 'c', 'd']等

特征子集随机选择

在具体的算法部分,随机森林对决策树的算法稍作修改

在每个结点处,算法随机选择 特征的一个子集 ,并对其中的一个特征寻找最佳测试,而不是向决策树那样对所有特征都寻找最佳测试

其中选择特征个数由 max_features 指定,每个结点中特征子集的选择是相互独立的,这样树的每个结点可以使用特征的不同子集来做出决策

其中该参数 max_features 较为重要:

  • 若 max_features = n_features(即最大特征数即为总特征数), 则每次划分均要考虑数据集的所有特征,等于未添加特征选择的随机性;
  • 若 max_features 较大,那么随机森林中的树将会十分相似,利用最独特的特征可以轻松拟合数据;
  • 若 max_features 较小,那么随机森林中的树差异将会很大,为了很好地拟合数据,每颗树的深度都要很大

随机森林中的回归问题与分类问题

对于回归问题,我们可以对这些结果取平均值作为最终预测。

对于分类问题,则采用了"软投票"(soft voting)策略。即每个算法做出"软"预测,给出每个可能的输出标签的概率。对所有树的预测概率取平均值,然后将概率最大的类别作为预测结果。

sklearn实现、分析随机森林

from sklearn.ensemble import RandomForestClassifier      #引入随机森林分类器
from sklearn.datasets import make_moons         #引入sklearn中的数据集
from sklearn.model_selection import train_test_split     #引入拆分数据集方法X, y = make_moons(n_samples=100, noise=0.25, random_state=3)       #随机生成100个数据点#拆分数据集为训练集与测试集, "stratify"的意思为分层
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)#"estimators"的意思估计量、估计函数
forest = RandomForestClassifier(n_estimators=5, random_state=2)
forest.fit(X_train, y_train)print(forest.estimators_)     #森林的树均被保存在forest.estimators_中
[DecisionTreeClassifier(max_features='auto', random_state=1872583848),
DecisionTreeClassifier(max_features='auto', random_state=794921487),
DecisionTreeClassifier(max_features='auto', random_state=111352301),
DecisionTreeClassifier(max_features='auto', random_state=1853453896),
DecisionTreeClassifier(max_features='auto', random_state=213298710)]

由上可见,共存在5棵决策树,符合情理。

我们将每颗树学到的决策边界可视化,也将它们的总预测(即整个森林的预测)可视化

import matplotlib.pyplot as plt  #导入绘图包
import mglearn           #导入mglearn包#生成 2 行 3 列的6个子图,子图的大小为20*10
fig, axes = plt.subplots(2, 3, figsize=(20, 10))#zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。
#如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为列表。
#参数 axes.ravel()表示 6 个画布, forest.estimators_表示 5 个森林, enumerate()方法,输出每个元素的下标和其对应的值
for i, (ax, tree) in enumerate(zip(axes.ravel(), forest.estimators_)):ax.set_title('Tree {}'.format(i))     #设置图形标题#画出树的部分图,数据为训练集,树为随机森林生成的子树,画在ax子图中mglearn.plots.plot_tree_partition(X_train, y_train, tree, ax=ax)#画出随机森林的分界线
mglearn.plots.plot_2d_separator(forest, X_train, fill=True, ax=axes[-1, -1], alpha=.4)#设置标题
axes[-1, -1].set_title('Random Forest')
mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train)         #添加数据点, 横坐标,纵坐标,结果
[<matplotlib.lines.Line2D at 0x268d9ca6d68>,<matplotlib.lines.Line2D at 0x268d9cb2470>]

由上图可以看到,这5棵树学到的决策边界大不相同

每颗树都犯了一些错误,因为这里画出的一些训练点实际上并没有包含在这些数的训练集中,原因是自主采样

随机森林比单独每一棵树的过拟合都要小,给出的决策边界也更符合直觉。在任何实际应用中,我们会用到更多数(成百上千),从而得到更平滑的效果

假如我们把包含100棵树的随机森林应用在乳腺癌数据上,如下:

from sklearn.datasets import load_breast_cancer       #导入乳腺癌数据包cancer = load_breast_cancer()        #加载乳腺癌数据集#拆分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)forest = RandomForestClassifier(n_estimators=100, random_state=0)      #生成随机森林
forest.fit(X_train, y_train)         #训练数据print('Accuracy on training set: {:.3f}'.format(forest.score(X_train, y_train)))
print('Accuracy on test set: {:.3f}'.format(forest.score(X_test, y_test)))         #输出结果
Accuracy on training set: 1.000
Accuracy on test set: 0.972

在没有调节任何参数的情况下,随机森林的精度为 97%, 比线性模型或单颗决策树都要好,通常随机森林默认参数就可给出很好的结果

与决策树类似,随机森林也可以给出特征重要性,计算方法是将森林中所有数的特征重要性求和并取平均,通常随机森林给出的特征重要性更为可靠

import matplotlib.pyplot as plt
import numpy as npdef plot_feature_importance_cancer(model):#获取到特征的个数n_features = cancer.data.shape[1]#根据重要性进行绘图plt.barh(range(n_features), model.feature_importances_, align='center')plt.yticks(np.arange(n_features), cancer.feature_names)plt.xlabel('Feature importance')plt.ylabel('Feature')#绘图画出重要性
plot_feature_importance_cancer(forest)

由上图可见,随机森林比单颗树更能从总体把握数据的特征

优点、缺点及参数

从本质上来看,随机森林拥有决策树的所有优点,同时弥补了决策树的一些缺陷,树越多,其鲁棒性越好,但要注意内存情况

随机森林不适合处理维度非常高的稀疏矩阵,另外训练和预测的速度也较慢

分类问题中,max_features = sqrt(n_features); 回归问题中,max_features = n_features;对于参数的设置,一般采取默认值即可

随机森林(RandomForestClassifier)----概述与应用相关推荐

  1. sklearn 3.随机森林(菜菜课程)

    随机森林 一.概述 1.集成算法概述 集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通 过在数据上构建多个模型,集成所有模型的建模结 ...

  2. 随机森林-sklearn

    随机森林 1.概述 1.1 集成算法概述 本身并不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果.以此来获得最好的结果. 集成算法的目标: 集成算法会考虑多个评估器的建 ...

  3. 随机森林调参 - python

    文章目录 1.一般的模型调参原则 2.随机森林的随机性体现在哪几个方面? 2.1 数据集的随机选取 2.2 待选特征的随机选取 3.为什么使用随机森林? 4.随机森林的构建过程 5.随机森林优缺点总结 ...

  4. python 随机森林调参_Python机器学习实践:随机森林算法训练及调参-附代码

    原标题:Python机器学习实践:随机森林算法训练及调参-附代码 文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 博客园 作者 | 战争热诚 ...

  5. 随机森林分类算法python代码_Python机器学习笔记:随机森林算法

    随机森林算法的理论知识 随机森林是一种有监督学习算法,是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,但是它在分类和回归上表现出非常惊人的性能,因此,随机森林被誉为&q ...

  6. 随机森林算法训练及调参-附代码

    随机森林算法的理论知识 随机森林是一种有监督学习算法,是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,但是它在分类和回归上表现出非常惊人的性能,因此,随机森林被誉为&q ...

  7. 机器学习二【随机森林】

    随机森林 1. 概述 1.1 集成算法概述 1.2 sklearn中的集成算法 2 .RandomForestClassifier 2.1 重要参数 2.1.1 控制基评估器的参数 2.1.2 n_e ...

  8. Python机器学习笔记——随机森林算法

    随机森林算法的理论知识 随机森林是一种有监督学习算法,是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,但是它在分类和回归上表现出非常惊人的性能,因此,随机森林被誉为&q ...

  9. sklearn随机森林调参小结

    转自:https://www.cnblogs.com/pinard/p/6160412.html 在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF) ...

最新文章

  1. 五分钟搭建一个基于BERT的NER模型
  2. jquery通过val()取不到textarea中的值
  3. oracle创建表语句_利用FME去拼接SQL语句并创建表
  4. 一道关于 json 和 slice 的题难倒了 80% 的人
  5. CSLA.Net 3.0.5 项目管理示例 业务集合基类(ProjectResources.cs,ProjectResource.cs)
  6. php面向对象编程详解,PHP面向对象编程
  7. JavaScript表单序列化的方法详解
  8. 2.任务包多线程并行计算
  9. linux关闭rac某一节点,实现多次不完全恢复(RAC环境需要将另一节点关闭)
  10. C#基础之--线程、任务和同步:一、异步委托
  11. Java实现下载url视频资源
  12. vb mysql 5.1 adodb_VB 中 ADO、 ADODB、 ADODC 的区别与联系(皮毛)
  13. 仿站源码上传服务器,仿爱站站长查询工具网源码带后台完整版
  14. mysql 最大长度_mysql VARCHAR的最大长度到底是多少
  15. linux下view如何修改字符串,Linux下view命令的使用
  16. 科普|股东需要对企业债务承担连带责任
  17. mysql绿色版本的安装
  18. LSB文本水印的嵌入与提取
  19. Javascript 10进制转16进制补0 ,16进制转10进制
  20. 如何创建自己的云盘-私有云盘

热门文章

  1. 「塑料后盖」「金属后盖」「玻璃后盖」的区别 ???
  2. javascript大小写字母转换问题
  3. 体育时空杂志体育时空杂志社体育时空编辑部2015年第2去i部分目录
  4. java计算机毕业设计web唐院寻人表白系统源码+mysql数据库+系统+lw文档+部署
  5. 老ipad不能下载和更新app store中的app解决方法
  6. rust机枪塔攻击模式_《辐射4》机枪塔类型及使用心得图文详解 全类型机枪塔伤害介绍...
  7. PCB板层叠结构介绍
  8. 板内板间通信协议及接口(二)uart usart
  9. Blender 3D 打印插件Print Toolbox
  10. 鲸鱼优化算法(WOA)函数寻优、附代码