随机森林random forest的pro和con是什么?
优势是accuracy高,但缺点是速度会降低,并且解释性interpretability会差很多,也会有overfitting的现象。

为什么要最大化information gain?
从root到leaf,使得各class distribution的Entropy不断减低。如果相反的话,就会增加预测的不确定性。

熵entrophy的意义是什么?
首先信息量的大小和可能情况的对数函数取值有关系。变量的不确定情况越大,熵越大。

如何避免在随机森林中出现overfitting?
对树的深度的控制也即对模型复杂度的控制,可以在一定程度上避免overfitting,简言之就是shallow tree。此外就是prune,把模型训练比较复杂,看合并节点后的subtree能否降低generation error。随机选择训练集的subset,也可以实现避免overfitting。

Bagging的代价是什么?
Bagging的代价是不用单次决策树来做预测,具体哪个变量起到重要作用变得未知,所以bagging改进了预测准确率但损失了解释性。

Random forest和bagged tree的区别是什么?
随机森林的构建过程中,当考虑每个split时,都只从所有p个样本中选取随机的m个样本,作为split candidate。特别的m大概会取p的平方差。其核心目的是decorrelate不同的树。bagged tree和random forest的核心区别在于选择subset的大小。

什么是GBDT?
通过boosting的方法迭代性的构建week decision tree的ensemble。其优势是不需要feature normalization,feature selection可以在学习过程中自动的体现。并且可以指定不同的loss function。但是boosting是一个sequential process,并非并行化的。计算非常intensive,对高维稀疏数据的feature vector表现相当poor。

GBDT训练的步骤是什么?
使用information gain来获得最好的split。然后根据best split来partition数据。低于cut的数据分至left node,高于cut的数据分至right node。接下来进行boosting,梯度函数可以有多种形式,Gradient是下一棵树的目标。

MapReduce如何实现GBDT呢?
每一个mapper得到<feature value> 以及<residual weight>。reducer积累cuts并且sort。Split数据依据cut,并且输出到DFS。

Classification tree和Regression tree的区别是什么?
回归树的output label是continnuous,而分类树的output label是离散的。因此目标函数也要做相应的调整。特别的regression tree所给出的是probabilistic, non-linear regression,regression tree可以associate未知的独立的测试数据和dependent,continuous的预测。

0

转载于:https://www.cnblogs.com/mfryf/p/7026524.html

随机森林和GBDT的几个核心问题相关推荐

  1. gbdt 算法比随机森林容易_随机森林与GBDT

    Bagging策略 1.总样本数量是n个,从样本中重采样(有放回的)选出n个样本 ,会有约33.2%的样本不会被抽到 2.在所有属性上对这n个样本建立分类器(比如决策树,svm,lr) 3.重复步骤1 ...

  2. 数据挖掘算法(logistic回归,随机森林,GBDT和xgboost)-腾讯云社区

    机器学习就是样本中有大量的x(特征量)和y(目标变量)然后求这个function.(了解更多可以看: https://zhuanlan.zhihu.com/p/21340974?refer=mlear ...

  3. xgboost原理,怎么防止过拟合。随机森林,GBDT,Xgoost的区别,bagging和boosting

    一.bagging和boosting的区别 参考:https://www.cnblogs.com/liuwu265/p/4690486.html Bagging和Boosting都是将已有的分类或回归 ...

  4. 机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

    版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...

  5. 决策树模型组合之随机森林与GBDT

    版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...

  6. OpenCV:使用 随机森林与GBDT

    随机森林顾名思义,是用随机的方式建立一个森林.简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的.对于每棵树,它们使用的训练集是从总的训 ...

  7. 决策树php,决策树模型组合之随机森林与GBDT

    前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等.但是同时,单决策树又有一些不好的地方,比如说容易over- ...

  8. 决策树(四)--随机森林与GBDT

    前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等.但是同时,单决策树又有一些不好的地方,比如说容易over- ...

  9. 数据代码分享|Python用NLP自然语言处理LSTM神经网络Twitter推特灾难文本数据、词云可视化与SVM,KNN,多层感知器,朴素贝叶斯,随机森林,GBDT对比

    作者:Yunfan Zhang Twitter是一家美国社交网络及微博客服务的网站,致力于服务公众对话.迄今为止,Twitter的日活跃用户达1.86亿.与此同时,Twitter也已成为突发紧急情况时 ...

  10. 随机森林和gbdt结合_决策树与迭代决策树(GBDT)

    关注数学,关注AI,关注我们公众号ID:Math-AI 阅读目录 1. 决策树的模型 2. 决策树的基本知识 3. ID3.C4.5&CART 4. Random Forest 5. GBDT ...

最新文章

  1. python基础教程第二版和第三版哪个好-python基础教程 2版和3版哪个适合新手?!...
  2. delphi XE2-新的里程碑
  3. 深入理解Spark 2.1 Core (十):Shuffle Map 端的原理与源码分析
  4. 刷recovery工具apk_红米note4X刷lineage,不喜欢miui10广告臃肿的可以试一试
  5. Spring Cloud 学习 (五) Zuul
  6. LFS,编译自己的Linux系统 - 前言
  7. 2-用EasyNetQ连接RabbitMQ(黄亮翻译)
  8. LabVIEW连接MySQL数据库
  9. 《IT项目管理那些事儿》——CSDN蒋涛序
  10. ffmpeg 源代码简单分析 : av_read_frame()
  11. 华为 鸿蒙系统(HarmonyOS)
  12. 算法:回溯十 挑选卡片pickup cards
  13. c++ 循环控制语句 while语句 do...while语句 for语句 for循环
  14. UDP如何实现可靠性传输
  15. pc微信多开hook版本3.2.1.123
  16. 美团网官网最新底部导航页面制作及CSS样式设计
  17. python menu_Python——Menu控件
  18. Mysqldump原理及使用方法
  19. linux下rsync命令,Linux下rsync命令用法
  20. matlab如何做粒子模拟,求助,如何用matlab做蒙特卡罗模拟!!??

热门文章

  1. Linux iptables防火墙详解(一)——iptables基础知识
  2. Linux四剑客详解——sed
  3. IS-IS详解(十三)——IS-IS 路由开销类型
  4. 彭旭老师《一线员工执行力提升训练》
  5. Do you know? -- season 1
  6. 功能增强的进度条控件(源码)
  7. linux上调用短信接口,短信猫接口程序Gnokii For Linux安装
  8. linux 文件预读,一种基于Linux系统小文件预读功能的可靠性测试方法与流程
  9. Redis BigKey
  10. java使用kaptcha生成图片验证码