摘要:

现如今,数据规模快速增长,使得如何从繁杂无序的数据中提取有用信息,成为摆在大家面前的一个课题.数据挖掘技术应运而生,凭借其优越性能已经被广泛的应用于复杂数据的分析.同时,机器学习技术日趋成熟和完善,越来越多的机器学习方法被应用到数据挖掘问题中.利用机器学习中的虑噪,特征选择等技术,可以有效的从大量繁杂数据中获取有价值的信息,这可以为后续分析研究打下坚实的基础. 随机森林是一种优秀的机器学习方法,已经被成功的应用于许多领域.随机森林不仅可以解决分类问题和回归问题,在特征选择领域已经引起越来越多的关注.本文基于随机森林模型,针对其在代谢组学数据分析中的应用,进行了大量的研究.为了克服噪音数据对随机森林分类正确率的干扰,通过借助人工对照变量虑噪的方法,可以提高分类正确率.随机森林是通过对特征进行重要性度量的方式实现特征选择的,然而,简单的一次评分是不够的,因为有很大的随机成分,结合处理对象所属领域自身的特点,本文给出了一种有限制的迭代评价的随机森林特征选择方法.另外,特征选择结果的优劣,在很大程度上依赖于处理策略的设计,这不仅包含了处理流程策略的设计,还包括了模型构建策略的设计.最后,为了充分利用多种机器学习方法各自的优点,尽可能全面的理解处理对象,本文还提出了一种新的集成数据处理策略,把随机森林,支持向量机和遗传算法集成到一起. 本文以随机森林为研究焦点,把其应用于代谢组学数据处理.代谢组学是生物信息学四大组学之一,代谢组学技术可以肯定身体已经发生的变化,这对疾病的诊断以及治疗有极其重要的意义.用人工对照变量辅助删除噪音时,构建的随机森林分类模型正确率由90.7%提高到94.4%;用迭代的随机森林特征度量方式特征选择时,五组正确率均很高,提取出18个可定性的重要特征;用多种方法集成处理数据时,模型的分类正确率均为100%,同时提取出31个重要特征.

展开

matlab随机森林特征选择,随机森林特征选择相关推荐

  1. matlab中随机森林实现,随机森林实现 MATLAB

    matlab 中随机森林工具箱的下载地址: http://code.google.com/p/randomforest-matlab/downloads/detail?name=Windows-Pre ...

  2. 在envi做随机森林_随机森林原理介绍与适用情况(综述篇)

    一句话介绍 随机森林是一种集成算法(Ensemble Learning),它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能.其可以 ...

  3. 12_信息熵,信息熵公式,信息增益,决策树、常见决策树使用的算法、决策树的流程、决策树API、决策树案例、随机森林、随机森林的构建过程、随机森林API、随机森林的优缺点、随机森林案例

    1 信息熵 以下来自:https://www.zhihu.com/question/22178202/answer/161732605 1.2 信息熵的公式 先抛出信息熵公式如下: 1.2 信息熵 信 ...

  4. 使用森林优化算法的特征选择

    转自:FeatureselectionusingForestOptimizationAlgorithm Manizheh Ghaemi a,n, Mohammad-RezaFeizi-Derakhsh ...

  5. r与python做随机森林_随机森林算法入门(python)

    昨天收到yhat推送了一篇介绍随机森林算法的邮件,感觉作为介绍和入门不错,就顺手把它翻译一下. 目录 1 什么是随机森林 1.1 集成学习 1.2 随机决策树 1.3 随机森林 1.4 投票 2 为什 ...

  6. 为什么极度随机树比随机森林更随机?这个极度随机的特性有什么好处?在训练阶段、极度随机数比随机森林快还是慢?

    为什么极度随机树比随机森林更随机?这个极度随机的特性有什么好处?在训练阶段.极度随机数比随机森林快还是慢? ExtRa Trees是Extremely Randomized Trees的缩写,意思就是 ...

  7. Python,OpenCV鼠标事件进行矩形、圆形的绘制(随机颜色、随机半径)

    Python,OpenCV鼠标事件进行矩形.圆形的绘制(随机颜色.随机半径) 1. 效果图 2. 源码 参考 这篇博客将介绍鼠标事件,并介绍鼠标事件矩形.圆形的绘制: 所有的鼠标事件(左键按下.左键释 ...

  8. pandas创建内容全是0的dataframe、pandas基于随机整数、随机浮点数创建dataframe(random numbers)

    pandas创建内容全是0的dataframe.pandas基于随机整数.随机浮点数创建dataframe(random numbers) 目录 pandas创建内容全是0的dataframe.pan ...

  9. php中文本设置随机颜色,php 产生随机整数,随机字符串,随机颜色等类用法

    /** * 产生随机整数,随机字符串,随机颜色等 * * @param * @arrange (512.笔记) jb51.cc **/ public static class RandomHelper ...

最新文章

  1. Spring中ClassPathXmlApplicationContext类的简单使用
  2. 【计算理论】可判定性 ( 对角线方法 | 证明自然数集 N 与实数集 R 不存在一一对应关系 )
  3. boost::asio::ip::tcp::resolver::query定义不正确导致boost::asio::ip::tcp::resolver的resolve抛出异常...
  4. js函数提示 vscode_工欲善其事,必先利其器,VSCode高效插件
  5. 铺铜过孔不要十字_谈谈商周青铜器上圈足的镂孔现象
  6. java 超构造函数_java中的超级构造函数
  7. ansible解决python版本依赖
  8. 利用 mount 指令解决 Read-only file system的问题
  9. 微信小程序之语音识别(附小程序+服务器源码)
  10. spark操作读取hbase实例
  11. quartz mysql 配置_Quartz框架(一)—Quartz的基本配置
  12. vsftpd配置权限问题
  13. vps部署ssl,让域名可以https访问的最简单的办法 ssl无法ie访问 https在ie访问报错的处理办法
  14. tssd加载lisp_几个有用的CAD的加载程序LISP
  15. UVA 10105 Polynomial Coefficients
  16. 超好用的卸载软件 —— Geek
  17. 为什么HashMap默认初始容量为2次幂?不是2次幂会怎样?讲讲 HashMap 扰动函数?
  18. 未授权访问漏洞原理及复现
  19. 电脑工作人员如何保护眼睛
  20. 如何制作注册登录网址

热门文章

  1. 硬件比软件难,但为什么硬件待遇不如软件?
  2. 基于SpringBoot和Vue的商品秒杀系统设计与实现
  3. 澳洲本科计算机世界排名,卧龙岗大学计算机世界排名
  4. ThinkPHP框架信息泄露
  5. 运用Python的turtle库绘制等边三角形
  6. 实现婚恋交友app源码,开发一个数字气泡的效果
  7. PERL 文件句柄||readline() on closed filehandle FILE ||Can't open file 解决方法
  8. 【阿里聚安全·安全周刊】阿里双11技术十二讲直播预约|AWS S3配置错误曝光NSA陆军机密文件...
  9. 网页设计经典色彩搭配
  10. 求出首地址为DATA的字数组中的最小偶数,并将它放在AX中