决策树类的算法一般都能用来计算特征重要性,通过决策树分类器的特征重要性进行评估。

常用的决策树分类器有:DecisionTreeClassifier,RandomForestClassifier,ExtraTreesClassifier,GradientBoostingClassifier,XGBClassifier等。

但每个分类器下的参数可能略有不同,为了有更好的效果,尽量优化下参数取值。

本文以gbdt为例展示:

class TreeModelSelect():def __init__(self):pass# 选取树模型的分类器def TreeModelFunc(self, x, y, list_name):clf = GradientBoostingClassifier(n_estimators=100, max_depth=None, min_samples_split=10, random_state=0)clf.fit(x, y)var_importance = pd.Series(clf.feature_importances_,index=list_name).sort_values(ascending=False)print('var_importance : \n',var_importance)return var_importance# 可视化importance降序展示def plot_result(self,df):plt.figure()ax = df.plot(kind='bar',rot=0,ylim=[0,0.5])ax.set_ylabel('importance')ax.set_xlabel('features')ax.set_title('sample features importance')plt.show()# 加载及调用def load_transform(self):path = r'E:\programGao\csdnProgram'data = pd.read_excel(path + '/dataset.xlsx', 'all')y = np.array(data['flag'])x = np.array(data.iloc[:,2:])list_name = list(data.iloc[:,2:].columns)var_importance = self.TreeModelFunc(x, y, list_name)self.plot_result(var_importance)
  • 结果展示:

数据筛选特征方法-决策树法相关推荐

  1. mysql中常用的筛查语句,使用SQL语句进行数据筛选的方法

    在使用VBA对数据库进行访问时,利用SQL语句能够方便地实现对数据库的查询.本文使用SQL语句实现多条件查询,使用Select语句从"成绩管理.accdb"数据库文件中获取1班中数 ...

  2. Python笔记 | 数据筛选

    无论是在数据分析还是数据挖掘的时候,数据筛选总会涉及到.这里我总结了一下python中列表,字典,数据框中一些常用的数据筛选的方法. 1.列表 案例一:从一个含有数字0-9的列表中筛选出偶数(奇数): ...

  3. 野狗 Sync 分析3 - 数据筛选

    数据筛选分析 数据筛选就是从获取的数据中过滤掉不需要的数据,只拿我们感兴趣的那一部分. 可以对比SQL语句的 where 字句,但是野狗的数据筛选和SQL有很大的区别,接下来我们分析一下野狗的数据筛选 ...

  4. 高维数据中特征筛选方法的思考总结——多变量分析筛选法

    前言:之前的文章(高维数据中特征筛选方法的思考总结--单变量分析筛选法)中,对单变量分析筛选变量进行了初步考量,本文将进一步总结多变量分析筛选法.由于本文多处摘录网上的博客,只是进行了归纳整理,因此笔 ...

  5. 高维数据中特征筛选方法的思考总结——单变量分析筛选法

    基因组学.转录组学.蛋白组学及代谢组学等生信问题(高通量数据)中,面临的第一步往往就是降维(或者说筛选特征).降维方法分为两大类:单变量分析降维法.多变量分析降维法.单变量降维常常使用FC值或者P值, ...

  6. 征信衍生、信用卡数据场景如何做好分析,这一种时序特征方法得学学|金融信用分析师必学内容

    对于银行信用卡中心,存量用户群体的信用卡行为表现信息,是实际业务中有关风控模型或营销分析场景的主要数据来源,例如行为评分模型.营销价值模型.客户流失模型.客户画像描述等.因此,如何有效分析信用卡用户的 ...

  7. 机器学习特征筛选:方差选择法VarianceThreshold

    机器学习特征筛选:方差选择法VarianceThreshold 方差是衡量一个变量的离散程度(即数据偏离平均值的程度大小): 变量的方差越大,我们就可以认为它的离散程度越大,也就是意味着这个变量对模型 ...

  8. 影像组学视频学习笔记(5)-特征筛选之方差选择法、Li‘s have a solution and plan.

    本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(5)主要介绍: 特征筛选之方差选择法 针对医疗人员在影像组学研究中碰到的编程问题,李博士建议: 如果有一门编程语言基础的话会比较轻松 先 ...

  9. 不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 本文作者:s5248 编辑:杨晓凡 2018-01-19 11:32 导语:即便现代机器学习模型已经很先进了,也别

    不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 雷锋网(公众号:雷锋网) AI 科技评论按:眨眼间我们就从人工特征.专家系统来到了自动特征.深度学习的人工智能新时代,众多 ...

最新文章

  1. TensorFlow分布式详解
  2. vue-cli脚手架
  3. 「智源论坛Live报名」清华大学董胤蓬:深度学习对抗攻防平台
  4. 《深入实践Spring Boot》一第一部分 Part 1基础应用开发
  5. ACM入门之【树状数组习题】
  6. RabbitMQ死信实战(生产者)
  7. php 访问第三方接口吗,PHP-----------HTTP请求的第三方接口
  8. 学成在线--3.CMS页面管理开发(自定义条件查询)
  9. 怎么算掌握了mysql_MySQL你必须掌握了解的锁知识!
  10. 【jvm】jvisualvm 离线下载安装插件
  11. 在请求目标中找到无效字符。有效字符在RFC 7230和RFC 3986中定义
  12. 欺骗的艺术——第一部分
  13. Go 开发关键技术指南 | 带着服务器编程金刚经走进 2020 年(内含超全知识大图)...
  14. 基于JSP+Servlet的旅游景点服务平台(旅游网站)
  15. 同个网络找不到计算机打印机共享,局域网共享打印机搜索不到怎么办 局域网共享打印机搜索不到解决方法...
  16. CUDA编程1--GPU内存模型
  17. 谷歌浏览器提示adobeflashplayer已过期
  18. IKBC键盘win键失灵解决方法
  19. JS高级程序设计精简版(第五章:引用类型)附思维导图
  20. 修复Lsp解决不能上网的问题

热门文章

  1. python数据分析与挖掘实战(航空公司客户价值分析)
  2. 定时重启,定时关机脚本
  3. 安装IntelliJIDEA的时候提示NSIS ERROR的解决办法
  4. 基线的基本概念和基线分类
  5. 自己用C#写的控制三菱FX5U PLC(三菱任何系列都通用,网口,串口都行)的上位机程序
  6. Oracle Spacial(空间数据库)sdo_util包的函数
  7. Springboot配置文件随机生成内容
  8. WPF 基础(十六)WPF 四大触发器总结
  9. 河北省博物馆广场的鸽子
  10. 解码奇安信2021年业绩预告传递的几个信息,2022更值得期待