特征选择方法之互信息
互信息是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量,具体的计算公式为:
其中U、C代表两个事件,e的取值可以为0或者1,1代表出现这个事件,0代表不出现。
把上述公式拆解为统计形式为:
其中N11是表示全部数据中两个事件同时出现的概率,N表示全部事件出现的次数,而N0.则表示N01+N00。
实际做单特征选择的时候,我们把某个特征是否出现和分类是否正确这两个事件放在一起计算。把得分较高的特征进行保留。
需要注意的是计算时会遇到四种情况也就是,10,11,01,00,对于其中的某一种情况,当计算得到的值是0时,代表了两者没有关联,当计算出的值是正值时,表示两者共同出现的概率比较高,当值为负时,表示两者是负相关。例如:00情况是负值是,表示两者互相排斥,出现A时,B出现的概率就比较小,这个时候往往01情况和10情况的值为正。
特征选择方法之互信息相关推荐
- 特征选择方法详解Part2-卡方检验、互信息(Mutual Information)
Content 1. 单变量分析 1.1 卡方检验 1.1.1 原理 1.1.2 使用示例 1.2 互信息(Mutual Information) 1.2.1 原理 1.2.1.1 互信息(Mutua ...
- 互信息特征选择python_基于互信息的特征选择方法杂谈
我们现在处于一个数据驱动的时代,但并不是所有的数据都是有意义的.只有有效的数据才能 带给我们"信息",无效的数据并不能带给我们"信息". 如果我们在做一件事情之 ...
- 一文介绍机器学习中的三种特征选择方法
作者 | luanhz 来源 | 小数志 导读 机器学习中的一个经典理论是:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.也正因如此,特征工程在机器学习流程中占有着重要地位.广义的特征 ...
- 数据维度爆炸怎么办?详解5大常用的特征选择方法
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Edwin Jarvis,cnblog博客整理 在许多机器学习相关 ...
- 数据维度爆炸怎么办?详解 5 大常用的特征选择方法
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择 ...
- 【文本分类】混合CHI和MI的改进文本特征选择方法
摘要:改进CHI算法.改进MI算法,结合改进CHI+改进MI,应用于文本的特征选择,提高了精度. 参考文献:[1]王振,邱晓晖.混合CHI和MI的改进文本特征选择方法[J].计算机技术与发展,2018 ...
- 结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家.机器学习从业者来说非常重要.好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点.底层结构,这对进一步改善模型.算法都有着重要作用. 特征选择主要有两个功能: 减 ...
- 机器学习知识点(三十七)特征选择方法总结
在模型训练中,特征选择是非常重要.样本有限的情况,特征过多计算开销过大:通过特征选择去掉冗余和不相关特征,可提高模型性能降低计算开销.两个字:降维.当然降维后,模型性能应该是提升的.特征选择的最终目的 ...
- python 卡方检验 特征选择_结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家.机器学习从业者来说非常重要.好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点.底层结构,这对进一步改善模型.算法都有着重要作用. 特征选择主要有两个功能: 减 ...
最新文章
- nginx+keepalived
- iPhone 7 256GB版停售原因分析
- 计算机组成原理_在线作业1,20秋《计算机组成原理》在线作业1
- 基于web的甘特图,易度甘特图edogantt!
- linux查看cpu的信息命令及其他有用的命令
- python汉诺塔问题_Python汉诺塔问题
- 15张Vim速查表-帮你提高N倍效率
- mysql Slave is not configured or failed to initialize properly. You must at least set --server-id
- android 播放声音资源,android播放音效例子 (翻页音效、警报音效通用 只需传入声音源)...
- mongodb的更新语句
- 中国最闷声发大财的城市,人均GDP超杭州
- linux tomcat 改端口号,Ubuntu中Tomcat更改80端口
- simpy练习案例(二):不直接控制流程,而是使用事件隐形控制流程 env.event()
- NVisionXR_iOS教程十二 —— 多图识别
- python sorted下标_Python列表实用的代码片段
- 查询结果取交集_MySQL Using intersect 交集
- thinkphp中volist 和foreach 的区别
- OPPO R7s线刷和恢复出厂设置的比较
- 通俗理解OvO与OvR
- 3D激光开源项目——BLAM安装使用过程的一些问题
热门文章
- rsem比对_科学网—FPKM, RPKM, RPM以及TPM的关系之见解 - 江纯阶的博文
- matlab中三维图形绘制函数
- Lire-0.9.4-beta1初始化DocumentBuilder出错
- Python 简单字典入门之“星期单词识别”
- 0-3岁的重要性进行了很多阐述
- Mongodb Capped Collection集合
- Linux挂载硬盘的步骤
- mybatis常用jdbcType数据类型以及对应的JavaType
- Linux VI/VIM练习
- 以报复为由,新版本Conti勒索软件源代码遭泄露,6万余条内部消息公之于众