描述:

计算每个特征对样本集进行划分所获得的信息增益,然后做归一化处理可以得到每个特征的权重

目标:

样本降维

一种算法策略:参考决策树的划分选择

首先引入概念信息熵信息增益。

信息熵(information entropy)是度量样本几何纯度最常用的一种指标。假定样本集合D中第k类样本所占的比例为

则D的信息熵定义为

 (1.1)

(熵在物理学上指混乱程度,因此熵越低信息越确定。举个极端的例子,样本集只有一个类别+1,那么P1=1,Ent(D)=0,信息熵为0即非常确定,因为随便取一个样本都是+1)

假定离散属性a有V个可能的取值,若使用a来对样本集D进行划分,则会产生V个子集,其中第v个子集包含了D中所有在属性a上取值为的样本,记为。可以根据式(1.1)计算出的信息熵,再考虑到不同的子集所包含的样本数不同,给子集赋予权重,即样本数越多的子集的影响越大,于是可以计算出用属性a对样本集D进行划分所获得的信息增益(information gain)

 (1.2)

假定样本集D上第j个特征),可以计算出每个特征在训练数据集D下的信息增益,于是得到K个信息增益值,对其做归一化处理,可以得到每个特征所占的权重:

                                                                           (1.3)

下面举个例子来更好的理解上述公式。

假定某二分类数据集有17个样本,其中正例8个,反例9个,显然|y|=2。因此,根据式(1.1)可以计算出信息熵为

假定该数据集有6个特征{颜色,形状,声响,纹理,触感,气味},然后我们要计算出每个特征的信息增益。以“颜色”为例,假定它有3个可能的取值:{红色,绿色,蓝色}。用该特征对数据集D进行划分,则可得到3个子集,分别记为(颜色=红色),(颜色=绿色),(颜色=蓝色)。

假定有6个样本,其中正例占,反例占有6个样本,其中正例占,反例占有5个样本,其中正例占,反例占 。根据式(1.1)可以计算出用“颜色”划分之后所获得的3个子集的信息熵为

于是,根据式(1.2)可以计算出特征“颜色”的信息增益为

同理可得其他特征的信息增益:

根据式(1.3)可以计算出每个属性的权重:

​​​​​​​                                    

参考资料:

  1. CSDN.利用分类模型学习特征权重​​​​​​​
  2. 周志华.《机器学习》[M].北京:清华大学出版社,2016

通过机器学习得到样本的特征权重相关推荐

  1. 基于功能连接的认知机器学习预测模型:特征权重可靠吗?

    文章来源于微信公众号(茗创科技),欢迎有兴趣的朋友搜索关注. 利用机器学习方法,可以从个人的功能性大脑连接中预测认知表现.但是预测模型在支持认知的神经生物学加工方面仍存在争议,目前的见解也比较有限.特 ...

  2. C4.5决策树生成算法完整版(Python),连续属性的离散化, 缺失样本的添加权重处理, 算法缺陷的修正, 代码等

    C4.5决策树生成算法完整版(Python) 转载请注明出处:©️ Sylvan Ding ID3算法实验 决策树从一组无次序.无规则的事例中推理出决策树表示的分类规则,采用自顶向下的递归方式,在决策 ...

  3. WKmeans一种基于特征权重的聚类算法

    1 引例 在前面两篇文章中,我们首先介绍了KmeansKmeansKmeans聚类算法的原理:然后又介绍了一种基于KmeansKmeansKmeans进行改进的Kmeans++Kmeans++Kmea ...

  4. 【特征工程】机器学习中离散型特征的处理 —— 独热码 (one-hot)

    [原文链接]https://www.cnblogs.com/daguankele/p/6595470.html 1.什么是独热码 独热码,在英文文献中称做 one-hot code, 直观来说就是有多 ...

  5. 影像组学视频学习笔记(14)-特征权重做图及美化、Li‘s have a solution and plan.

    本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(14)主要介绍: 特征权重做图及美化 import matplotlib.pyplot as plt %matplotlib inlin ...

  6. fcm算法c语言实现,基于特征权重的FCM算法研究及应用

    摘要: 模糊C-均值(FCM)聚类算法是非监督模式识别中应用范围最广泛的算法之一.但是传统的FCM算法中,设定样本的各维特征对分类效果的贡献水平是相同的.在实际中,由于特征提取不够完善,使得特征矢量中 ...

  7. 【机器学习】机器学习中样本不平衡,怎么办?

    在银行要判断一个"新客户是否会违约",通常不违约的人VS违约的人会是99:1的比例,真正违约的人 其实是非常少的.这种分类状况下,即便模型什么也不做,全把所有人都当成不会违约的人, ...

  8. 【干货】机器学习中样本比例不平衡的处理方法

    推荐阅读时间:5min~12min 主要内容:机器学习中样本比例不平衡的处理方法 在机器学习中,常常会遇到样本比例不平衡的问题,如对于一个二分类问题,正负样本的比例是 10:1. 这种现象往往是由于本 ...

  9. 机器学习中样本不平衡,怎么办?

    在银行要判断一个"新客户是否会违约",通常不违约的人VS违约的人会是99:1的比例,真正违约的人 其实是非常少的.这种分类状况下,即便模型什么也不做,全把所有人都当成不会违约的人, ...

最新文章

  1. opencv cuda使用笔记
  2. HbuilderX跳转 / 定义快捷键
  3. vue 中slot 的具体用法
  4. 敏捷自动化测试(1)—— 我们的测试为什么不够敏捷?
  5. 平方变换法提取载波MATLAB,毕业设计(论文)MPSK信号的载波同步算法研究与仿真.doc...
  6. day2 字典常用的方法
  7. beego模板语法循环html块,beego 模版语法
  8. Keil综合(02)工程窗口各项图标描述
  9. React 编程思想 正反向数据流(单向数据流) 为了好理解我才叫正反向
  10. ruby gem 记录
  11. 九度教程第28题-堆栈的的使用(栈的使用)
  12. ue4序列帧ui_UE4动画序列帧通知机制(二)
  13. matlab车标识别,MATLAB车辆标识识别技术研究
  14. js停止setInterval
  15. jetson windows_Jetson nano 配置远程桌面
  16. 你愿意给应届生200万年薪吗?
  17. windows串口调试linux工具,推荐一款好用的串口调试软件PuTTY
  18. yolov1原文地址以及论文翻译
  19. JAVA网络爬虫(无头浏览器ChromeDriver)
  20. 幂级数和函数经典例题_幂级数和函数的几种常见解法

热门文章

  1. 用Frida对APP脱壳
  2. No.8 OpenCL 性能分析——内存带宽
  3. 洛克王国服务器维护中,帮助中心-洛克王国-Roco Kingdom-官方网站-腾讯儿童-点亮魔法,放飞童年...
  4. 三坐标测量基础知识之开机和关机的顺序
  5. 《大学“电路分析基础”课程实验合集.实验三》丨基尔霍夫定律的验证
  6. 虚拟内存的设置并不麻烦,但是要用…
  7. 10个TWaver网页3D可视化精彩案例
  8. MFC中关闭窗口的几种方式
  9. MySQL之ANALYZE TABLE
  10. 安装 Tex Live (含镜像源更换)