在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。互信息最常用的单位是bit。

互信息的定义

正式地,两个离散随机变量 X 和 Y 的互信息可以定义为:

其中 p(x,y) 是 X 和 Y 的联合概率分布函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数。

在连续随机变量的情形下,求和被替换成了二重定积分:

其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数。

互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。 平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量。如果对数以 2 为基底,互信息的单位是bit。

直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的熵。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)

互信息是 X 和 Y 联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性:I(X; Y) = 0 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出:当 X 和 Y 独立时,p(x,y) = p(x) p(y),因此:

此外,互信息是非负的(即 I(X;Y) ≥ 0; 见下文),而且是对称的(即 I(X;Y) = I(Y;X))。

互信息特征选择算法的步骤①划分数据集

②利用互信息对特征进行排序

③选择前n个特征利用SVM进行训练

④在测试集上评价特征子集计算错误率

缺点

此种特征选择方法是最大化特征与分类变量之间的相关度,就是选择与分类变量拥有最高相关度的前k个变量。但是,在特征选择中,单个好的特征的组合并不能增加分类器的性能,因为有可能特征之间是高度相关的,这就导致了特征变量的冗余。

代码

注意使用的数据集是dlbcl,大概五千多维,可以从UCI上下载,最终选择前100特征进行训练。

主函数代码:

MATLAB

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19clear all

close all

clc;

[X_train,Y_train,X_test,Y_test] = divide_dlbcl();

Y_train(Y_train==0)=-1;

Y_test(Y_test==0)=-1;

% number of features

numF = size(X_train,2);

[ ranking , w] = mutInfFS( X_train, Y_train, numF );

k = 100; % select the Top 2 features

svmStruct = svmtrain(X_train(:,ranking(1:k)),Y_train,'showplot',true);

C = svmclassify(svmStruct,X_test(:,ranking(1:k)),'showplot',true);

err_rate = sum(Y_test~= C)/size(X_test,1); % mis-classification rate

conMat = confusionmat(Y_test,C); % the confusion matrix

fprintf('\nAccuracy: %.2f%%, Error-Rate: %.2f \n',100*(1-err_rate),err_rate);

mutInfFS.m

MATLAB

1

2

3

4

5

6

7

8

9

10function [ rank , w] = mutInfFS( X,Y,numF )

rank = [];

for i = 1:size(X,2)

rank = [rank; -muteinf(X(:,i),Y) i];

end;

rank = sortrows(rank,1);

w = rank(1:numF, 1);

rank = rank(1:numF, 2);

end

muteinf.m

MATLAB

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58function info = muteinf(A, Y)

n = size(A,1);%实例数量

Z = [A Y];%所有实例的维度值及标签

if(n/10 > 20)

nbins = 20;

else

nbins = max(floor(n/10),10);%设置区间的个数

end;

pA = hist(A, nbins);%min(A)到max(A)划分出nbins个区间出来,求每个区间的概率

pA = pA ./ n;%除以实例数量

i = find(pA == 0);

pA(i) = 0.00001;%不能使某一区间的概率为0

od = size(Y,2);%一个维度

cl = od;

%下面是求实例不同标签的的概率值,也就是频率

if(od == 1)

pY = [length(find(Y==+1)) length(find(Y==-1))] / n;

cl = 2;

else

pY = zeros(1,od);

for i=1:od

pY(i) = length(find(Y==+1));

end;

pY = pY / n;

end;

p = zeros(cl,nbins);

rx = abs(max(A) - min(A)) / nbins;%每个区间长度

for i = 1:cl

xl = min(A);%变量的下界

for j = 1:nbins

if(i == 2) && (od == 1)

interval = (xl <= Z(:,1)) & (Z(:,2) == -1);

else

interval = (xl <= Z(:,1)) & (Z(:,i+1) == +1);

end;

if(j < nbins)

interval = interval & (Z(:,1) < xl + rx);

end;

%find(interval)

p(i,j) = length(find(interval));

if p(i,j) == 0 % hack!

p(i,j) = 0.00001;

end

xl = xl + rx;

end;

end;

HA = -sum(pA .* log(pA));%计算当前维度的信息熵

HY = -sum(pY .* log(pY));%计算标签的信息熵

pA = repmat(pA,cl,1);

pY = repmat(pY',1,nbins);

p = p ./ n;

info = sum(sum(p .* log(p ./ (pA .* pY))));

info = 2 * info ./ (HA + HY);%计算互信息

前100个特征的效果:

Accuracy: 86.36%, Error-Rate: 0.14

选择前两个特征进行训练(压缩率接近100%,把上述代码中的K设为2即可)的二维图:

Accuracy: 75.00%, Error-Rate: 0.25

网站所有原创代码采用Apache 2.0授权

网站文章采用知识共享许可协议BY-NC-SA4.0授权

© 2018 · OmegaXYZ–版权所有 转载请注明出处 -皖ICP备 17007601

互信息特征选择python_基于互信息的特征选择算法MATLAB实现 – OmegaXYZ相关推荐

  1. 互信息特征选择python_基于互信息的特征选择方法杂谈

    我们现在处于一个数据驱动的时代,但并不是所有的数据都是有意义的.只有有效的数据才能 带给我们"信息",无效的数据并不能带给我们"信息". 如果我们在做一件事情之 ...

  2. 特征选择之基于相关性的特征选择(CFS)

    此为本人学习笔记,转载请劳烦告知! 特征选择 特征抽取整合原始特征,这样可能产生一些新的特征,而特征选择是去除无关紧要或庸余的特征,仍然还保留其他原始特征.特征提取主要用于图像分析,信号处理和信息检索 ...

  3. python XGBoost分类器 和 基于树的特征选择 决策树法

    目录 绪论 1. 导入包和数据 2. 分割训练集和测试集 3. 不进行特征选择直接用xgb分类 3.1. xgb直接建模 3.2. 输出图片特征重要性 3.3. 模型评价 4. 进行特征选择后的分类 ...

  4. 基于正则化的特征选择

    1.特征选择简述 降维,有时也可称为子空间学习,可以大致分为特征选择(feature selection)和特征提取(feature extraction)两大类,我们常说的主成分分析(PCA).线性 ...

  5. 数字水印算法matlab源程序 matlab版数字水印算法 /DCT/DWT/LSB/HVS/W-SVD数字水印源码 数字水印的嵌入和提取 W-SVD数字水印实现

    发以下多套系统源码: 1.matlab版数字水印算法 2.MATLAB数字水印 源代码+文档 3.数字水印技术matlab代码 4.数字水印 JPEG压缩 matlab代码 5.数字水印 添加噪声 m ...

  6. 基于蚁群优化算法的特征选择相关文献

    Dorigo等人在20世纪90年代初提出了蚁群优化算法(Ant colony optimization ,ACO).ACO是一种元启发式群智能算法,旨在解决组合优化问题.它利用了真实蚂蚁的觅食行为,由 ...

  7. 【图像配准】基于互信息的图像配准算法:MI、EMI、ECC算法

    简介:         基于互信息的图像配准算法以其较高的配准精度和广泛的适用性而成为图像配准领域研究的热点之一,而基于互信息的医学图像配准方法被认为是最好的配准方法之一.基于此,本文将介绍简单的基于 ...

  8. lasso特征选择python_转:结合Scikit-learn介绍几种常用的特征选择方法-2

    4.2 平均精确率减少 Mean decrease accuracy 另一种常用的特征选择方法就是直接度量每个特征对模型精确率的影响.主要思路是打乱每个特征的特征值顺序,并且度量顺序变动对模型的精确率 ...

  9. 使用优化的基于模糊规则的特征选择技术和基于树的集成方法进行山洪敏感性建模--文献阅读

    文章连接 Flash flood susceptibility modeling using an optimized fuzzy rule based feature selection techn ...

最新文章

  1. 史记.饭岛爱列传(转)
  2. libev的使用——结合Socket编程
  3. boost::log::keywords::format用法的测试程序
  4. java面试题十六 StringBuffer
  5. Terminal(终端)中代理的配置---Linux应用中遇到的问题笔记
  6. HTML列表标签,讲的明明白白!
  7. 计算机视觉实战(七)图像金字塔与轮廓检测
  8. 显示器尺寸对照表_求解显示器屏幕尺寸对照表一般是多少?
  9. 树莓派 无法定位软件包 解决方案
  10. 使用PicGo和阿里云OSS建立云图床
  11. 大学生面试:教你用“一切细节”征服HR
  12. 机器人路径规划和轨迹优化导论
  13. 常用电子元器件及应用
  14. cuteftp向服务器传输文件没有权限
  15. Android开发5年,怎么样通过自学拿到40W年薪的?,安卓面试题最新2020
  16. Compass的用法
  17. Go const和iota 使用实战
  18. 修改 CentOS8内置的yum镜像地址
  19. AI成功破译古老未知语言,人工智能技术开辟历史研究新时代
  20. NC65 对上年度反结账,调整数据后重新结账后,对本年度年初重算时系统报错:更新记数错误。

热门文章

  1. PyQt如何使界面按钮更加美观
  2. Windows11家庭版开启来宾账户/Windows11家庭版显示本地组策略
  3. 【广外女生】远程监控2008版b3.30
  4. Linux系统之文件共享目录设置方法
  5. 国产FPGA Ethercat从站实时低成本运动控制系统方案
  6. ICASSP2023|达摩院语音实验室入选论文全况速览
  7. Python_从零开始学习_(52) 飞机大战_发射子弹
  8. 多画面监看服务系统管理
  9. 机器学习(五)之评价指标:二分类指标、多分类指标、混淆矩阵、不确定性、ROC曲线、AUC、回归指标
  10. 教你如何利用微信小程序高效地完成地图点位标注