Relief 特征选择算法简单介绍

相关文章
特征选择
LVW（Las Vegas Wrapper）特征选择算法简单介绍

Relief（Relevant Features） 是著名的过滤式特征选择方法，Relief 为一系列算法，它包括最早提出的 Relief 以及后来拓展的 Relief-F 和 RRelief-F ，其中最早提出的 Relief 针对的是二分类问题，RRelief-F 算法可以解决多分类问题，RRelief-F 算法针对的是目标属性为连续值的回归问题。

1 原始的 Relief 算法

最早提出的 Relief 算法主要针对二分类问题，该方法设计了一个“相关统计量”来度量特征的重要性，该统计量是一个向量，向量的每个分量是对其中一个初始特征的评价值，特征子集的重要性就是子集中每个特征所对应的相关统计量之和，因此可以看出，这个“相关统计量”也可以视为是每个特征的“权值”。可以指定一个阈值 τ\tauτ，只需选择比 τ\tauτ 大的相关统计量对应的特征值，也可以指定想要选择的特征个数 kkk，然后选择相关统计量分量最大的 kkk 个特征。

有了 Relief 的基本思想，那么现在的问题就转换成如何得到一种有效的权值或者相关统计量类对特征进行度量，Relief 借用了 “假设间隔”（hypothesis margin） 的思想，我们知道在分类问题中，常常会采用决策面的思想来进行分类，“假设间隔”就是指在保持样本分类不变的情况下，决策面能够移动的最大距离，可以表示为：

θ=12(∥x−M(x)∥−∥x−H(x)∥)(1)\theta = \frac{1}{2}(\|x-M(x)\|-\| x-H(x)\|) \tag{1}θ=21(∥x−M(x)∥−∥x−H(x)∥)(1)

其中，M(x)M(x)M(x)、H(x)H(x)H(x) 指的是与 xxx 同类的和与 xxx 非同类的最近邻点。

我们知道，当一个属性对分类有利时，则该同类样本在该属性上的距离较近，而异类样本在该属性上的距离较远，因此，若将假设间隔推广到对属性的评价中，则对应于公式（1）圆括号中的第一项越小，第二项越大，则该属性对分类越有利。“假设间隔”能对各维度上的特征的分类能力进行评价，从而就可以近似地估计出对分类最有用的特征子集，Relief 正是利用了这个特性。
　　
假设训练集 DDD 为 (x1,y1),(x2,y2),⋯,(xm,ym){(x_1,y_1), (x_2,y_2),\cdots,(x_m,y_m)}(x1,y1),(x2,y2),⋯,(xm,ym)，对每个样本 xix_ixi，计算与 xix_ixi 同类别的最近邻 xi,nhx_{i,nh}xi,nh，称为是 “猜中近邻”（near-heat），然后计算与 xix_ixi 非同类别的最近邻 xi,nmx_{i,nm}xi,nm，称为是 “猜错近邻”（near-miss），则属性 jjj 对应的相关统计量为：

δj=∑i−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2(2)\delta^j=\sum_i{-diff(x_i^j, x_{i,nh}^j)^2+ diff(x_i^j, x_{i,nm}^j)^2} \tag{2}δj=i∑−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2(2)

其中，xajx_a^jxaj 代表样本 xax_axa 在属性 jjj 上的取值，diff(xaj,xbj)diff(x_a^j,x_b^j)diff(xaj,xbj) 的计算取决于属性 jjj 的类型：

（1）对离散型属性：

diff(xaj,xbj)={0,xaj=xbj1,otherwisediff(x_a^j,x_b^j)= \begin{cases} 0, & x_a^j=x_b^j \\ 1, & otherwise \end{cases} diff(xaj,xbj)={0,1,xaj=xbjotherwise

（2）对连续型属性：

diff(xaj,xbj)=∣xaj−xbj∣diff(x_a^j,x_b^j)=| x_a^j-x_b^j | diff(xaj,xbj)=∣xaj−xbj∣

注：xajx_a^jxaj，xbjx_b^jxbj已经规范化到 [0,1][0,1][0,1] 区间。
　　
从公式（2）中可以看出，若 xix_ixi 与其猜中近邻 xi,nhx_{i,nh}xi,nh 在属性 jjj 上的距离小于 xix_ixi 与其非同类别的最近邻 xi,nmx_{i,nm}xi,nm 的距离，则说明属性 jjj 对区分同类与异类样本是有利的，反之则不利，因此公式（2）的值越大则说明该属性的分类能力越强。

公式（2）得到的是单个样本对每个属性的评价值，将所有样本对同一个属性的评价值进行平均就得到了该属性的相关统计分量，分量值越大，分类能力就越强。

2 Relief-F

Relief 算法只能直接处理两分类的特征选择，改进的 Relief-F 算法能够处理多分类问题，它将多分类视为是一类对多类直接加以解决。其方法是寻找当前样本的各类最近邻点并综合加以计算。

假设数据集为 DDD，该数据集一共包含 ∣y∣|y|∣y∣ 个类别，对示例 xix_ixi，若它属于第 kkk 类（k∈{1,2,⋯,∣y∣}k\in\{1,2,\cdots, |y|\}k∈{1,2,⋯,∣y∣}），则 Relef-F 算法先在第 kkk 类的样本中寻找 xix_ixi 的最近邻 xi,nhx_{i,nh}xi,nh，作为样本 xix_ixi 的猜中近邻，然后在第 kkk 类之外的每个类别的样本中寻找 xix_ixi 的最近邻 xi,l,nmx_{i,l,nm}xi,l,nm（l=1,2,⋯,∣y∣;l≠kl=1,2,\cdots, |y|;l\neq kl=1,2,⋯,∣y∣;l=k），作为样本 xix_ixi 的猜错近邻，则相关统计量对应于属性 jjj 的分量为：
δj=∑i−diff(xij,xi,nhj)2+∑l≠k(pl×diff(xij,xi,l,nmj)2)\delta^j=\sum_i{-diff(x_i^j, x_{i,nh}^j)^2+\sum_{l\neq k} (p_l \times diff(x_i^j, x_{i,l,nm}^j)^2)} δj=i∑−diff(xij,xi,nhj)2+l=k∑(pl×diff(xij,xi,l,nmj)2)

其中，plp_lpl 为第 lll 类样本在数据集 DDD 中所占的比例。

【参考文献】
《机器学习》周志华著.–北京：清华大学出版社