【机器学习】粗糙集（Rough Set Approach）

粗糙集理论是一种研究不精确，不确定性知识的数学工具。

粗糙集理论的知识表达方式一般采用信息表或称为信息系统的形式，它可以表现为四元有序组K=（U，A，V，P）。其中U为对象的全体，即论域；A是属性全体；V是属性的值域；P为一个信息函数，反映了对象x在K中的完全信息。

粗糙集的思想为：

　　一种类别对应一个概念（类别可以用集合表示，概念可以用规则描述），知识由概念组成；如果某个知识含有不精确概念，则该知识不精确。粗糙集对不精确概念的描述方法是通过下近似和上近似概念来描述。

　　上近似包含了所有使用知识R可确切分类到X的元素。
　　下近似包含了所有那些可能属于X的元素的最小集合。

粗糙集可以解决的问题可以如下一些：

1，不确定或者不精确知识的表达
2，经验学习并从经验中获取知识
3，不一致信息的分析
4，根据不完整得到，不确定的知识进行推理
5，在保留信息的前提下进行数据化简
6，识别并评估数据之间依赖关系

①算法思想：

　　粗糙集(RS)理论是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致和不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。

①优点

(1) 它能处理各种数据，包括不完整（incomplete) 的数据以及拥有众多变量的数据；
(2) 它能处理数据的不精确性和模棱两可（ambiguity），包括确定性和非确定性的情况；
(3) 它能求得知识的最小表达（reduct) 和知识的各种不同颗粒（granularity) 层次；
(4) 它能从数据中揭示出概念简单，易于操作的模式（pattern) ;
(5) 它能产生精确而又易于检查和证实的规则，特别适于智能控制中规则的自动生成.

基本概念

知识

“知识”这个概念在不同的范畴内有多种不同的含义。在粗糙集理论中，“知识”被认为是一种分类能力。人们的行为是基于分辨现实的或抽象的对象的能力，如在远古时代，人们为了生存必须能分辨出什么可以食用，什么不可以食用；医生给病人诊断，必须辨别出患者得的是哪一种病。这些根据事物的特征差别将其分门别类的能力均可以看作是某种“知识”。

不可分辨关系

分类过程中，相差不大的个体被归于同一类，它们的关系就是不可分辨关系（indiscernibility relation). 假定只用两种黑白颜色把空间中的物体分割两类，{黑色物体},{白色物体},那么同为黑色的两个物体就是不可分辨的，因为描述它们特征属性的信息相同，都是黑色.

如果再引入方，圆的属性，又可以将物体进一步分割为四类： {黑色方物体},{黑色圆物体},{白色方物体},{白色圆物体}. 这时，如果两个同为黑色方物体，则它们还是不可分辨的. 不可分辨关系是一种等效关系（equivalence relationship），两个白色圆物体间的不可分辨关系可以理解为它们在白，圆两种属性下存在等效关系.

基本集

基本集（elementary set) 定义为由论域中相互间不可分辨的对象组成的集合，是组成论域知识的颗粒. 不可分辨关系这一概念在粗糙集理论中十分重要，它深刻地揭示出知识的颗粒状结构，是定义其它概念的基础. 知识可认为是一族等效关系，它将论域分割成一系列的等效类。

集合

粗糙集理论延拓了经典的集合论，把用于分类的知识嵌入集合内，作为集合组成的一部分. 一个对象a 是否属于集合X 需根据现有的知识来判断，可分为三种情况：

⑴ 对象a 肯定属于集合X ;

⑵ 对象a 肯定不属于集X ;

⑶ 对象a 可能属于也可能不属于集合X 。

集合的划分密切依赖于我们所掌握的关于论域的知识，是相对的而不是绝对的.给定一个有限的非空集合U 称为论域，I 为U 中的一族等效关系，即关于U 的知识，则二元对 K = (U,I) 称为一个近似空间（approximation space). 设x 为U 中的一个对象，X为U 的一个子集，I (x) 表示所有与x 不可分辨的对象所组成的集合，换句话说，是由x 决定的等效类，即I (x) 中的每个对象都与x 有相同的特征属性（attribute)。

`参考链接：`

http://blog.csdn.net/chl033/article/details/3240500http://blog.sina.com.cn/s/blog_65aba7b70100h5s0.html