文章目录

  • 1、 数据价值密度低的解决方案
    • 1.1 粗糙集中对应的概念:属性约简
    • 1.2 属性约简的好处
    • 1.3 粗糙集的应用
  • 2、粗糙集的简介--->原理
    • 2.1 粗糙集的概念
    • 2.2 从例子看粗糙集
    • 2.3 粗糙集模型的分类及其评估标准
  • 3、粗糙集的主要研究方向
    • 3.1 模型创新
    • 3.2 属性约简
    • 3.3 提高计算效率

大数据很重要,但是存在体量大、价值密度低的问题,我们该怎么解决

1、 数据价值密度低的解决方案

​ 在所有这些场景中,我们需要将信息缩减到可管理的大小。特征选择是一个过程,可用于选择一组精简的特征,这些特征仍能提供足够的有用信息。这个过程通常是通过删除冗余和不必要的功能来完成的。如果一个特征提供的信息与同一数据集中另一个特征提供的信息相同,则该特征将是冗余的。如果一个特性不能给所需的信息增加任何价值,那么它就是不必要的。

​ 然后,所选择的特征集可以用于进一步的处理,例如,聚类、分类、规则提取,特征的减少可以显著提高这些处理系统的整体性能,例如,考虑具有一千个特征的分类场景,并将其与只有一百个特征的情况进行比较。显然,在考虑所有其他条件相同的情况下,后一种情况花费的时间要少得多。

1.1 粗糙集中对应的概念:属性约简

​ 由于粗糙集概念有些抽象,我们先来看下粗糙集能够达成什么样的效果,让大家能够直观感受粗糙集。

​ 属性约减又叫降维,指在保留知识分类或决策效果几乎不发生变化的前提下,从中删掉冗余信息,它可以有效删除不必要属性,提高决策效率。

1、线性降维方法:主成分分析(PCA)、独立成分分析(ICA)

​ 和线性判别分析(LDA)

2、非线性降维方法:

​ (1)基于核函数的非线性降维方法:KPCA 、KICA

​ (2)基于特征值的非线性降维方法


约简前聚类效果和约简后的聚类效果对比,可以检验约简的效果如何。假如约简前是上图,约简后三种形状和颜色的点混合在一起,则说明约简效果很差。

1.2 属性约简的好处

  • 去除冗余特征,减少所需的存储空间
  • 加快计算速度,更少的维数意味着更少的计算,更少的维数可以允许使用不适合大量维数的算法
  • 太多的特征或太复杂的模型可能导致过拟合

1.3 粗糙集的应用

数据预处理阶段:保证后续效率。神经网络训练模型是一个迭代过程,期间会消耗大量的时间。因此,在进入网络前对数据进行约简是非常有意义的,可以大大提升其效率,训练出的模型也会更好。

以阿尔法狗围棋为例对过拟合的再解释:假设AlphaGo和10位选手的10000场下棋结果进行训练,最后得到一个模型。AlphaGo和这10位围棋大师下棋,总能胜利。但是,此时有一位新的围棋高手,AlphaGo没有与之交过手,然后输了。这种情况不是偶然,经常出现,则说明模型过拟合了。真正拟合的模型对新到达的数据依然能够给出正确的决策。

2、粗糙集的简介—>原理

2.1 粗糙集的概念

1982年,波兰数学家Z.Pawlak发表了经典论文Rough Sets, 它是一种刻画不完整性和不确定性的数学工具,能有效地分析不精确,不一致(inconsistent)、不完整(incomplete) 等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。

已被广泛应用于知识发现、机器学习、决策支持、工业控制故障检测、专家系统、推荐系统、图像处理及归纳推理等领域。

2.2 从例子看粗糙集

U={e1,e2,e3,e4,e5,e6,e7}U=\{e_1,e_2,e_3,e_4,e_5,e_6,e_7\}U={e1​,e2​,e3​,e4​,e5​,e6​,e7​}

令P={“肌肉疼”,“体温”}

等价类:

U/PU/PU/P={e1e_1e1​,e4e_4e4​,e7e_7e7​}{e2e_2e2​},{e3e_3e3​,e6e_6e6​},{e5e_5e5​}

是,正常: X1X_1X1​={e1e_1e1​,e4e_4e4​,e7e_7e7​}

是,高: X2X_2X2​={e2e_2e2​}

是,很高: X3X_3X3​={e3e_3e3​,e6e_6e6​}

否,高: X4X_4X4​={e5e_5e5​}

决策

D1={e1,e4,e5}D_1=\{e_1,e_4,e_5\}D1​={e1​,e4​,e5​}

D2={e2,e3,e6,e7}D_2=\{e_2,e_3,e_6,e_7\}D2​={e2​,e3​,e6​,e7​}

求各个集合分别与各个决策集合的关系。

X1∩D1≠∅X_1\cap D_1 \neq \emptysetX1​∩D1​=∅

X4⊆D1X_4\subseteq D_1X4​⊆D1​

X1∩D2≠∅X_1\cap D_2 \neq \emptysetX1​∩D2​=∅

X2⊆D2X_2\subseteq D_2X2​⊆D2​

X3⊆D2X_3\subseteq D_2X3​⊆D2​

等价类包含于某个决策类-------------->意味着等价类肯定能推出指定决策(确定)。

等价类相交于某几个决策类----------->意味着等价类可能推出指定某几个决策(不确定)。

循环每一种属性组成的可能性,找出最优的属性子集即为属性约简。

最优属性子集:正域尽可能大,属性尽可能少。

2.3 粗糙集模型的分类及其评估标准

依赖度(近似质量)是衡量一个模型优劣的指标。

​ 在保证近似质量的前提下去缩短时间才是有意义的。

3、粗糙集的主要研究方向

3.1 模型创新

3.2 属性约简

遗传算法、优化算法、并行计算

3.3 提高计算效率

  • 并行计算
  • 增量学习(流计算)
  • GPU加速

个人对粗糙集的一些理解和简单举例相关推荐

  1. Map集合遍历的四种方式理解和简单使用

    Map集合遍历的四种方式理解和简单使用 ~Map集合是键值对形式存储值的,所以遍历Map集合无非就是获取键和值,根据实际需求,进行获取键和值 1:无非就是通过map.keySet()获取到值,然后根据 ...

  2. CAP原理这样理解最简单

    转载自:CAP原理这样理解最简单 还有一篇讲的也挺好:CAP理论/AP架构/CP架构 前言 众所周知,CAP理论是架构师在设计分布式系统过程中,处理数据一致性问题时必须考虑的基石级理论(圣经级的,^V ...

  3. [转]bootstrapTable refresh 方法使用简单举例

    原文地址:https://blog.csdn.net/lanyang123456/article/details/55805478 本文就bootstrapTable refresh 方法如何传递参数 ...

  4. Java多线程中使用ReentrantLock、synchronized加锁 简单举例

    Java多线程中使用ReentrantLock.synchronized加锁 简单举例 public class Demo {final static Lock lock = new Reentran ...

  5. [css] 说说你对BEM规范的理解,同时举例说明常见的CSS规范有哪些?

    [css] 说说你对BEM规范的理解,同时举例说明常见的CSS规范有哪些? BEM是比较好的CSS规范,应该也是得到大家认可最多的CSS规范 OAMC是WeUI根据BEM改造来的 object-are ...

  6. bootstrapTable refresh 方法使用简单举例

    本文就bootstrapTable refresh 方法如何传递参数做简单举例说明. 下面代码中,一个table,一个button,单击button会触发刷新表格操作. <!DOCTYPE ht ...

  7. switch的简单举例

    switch的简单举例 switch的基本形式 例子 switch的基本形式 switch语句的一般形式为: switch(表达式) {case 常量1: 语句1case 常量2: 语句2case 常 ...

  8. testbench编写流程的简单举例

    本文首发于公众号[木叶芯],版权所有,禁止转载. 如需转载,请在评论区留言或私信申请,经同意后可转载,否则属于侵权行为. 作者昵称:城外南风起 原文链接:testbench编写流程的简单举例 ---- ...

  9. SQL语句--CASE函数写法的简单举例,及应用

    SQL语句–CASE函数写法的简单举例,及应用 ---case函数的基本结构:case when...then...else... ----可以写也可以不写,按实际需求end [举个栗子_1] eg1 ...

最新文章

  1. 信息系统项目管理师 章节_信息系统项目管理师章节重点(5)项目整体管理
  2. 一行代码,解决空指针问题.
  3. 超参数搜索——网格搜索和随机搜索
  4. 礼让行人监控系统+政策助力,共建城市文明交通
  5. 计算机osi模型的功能osi,OSI基本参考模型是什么 OSI基本参考模型各层功能介绍【图文】...
  6. 程序员们的启蒙老师,终于拿图灵奖了
  7. linux进程假死的原因_一次Spring Boot假死诊断
  8. pve虚拟机导入gho_用vmware安装gho文件心得
  9. 深度学习概述:从感知机到深度网络
  10. 成功解决matplotlib绘图的时候,自定义横坐标和纵坐标刻度数值(调整坐标轴刻度间隔)
  11. React Native移动框架功能研究
  12. 【flutter环境问题】Downloading Dart SDK Flutter engine时卡着不动
  13. 鸿蒙空间最高级,洪荒:我能进化万物
  14. python response重头开始_用 Python 抓取公号文章保存成 PDF
  15. kubernetes Ingress是什么
  16. 不为人知的AI简史:人机共生梦想家,却意外促成互联网的出现
  17. 解决fiddler无法抓取localhost数据的问题
  18. 十大排序算法——希尔排序(元素交换法和数组元素移动法C语言)
  19. Contiki介绍及参考资料
  20. 计算机在幼儿园课程中的教学,计算机技术在幼儿教学中的运用策略

热门文章

  1. springmvc的controller层如何获取到请求的数据
  2. 圆锥滚子轴承如何安装
  3. 上了 istio 的贼船之 API Gateway
  4. Codeforces 1325 C. Ehab and Path-etic MEXs(贪心构造)
  5. Linux下用户的密码
  6. 视频讲解|KLTS -- K8s 长期维护支持版本
  7. 双重求和∑∑的定义及性质
  8. python怎么画地图空间分异图_基于地形梯度的赣南地区生态系统服务价值对人为干扰的空间响应...
  9. 面试必备:冒泡,选择,插入,希尔,归并,快速排序大合集
  10. 微信交电费访问服务器失败,微信怎么交电费?操作步骤,常见问题说明