数据挖掘的主要问题

本书强调数据挖掘的主要问题,考虑挖掘技术、用户界面、性能和各种数据类型。这些问题介绍如下:

数据挖掘技术和用户界面问题:这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、领域知识的使用、特定的挖掘和知识显示。

1     在数据库中挖掘不同类型的知识:由于不同的用户可能对不同类型的知识感兴趣,数据挖掘系统应当覆盖广谱的数据分析和知识发现任务,包括数据特征、区分、关联、聚类、趋势、偏差分析和类似性分析。这些任务可能以不同的方式使用相同的数据库,并需要开发大量数据挖掘技术。

2     多个抽象层的交互知识挖掘:由于很难准确地知道能够在数据库中发现什么,数据挖掘过程应当是交互的。对于包含大量数据的数据库,应当使用适当的选样技术,进行交互式数据探查。交互式挖掘允许用户聚焦搜索模式,根据返回的结果提出和精炼数据挖掘请求。特殊地,类似于 OLAP 在数据方上做的那样,应当通过交互地在数据空间和知识空间下钻、上卷和转轴,挖掘知识。用这种方法,用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式。

3     结合背景知识:可以使用背景知识或关于所研究领域的信息来指导发现过程,并使得发现的模式以简洁的形式,在不同的抽象层表示。关于数据库的领域知识,如完整性限制和演绎规则,可以帮助聚焦和加快数据挖掘过程,或评估发现的模式的兴趣度。

4     数据挖掘查询语言和特定的数据挖掘:关系查询语言(如 SQL)允许用户提出特定的数据提取查询。类似地,需要开发高级数据挖掘查询语言,使得用户通过说明分析任务的相关数据集、领域知识、所挖掘的数据类型、被发现的模式必须满足的条件和兴趣度限制,描述特定的数据挖掘任务。这种语言应当与数据库或数据仓库查询语言集成,并且对于有效的、灵活的数据挖掘是优化的。

5     数据挖掘结果的表示和显示:发现的知识应当用高级语言、可视化表示形式、或其它表示形式表示,使得知识易于理解,能够直接被人使用。如果数据挖掘系统是交互的,这一点尤为重要。这要求系统采用有表达能力的知识表示技术,如树、表、图、图表、交叉表、矩阵或曲线。

6     处理噪音和不完全数据:存放在数据库中数据可能反映噪音、例外情况、或不完全的数据对象。这些对象可能搞乱分析过程,导致数据与所构造的知识模型过分适应。其结果是,所发现的模式的精确性可能很差。需要处理数据噪音的数据清理方法和数据分析方法,以及发现和分析例外情况的局外者挖掘方法。

7     模式评估——兴趣度问题:数据挖掘系统可能发现数以千计的模式。对于给定的用户,许多模式不是有趣的,它们表示平凡知识或缺乏新颖性。关于开发模式兴趣度的评估技术,特别是关于给定用户类,基于用户的信赖或期望,评估模式价值的主观度量,仍然存在一些挑战。使用兴趣度度量,指导发现过程和压缩搜索空间,是又一个活跃的研究领域。

性能问题:这包括数据挖掘算法的有效性、可规模性和并行处理。

8     数据挖掘算法的有效性和可规模性:为了有效地从数据库中大量数据提取信息,数据挖掘算法必须是有效的和可规模化的。换一句话说,对于大型数据库,数据挖掘算法的运行时间必须是可预计的和可接受的。从数据库角度,有效性和可规模性是数据挖掘系统实现的关键问题。上面讨论的挖掘技术和用户交互的大多数问题,也必须考虑有效性和可规模性。

9     并行、分布和增量挖掘算法:许多数据库的大容量、数据的广泛分布和一些数据挖掘算法的计算复杂性是促使开发并行和分布式数据挖掘算法的因素。这些算法将数据划分成部分,这些部分可以并行处理,然后合并每部分的结果。此外,有些数据挖掘过程的高花费导致了对增量数据挖掘算法的需要。增量算法与数据库更新结合在一起,而不必重新挖掘全部数据。这种算法渐增地进行知识更新,修正和加强先前业已发现的知识。

关于数据库类型的多样性问题:

10    关系的和复杂的数据类型的处理:由于关系数据库和数据仓库已经广泛使用,对它们开发有效的数据挖掘系统是重要的。然而,其它数据库可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据、或事务数据。由于数据类型的多样性和数据挖掘的目标不同,指望一个系统挖掘所有类型的数据是不现实的。为挖掘特定类型的数据,应当构造特定的数据挖掘系统。这样,对于不同类型的数据,我们可能有不同的数据挖掘系统。

由异种数据库和全球信息系统挖掘信息:局域和广域(如 Internet)计算机网络连接了许多数据源,形成了大的、分布的和异种的数据库。从具有不同数据语义的结构的、半结构的、和无结构的不同数据源发现知识,对数据挖掘提出了巨大挑战。数据挖掘可以帮助发现多个异种数据库中的数据规律,这些规律多半难以被简单的查询系统发现,并可以改进异种数据库信息交换和协同操作的性能。Web 挖掘发现关于 Web 连接、Web 使用和 Web 动态情况的有趣知识,已经成为数据挖掘的一个非常具有挑战性的领域。

数据挖掘之面临的主要问题相关推荐

  1. 从概念到应用,终于有人把数据挖掘讲明白了

    作者:陈封能(Pang-Ning Tan).迈克尔·斯坦巴赫(Michael Steinbach)等 来源 | 大数据(ID: hzdashuju) [导语]数据采集和存储技术的迅速发展,加之数据生成 ...

  2. 【转】主要空间数据挖掘方法

    Source: http://jerry429.bokee.com/2993629.html 张新长 马林兵等,<地理信息系统数据库>[M],科学出版社,2005年2月 第二章第二节 空间 ...

  3. 数据挖掘:如何寻找相关项

    导读:随着大数据时代浪潮的到来数据科学家这一新兴职业也越来越受到人们的关注.本文作者Alexandru Nedelcu就将数学挖掘算法与大数据有机的结合起来,并无缝的应用在面临大数据浪潮的网站之中. ...

  4. 数据挖掘应用案例:RFM模型分析与客户细分(转)

    正好刚帮某电信行业完成一个数据挖掘工作,其中的RFM模型还是有一定代表性,就再把数据挖掘RFM模型的建模思路细节与大家分享一下吧!手机充值业务是一项主要电信业务形式,客户的充值行为记录正好满足RFM模 ...

  5. 数据挖掘与机器学习——数据挖掘概述

    挖掘是从大量的.不完全的.有噪声的.模糊的.随机的应用数据中,提取潜在且有用的信息的过程. 分析分析处理(On-Line Analytical Processing ,OLAP) 数据分析过程 确定知 ...

  6. 什么是数据挖掘?数据挖掘的目标是什么?

    数据挖掘绪论 什么是数据挖掘 数据挖掘要解决的问题是什么? 数据挖掘的任务 预测建模 关联分析 聚类分析 异常检测 什么是数据挖掘 并非所有的信息发现任务都被视为数据挖掘.例如,使用数据库管理系统查找 ...

  7. Web数据挖掘技术综述

    摘要:Web数据挖掘是目前数据挖掘领域中的一个很重要的研究领域,文章首先分析了Web数据挖掘所面临的问题,然后简要介绍了Web数据挖掘的几个分类,最后简单阐述了在Web2.0到来之时,Web数据挖掘所 ...

  8. 【数据挖掘】之 数据挖掘 绪论

    1.什么是数据挖掘 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程. 数据挖掘技术用来探查大型数据库,发现先前未知的有用模式.数据挖掘还可以预测未来观测结果. 并非所有的信息发现任务都被视为数 ...

  9. 《数据挖掘导论》- 读书笔记(2)- 绪论

    本文转载自:https://www.cnblogs.com/pythonMLer/p/5750608.html 第1章 绪论 数据挖掘是一种技术,将传统的数据分析方法和处理大量数据的复杂算法相结合.数 ...

最新文章

  1. axios的this指向_vue使用axios中 this 指向问题
  2. 个人博客二|创建项目
  3. django中判断当前user具有是否有对模块的增删改查权限
  4. python技术点总结_Python技术点总结,碰到问题再也不用慌了!
  5. java final bigd_【BigData】Java基础_常量
  6. CCNP-2 EIGRP试验2(BSCI)
  7. VULKAN学习资料
  8. 4月,诚邀你参加源码共读,学会看源码,打开新世界!开阔视野
  9. C++之用std::nothrow分配内存失败不抛异常
  10. Springboot2.x +JPA 集成 Apache ShardingSphere 同库分表
  11. 通过python基于netconf协议获取网络中网元的配置数据,助力企业网络控制自动化轻松实现!
  12. 字号大小对应表(字号换算磅值)
  13. 欧拉角与方向余弦矩阵之间的转换
  14. WICC | 为什么说中国「泛娱乐」出海绕不开这家公司
  15. css vw vh ie9,css3中calc、vw、vh、vmin、vmax 属性的应用及兼容性详解
  16. |poj 3237|树链剖分|线段树|Tree
  17. java 条形码_Java 生成、识别条形码
  18. angular项目中使用Primeng
  19. win10高危服务_Win10有哪些可以安全禁用的服务?Win10安全禁用服务
  20. 金蝶云苍穹集成,苍穹到eas审核反审核

热门文章

  1. 宜信财富:“蔚来”已来,互联网造车受青睐
  2. Java 输出数组的方法
  3. 钢化玻璃与普通膜的区别
  4. Matlab 中 global 函数实例解析
  5. Parse server 部署
  6. 3D-Lidar点云数据处理
  7. 卷积神经网络详解 - 卷积层逻辑篇
  8. [PTA]实验8-2-5 判断回文字符串
  9. Django简略开发流程
  10. APP专项测试:流量测试