数据挖掘过程模型研究
3. Nine-stepsModel
9步模型将数据挖掘过程分为了9步,从确定数据挖掘目标为起点,以实现知识的发现为结束。
7.执行数据挖掘算法。这一步开始启用数据挖掘算法,并且可能调整参数执行多次,直到得到满意的结果。
8.结果评价。依据第一步定义的目标进行模式的解释和评价。这一步得到的结果受到前面每一步的影响。重点关注模型的有用性和可理解性。得到的结果需要记录整理成文档,以便进行进一步的分析和使用。
通过以上9步就可以完成一个数据挖掘任务,整个过程是迭代的,非常灵活。如发现问题,可以跳到前面的步骤进行调整,以保证目标的实现。
4. SRISP-DM
CRISP-DM数据挖掘方法论用层次过程模型描述,包括四个抽象层次构成的任务集合:阶段、一般任务、具体任务和过程实例。
4.1.商业理解
4.1.1.确定商业目标
商业成功的标准:从商业角度来描述项目结果是成功或是有用的。标准要尽量具体并能被客观度量。
4.1.2. 环境评析
本任务涉及到更详细的当前各种条件的评估:资源、约束、假设及其它一些在确定数据分析目标和项目计划时也要考虑到的因素。在前一个任务中,目标的确定使得工程涉及的关键因素得以明确,在这一任务中,需要将其细化。
资源目录:列出项目可用的资源,包括:人员(业务专家、数据专家、技术支持人员、数据挖掘工程师等),数据(固定抽取的、从仓库获取等),计算资源(硬件平台)和软件(数据挖掘工具、其它相关软件)。
风险和费用:列出可能导致项目延期或失败的风险或事件,以及出现风险时,应该采取何种行动。列出费用计划。
术语:列出项目有关的术语表,包括商业有关的数据和数据挖掘有关的术语。
成本和收益:对项目进行成本和收益分析,比较项目成本与成功后带来的可能收益。比较应尽可能详细,可以采用货币金额进行比较。
4.1.3. 确定数据挖掘目标
商业目标是以商业术语描述的,而数据挖掘目标是以技术术语描述的项目目标。
数据挖掘目标:描述项目的预计输出,该输出使得商业目标得以实现。
数据挖掘成功标准:以技术术语定义项目结果成功的标准。如果必须以主观的方式来描述标准,那么应该说明哪些人做出这个判断。
4.1.4. 制定项目计划
本任务描述为达到数据挖掘目标而确定的计划。计划应详细列出项目后续期间需要完成的一系列步骤,包括最初对工具和技术的选择。
工具和技术的初步评估:要完成对工具和技术的初步评估。由于工具和技术的选择可能影响整个项目,因此需要早些做出评估。
4.2.数据理解
4.2.1. 收集原始数据
在项目范围内,列出所需的数据。联系相关部门,为理解数据收集样本数据。如果涉及多个数据源,数据整合会存在一定困难。
原始数据收集报告:列出获得的数据集,包括获得方式以及遇到的问题。记录问题的解决方案,便于后续类似工作的开展。
4.2.2.描述数据
数据描述报告:描述已获得的数据,包括数据格式、数据质量。比如各个表的字段数、主键、外键、记录总数等。评估是否满足要求。
4.2.3.探索数据
采用可视化报告的方式,对数据进行进一步分析。包括关键属性,属性间的关系,简单统计汇总结果,显著的聚类特征等。这些分析可能直接面向数据挖掘目标,也可能有助于撰写数据描述与质量报告,或者数据转换准备工作。
数据探索报告:说明初步的发现以及对项目后续阶段的影响。有可能的话,可以把揭示数据特征的图表写入报告,这些图表可能会引出令人感兴趣的数据子集,用来进一步分析。
4.2.4.检验数据质量
检查数据的质量,包括数据完整性、正确性,问题数据的占比。常见的数据问题有:数据没有覆盖全部的情况、存在空值或错误的值等。
数据质量报告:列出数据质量检验的结果,若存在问题,尽可能地提供解决办法。质量问题的解决办法通常很大程度上依赖于数据和商业知识。
4.3.数据准备
4.3.1. 选择数据
确定用于分析的数据。确定的标准包括:与数据挖掘目标的相关性、数据质量、技术限制。
包含/排除数据:列出采用和排除的数据,精确到属性(列)和记录(行)。
4.3.2.清洗数据
使用选择好的工具提升数据质量。涉及到数据清洗子集的选择、缺省值的插入、更高级的技术。
数据清洗报告:根据数据理解阶段由检验数据质量任务所报告的数据质量问题描述,提高数据质量。分析数据清洗的结果和潜在影响。
4.3.3.构造数据
该任务包括构造性的数据准备操作,比如派生属性、全新记录的生成活现有属性值的转换。
派生属性:派生属性是在同一记录中的一个或多个既有属性基础上构造出来的新属性。
生成记录:分析需要但现有数据又无法提供,而且从建模来看,可以逻辑清晰地生成该部分数据,那么可以采用生成数据的方式进行数据的补充。
4.3.4.整合数据
提供方法,从多个表或记录中组合生成新的信息,构造出新的记录或值。
合并数据:表合并是指把相同对象的两个或多个表合并在一起。合并数据也会涉及到聚合。聚合指通过汇总从多条记录或多个表的信息来计算新的值。
4.3.5.格式化数据
4.4.模型建立
4.4.1. 选择建模技术
建模的第一步是选择适用的建模技术。尽管在商业理解时,已经选择了工具,这里指的是具体的建模技术。若有多种技术可用,就按每种技术分别执行。
建模假设:很多建模技术需要对数据进行特殊的假设,比如属性具有相同的统计分布、没存在缺失值等。
4.4.2.生成测试设计
测试设计:完成训练、测试和评估模型的确定计划。计划主要是确定如何分割可用数据集为训练集、测试集和验证集,还有评价指标。
4.4.3.建立模型
参数设置:模型通常需要大量的参数调整。列出这些参数的含义和设置规则,以及最终的值。
4.4.4.评估模型
模型评估:列出全部建成模型的质量特性以及模型之间的质量等级比较次序。
修订参数设置:根据模型评估,修订参数设置以完成下轮建立模型的任务。通常需要反复地进行模型建立和评估,直到确信已找到最好的模型为止。在文档中记录下所有修订和评估。
4.5.评价
4.5.1. 评价结果
根据商业成功标准评价数据挖掘结果:使用商业成功标准对结果进行评价,包括项目是否满足既定的商业目标的最终声明。
核认模型:完成商业成功标准评价后,满足标准的模型即为被核准认可的模型。
4.5.2.重审过程
到这里似乎得到了令人满意的结果了。现在对项目合同做一个全面的重审,以确定是否有任何重要因素或任务被忽略了。重审也涉及到一些质量问题的确认。
过程的重审:概述过程重审并特别注明被忽略的活动或应该重复的活动。
4.5.3.确定下一步
根据评价的结果和过程重审,确定项目应该如何推进,需要决定是结束之前的阶段进入部署阶段还是继续重复前面的阶段,甚至创建新的数据挖掘项目。本任务也包括了影响决策的遗留资源和预算分析。
可能活动列表:列出潜在的进一步活动,并给出支持和反对的理由。
4.6.部署
模型的作用是从数据中找到知识,获得的知识需要以便于用户使用的方式重新组织和展现。根据需求,这个阶段需要产生数据挖掘报告,或是实现一个比较复杂的、可重复的数据挖掘过程。
4.6.1. 规划部署
为把数据挖掘结果部署到商业环境,本任务利用评估结果并给出部署的策略。如果某个一般性程序已经被认为可以创建相关模型,则为了后面的部署,要进行记录。
4.6.2.规划监控和维护
数据挖掘结果成为日常运作的商业及其环境的一部分时,监控和维护就成为重要问题。对维护策略的细致准备有助于避免数据挖掘结果长期被不正确地应用。为监控数据挖掘结果的部署,还需要一个详细的计划来监控过程。
监控和维护计划:描述监控和维护策略包括必要的步骤和如何执行这些步骤。
4.6.3.生成最终报告
项目即将结束,项目组提供最终报告。报告可能仅对历程进行概述,也可能是一份对数据挖掘结果的全面报告。
最终报告:关于数据挖掘项目合同的最终书面报告。列出可交付的成果。
4.6.4.回顾项目
经验文档:描述获得的重要经验,比如容易出错的地方、处理疑难问题的过程、数据挖掘技术的选择经验等。最好能有每个项目成员的经验报告。
5. 参考文献
www.crisp-dm.org,CRISP-DM 1.0
GuoShiRen,CRISP-DM数据挖掘指南
Steve Moyle,Collaborative Data Mining
Oded Maimon,Data Mining and Knowledge Discovery Handbook
数据挖掘过程模型研究相关推荐
- Web数据挖掘的研究现状及发展
1.Web挖掘概述 随着以数据库.数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,使海量数据不断产生.随之而来的问题是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息,更不用说有 ...
- 流程工业数据挖掘时滞研究
在之前的一篇博客中(工业大数据在铅粉机的应用),我提到的一个困扰我的问题:由于流程工业本身的特性,会产生时滞效应,比如:提高某工艺参数温度,这个效果是缓慢产生的,假设目标温度是300度,当前温度是40 ...
- 数据挖掘技术的来源、历史、研究内容及常用技术
数据挖掘技术的来源.历史.研究内容及常用技术 1 数据挖掘技术的由来 1.1网络之后的下一个技术热点 我们现在已经生活在一个网络化的时代,通信.计算机和网络技术正改变着整个人类和社会.如果用芯片集成度 ...
- 互联网数据挖掘与分析讲解
一.定义 数据挖掘(英语:Data mining),又译为资料探勘.数据采矿.它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤.数 ...
- 从概念到应用,终于有人把数据挖掘讲明白了
作者:陈封能(Pang-Ning Tan).迈克尔·斯坦巴赫(Michael Steinbach)等 来源 | 大数据(ID: hzdashuju) [导语]数据采集和存储技术的迅速发展,加之数据生成 ...
- 一位数据挖掘成功人士给数据挖掘在读研究生的建议
为什么80%的码农都做不了架构师?>>> 关于数据挖掘方面的研究,我原来也走过一些弯路.其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析.机器学习.人工 ...
- 【数据挖掘】数据挖掘简介
简介 人类正被数据淹没,却饥渴于知识.随着数据库技术的应用越来越普及,人们正逐步陷入"数据丰富,知识贫乏"的尴尬境地.知识信息的"爆炸"给人类带来莫大益处, ...
- 对服务器系统性能的诊断思路和方法,服务器端软件性能分析和诊断方法研究
摘要: 随着Internet的迅速发展,基于Web的应用越来越深入人们的工作和生活,许多传统的信息系统被移植到互联网上,电子商务等新的应用模式也在不断涌现,Web正以其广泛性.交互性.快捷性和易用性等 ...
- 数据挖掘应用现状与产品分析
数据挖掘应用现状与产品分析 高 敏 (新龙科技实业有限公司商业智能部 广州 510180) 摘要:数据挖掘技术的研究,极大地推动了相关行业的发展.目前,有关的学术讨论异常热烈 ...
最新文章
- Kataspace:用HTML5和WebGL创建基于浏览器的虚拟世界
- 【科研必备】保持高效论文写作的10个原则!
- [转载] 晓说——第21期:“看美国”系列之《日裔步兵团的奋战》
- WIN2003 下安装 WinWebMail 3.6.3.1
- 【c++】26.浅谈“事件驱动”、select、poll、epoll
- html不读取缓存,如何让前端浏览器不进行缓存
- python跳转到程序顶部_python-如何使Tkinter窗口跳到最前面?
- AIX配置Volumn
- 一个mysql可以存多少数据类型_mysql一张表到底能存多少数据?
- Oracle 修改表空间文件路径
- python绘制三维图散点图_python 绘制三维图形、三维数据散点图
- java 编程规范 check list
- 20个有用正则表达式
- BAT54C不断电源保护电路
- 转型只争朝夕!又一火电企业成立新能源公司
- 在EXCEL中的第二列如何排出第一列的名次
- 安装Office Visio 提示Office 16 Click-to-Run Extensibility Component
- 【Java】Java中空字符的写法
- 3DMax插件开发—可编辑多边形-多顶点统一坐标工具
- Excel:固定表头,冻结窗格,悬挂标题
热门文章
- Mac Time Machine恢复系统 Time Machine还原系统教程
- 一个合格的技术面试官是怎么样的?
- html表格右侧边距,HTML表格标记教程(10):单元格边距属性CELLPADDING
- 数产融合已成全球性经济趋势,广州如何打造领跑地位?
- 2023软工第三次作业-最长英语单词链
- xmpp 注册Registration
- 教师网络计算机研修培训总结,教师网络研修心得体会
- Java job interview:struts基于MVC的WEB开源框架解析
- MATROSKA文件格式之Segments学习
- 一款自动写文案的神器——西瓜树元引擎智能文案工具