所谓数据挖掘就是从海量的数据中,找到隐藏在数据里有价值的信息。因为这个数据是隐式的,因此想要挖掘出来并不简单。那么,如何进行数据挖掘呢?数据挖掘的步骤有哪些呢?一般来讲,数据挖掘需要经历数据收集、数据可视化、数据预处理、准备模型输入以及训练模型五大步骤,下面让中琛魔方来详细分析一下吧!

  数据挖掘的步骤:

  第一步:数据收集

  通俗来讲,我们把数据挖掘可以看作是想要炒一盘可口的菜肴。那么,首先第一步就是去菜市场买菜。同样的,我们要从数据中找到需要的信息,第一步就是收集数据。

  第二步:数据可视化

  就好比你去买菜的时候,肯定要好好挑选一下,争取买到比较新鲜的蔬菜。同样的,数据挖掘的第二个步骤,就是再有了数据之后,还要看看拿来的数据长啥样。因此,我们可以利用各种可视化库来观察一下数据的内容,比如matplotlib或seaborn。

  第三步:数据预处理

  买完菜回到家我们要做的就是洗菜,把附着的泥土和残枝烂叶去掉,不然会影响我们的口感。通过上一步的可视化,我们可以发现数据里面有没有“残枝烂叶”,也就是我们说的异常值。异常值包括格式有问题的数据,例如年龄信息填的不是数字,或者信息根本就不符合逻辑,比如年龄填的200岁。

  大家填过各种调查问卷吧?很多人在填写的时候,遇到那些不是必须填的地方一般都会空着不填。这就导致数据集里除了异常值,还有一个经常会遇到的就是缺失值。我们也会通过一些手段来弥补一下这些空缺。就好比我们把蔬菜清洗干净之后,还要选择一下是不是所有的菜我们都需要呢?想吃蔬菜的可以多放蔬菜,想吃肉的就多放些肉。所以我们还需要在数据里选择出来跟我们的任务相关的特征,这个过程叫做特征选择。

  第四步:准备模型输入

  我们此时案板上放着我们洗干净和挑选出来的蔬菜,下一步就是切菜了。毕竟炒土豆丝也没有把一整个土豆直接放锅里的。所以我们要对这些蔬菜,也就是数据,进行一个转化。这个过程我们运用到独热编码和分桶,分别是对离散型数据和连续型数据的处理方式。

  第五步:训练模型

  最后一步就是炒菜啦。我们的模型就是不同种类的锅,在数据挖掘中常见的模型翻来覆去就那么几个,比如决策树,逻辑回归,梯度提升树,k-means等。一般来讲,比较有代表性的两个模型是逻辑回归和决策树,可以预测“是否会幸存”。其他的模型只是内部原理不同,但使用方法都是一样的。大家在进行数据挖掘的时候,也可以选择若干模型,最后看看结果分别都怎么样,对比一下谁比较强。

  以上就是数据挖掘比较详细的步骤分析。数据挖掘是使用模式识别逻辑来识别样本数据集中的趋势,并根据更大的数据池推断这些信息,而数据仓库是提取和存储数据以便于报告的过程。

数据挖掘的步骤有哪些相关推荐

  1. 数据挖掘的步骤有哪些?

    所谓数据挖掘就是从海量的数据中,找到隐藏在数据里有价值的信息.因为这个数据是隐式的,因此想要挖掘出来并不简单.那么,如何进行数据挖掘呢?数据挖掘的步骤有哪些呢?一般来讲,数据挖掘需要经历数据收集.数据 ...

  2. 数据分析数据挖掘的步骤

    数据挖掘主要包括以下几个步骤: 1.定义挖掘的目的 [目的] 清楚挖掘的目的是什么? 想要达到的目的是什么? 2.数据取样 [目的]抽取与挖掘目的相关的数据集 抽取数据标准 相关性 可靠性 完整性 有 ...

  3. 如何建立有效的数据挖掘步骤

    数据挖掘基本步骤,数据挖掘过程定义问题.建立数据挖掘库.分析数据.准备数据.建立模型.评价模型和实施.挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策.接下来就一起具体来了解下吧! ...

  4. 大数据中数据挖掘的基本步骤

    数据挖掘基本步骤,数据挖掘过程定义问题.建立数据挖掘库.分析数据.准备数据.建立模型.评价模型和实施.挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策. 数据挖掘是什么 数据挖掘指从 ...

  5. 数据挖掘方法论及实施步骤

    转载自开心玩数据 1.业界数据挖掘方法论 2.在工作中,我们进行数据挖掘实施指导方法: 应用建模的八步法:业务理解.指标设计.数据提取.数据探索.算法选择.模型评估.模型发布.模型优化 步骤一:业务理 ...

  6. sklearn输出模型参数_如何使用sklearn优雅地进行数据挖掘?

    关注上方"数据挖掘工程师",选择星标, 关键时间,第一时间送达! 文章来自:天池大数据科研平台 一.使用sklearn数据挖掘 ‍‍ 1.数据挖掘的步骤 数据挖掘通常包括数据采集, ...

  7. 数据挖掘:一个end2end完整实例

    这里展示一个完整的数据挖掘实例,以供参考.数据挖掘是为了从数据中挖掘出有用的信息,提供决策依据,data driven decision making,而不是people driven或者boss d ...

  8. 如何使用 sklearn 优雅地进行数据挖掘?

    文章来自:天池大数据科研平台 一.使用sklearn数据挖掘 ‍‍ 1.数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤.显然,这不是巧合,这正是sklearn的 ...

  9. 转载:使用sklearn进行数据挖掘

    目录 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术 2 并行处理 2.1 整体并行处理 2.2 部分并行处理 3 流水线处理 4 自动化调参 5 持久 ...

最新文章

  1. Nature子刊:厌氧消化链球菌促进结直肠癌发生及调节肿瘤免疫
  2. ExtJs与JavaScript的call方法
  3. 自动驾驶汽车想成为主流?先过了这十二关再说
  4. js——页面回到顶部
  5. 关于程序员的办公室哲学
  6. python序列中是否包含某个元素
  7. CSS3: Media Query实现响应式Web设计
  8. 小程序 redux_Redux应用程序最重要的ESLint规则
  9. 树莓派学习之路-GPIO Zero
  10. php用vscode开发,VSCode PHP开发
  11. xpdf 打开 chinapub中文pdf
  12. linux 查看网口实时流速_Linux查看实时带宽流量情况
  13. SiamRPN++理解
  14. 电脑常见故障处理,详细教您电脑的常见问题及处理方法
  15. 如何精确计算 LoRaWAN 终端电池寿命
  16. 在SSH会话中如何实现 X11 Forwarding
  17. Web——HTML常见标签及用法
  18. html去除图片背景颜色,canvas实现图片背景色去色变透明 » 张鑫旭-鑫空间-鑫生活...
  19. MP-SPDZ详细介绍
  20. M1 pod install CocoaPod 报错解决办法

热门文章

  1. 不重启mysqld更改root密码
  2. C/C++之strcpy功能实现
  3. API各函数作用简介
  4. HDOJ 2035 人见人爱A^B
  5. Vue模板,数据和指令
  6. 协方差矩阵、相关矩阵、相关函数的联系与区别
  7. np.roll的作用
  8. .NET面试题系列(二十)XX
  9. js正则表达式——数字校验
  10. iOS视频边下载边播放