本文目的
最近在看《数据挖掘导论》,此书作为此领域的入门书籍,很有口碑。这几天抽业余时间,看了第二章,觉得该记点什么,否则对不起自己。人总在与遗忘作斗争,好记性不如烂笔头。
主要内容
本章节主要讨论了数据处理的4个主要方面:
  • 数据类型
  • 数据质量
  • 数据预处理
  • 相似度测量
数据类型(Type of Data)
定义数据的属性,记录,数据集。
属性的类型分为4种
  • 名称(Noimal):仅仅只是名称,用来区分不同记录,一一对应,如ID
  • 有序(Ordinal):可以理解为计算机语言中枚举类型,有序,有限
  • 区间(Interval):数字区域,主要用于加减运算,如时间,日期
  • 比例(Radio):计算比例,主要用于乘除运算。
数据集的类型

  • 记录:类似表格,矩阵
  • 图:节点和关联组成的数据,典型的例子是网页和网页中的连接。图论。
  • 时序:按时间排列,带有时间属性的数据集。
数据资粮(Data Quality)
主要介绍了如何度量数据的质量,精度,如何处理错误的数据,异常的数据,不一致的数据等,说的比较笼统,主要还是介绍概念和一些简单的实践方法,如去掉一些不符合要求的数据等等。
数据预处理(Data Preprocess)
这一章介绍了集中常见的数据处理方法,涉及到数理统计与线性代数相关的知识,有些公式和方法需要查阅相关书籍,才能明白,本书也只是提到了使用场景,没有讨论推导过程。主要预处理的技术有如下:
  • 聚合(Aggregation):将分散的数据聚合成一起,减少数据量,如统计商品的销售额,可以讲流水中每一笔的销售情况按照天,月的方式合并起来,这样可以大大介绍数据量。
  • 采样(Sampling):统计学得方法,采样的最大好处是可以大大减少数据集大小,但是关键点是如何以最小的样本数来获得最具代表的样本集。一般方法有随机采样,或根据权重采样。
  • 降维(Dimensionaity Reducetion):线性代数的方法--PCA(主成分分析)和SVD(奇异值分解)
  • 选取子属性集(Feature Subset Selection):选取问题最相关的属性,去掉无用属性,如ID
  • 创造属性:傅里叶分析
  • 离散化和二进制化:运用熵,离散化连续的值
  • 变量转换:函数,规范化,标准化
相似性测量
个人认为本节是本章中最实用的一章,因为后续的很多章节的分析都是基于数据间的相似度来进行的,比如聚类分析。
欧式距离:集合距离的n维向量空间的扩展
Minkowski Distance:距离的范式表示
Jaccrd 距离:用于计算稀疏的0-1向量之间的距离
余弦定理:用于计算稀疏的非0-1i向量的距离,如果向量的莫需要考虑,那么可以采用欧式距离。0元素对相似性不做贡献
相关系数(Pearson系数):计算两个向量的相关性,可以用非稀疏举证,0元素对相似性做出贡献
相似度可以放到一些单调递减的函数,用来度量相异性。
比如,上述方法用于统一余弦值和欧式距离。余弦值越大,越相似。但是欧式距离越大,越相异。所以可以任选一个,通过一个简单的单调递减函数来转换,使两者的值表述一致(要么越大越相似,要么越小越相似),这样就可以原封不动的运用的同一个算法中,比如作为hierarchical cluster中的距离公式。
一点思考
上面流水账式的记录了第二章的大概,现在对数据处理已经有了大概的认识。以前虽然灭有明确的这个步骤,但是在一些地方见过。比如weka中有一块专门的地方用于数据预处理。自己在工作中,实现的聚类时,数据初始化时,其实也是在数据与处理,所以实际上本章的内容并不陌生,只是跟全面更广的了解的相关知识。
同时,发现线性代数,数理统计在数据挖掘中的应用还是比较多的,后续要抽点时间捡起相关的知识。
吐槽:好不容易从老婆那里要过来的两个小时的上机时间,终于完成了这篇blog,看来是要买个pad了,一台机器是在hold不住。

数据挖掘学习07 - 《数据挖掘导论》第二章:数据相关推荐

  1. 软考网络管理员学习笔记2之第二章数据通信基础

    第二章.数据通信基础 1.奈奎斯特定理与香农理论 [考法分析] 奈奎斯特定理是理想情况下,求数据速率 香农理论是在受到噪声干扰后,求数据速率 [要点分析] 看题目中是否提及到噪声或信噪比等关键词 如果 ...

  2. 计算机科学导论第二章,计算机科学导论第二章.doc

    计算机科学导论第二章.doc (2页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 3.9 积分  第二次作业 2.1 数值数据1. 计算机只识别二进制编 ...

  3. 计算机导论重写算法,计算机导论第二章.ppt

    <计算机导论第二章.ppt>由会员分享,可在线阅读,更多相关<计算机导论第二章.ppt(66页珍藏版)>请在人人文库网上搜索. 1.1.第二章计算机系统的组成2.1四个功能部件 ...

  4. 统计机器学习导论第二章答案

    R语言学习笔记 统计机器学习导论第二章部分习题 文章目录 R语言学习笔记 一.8题 8. This exercise relates to the College data set, which ca ...

  5. 计算机导论免费阅读 小说,计算机导论第二章.ppt

    计算机导论第二章.ppt (66页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 19.90 积分 第二章 计算机系统的组成 2.1 四大功能部件 2.2 ...

  6. ASP.NET3.5 企业级项目开发 -- 第二章 数据访问层(DAL)的开发

    为什么80%的码农都做不了架构师?>>>    ASP.NET3.5 企业级项目开发 -- 第二章 数据访问层(DAL)的开发          前言:本篇主要讲述数据访问层的开发, ...

  7. 第二章 数据的表示和运算 2.1.2 BCD码 [计算机组成原理笔记]

    第二章 数据的表示和运算 2.1.2 BCD码 本笔记参考书目: 计算机组成原理(第六版.立体化教材)白中英.戴志涛 2021王道计算机组成原理视频公开课 本节重点: 8421/2421/余3码 转载 ...

  8. 计算机组成原理第二章数据,计算机组成原理第二章数据在计算机中的表示

    计算机组成原理第二章数据在计算机中的表示 (91页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 14.90 积分 第二章 数据在计算机中的表示 n 概述 ...

  9. 信息学奥赛一本通(C++版)第二部分 基础算法 第二章 数据排序

    第二章 数据排序 T1310 : 车厢重组 时间限制: 1000 ms 内存限制: 65536 KB [题目描述]   在一个旧式的火车站旁边有一座桥,其桥面可以绕河中心的桥墩水平旋转.一个车站的职工 ...

  10. 第二章 数据的表示和运算 2.1.6 循环冗余校验码/CRC码 [计算机组成原理笔记]

    第二章 数据的表示和运算 2.1.6 循环冗余校验码/CRC码 本笔记参考书目: 计算机组成原理(第六版.立体化教材)白中英.戴志涛 2021王道计算机组成原理视频公开课 本节重点: 循环冗余校验码/ ...

最新文章

  1. js在线压缩工具 支持Base62 encode 和 Shrink variables
  2. Blockchain技术之区块链的应用领域——智能合约
  3. PHP如何添加变量 $_SERVER
  4. java mysql 异步查询数据库_java 异步操作数据库
  5. Launcher结构之home screen
  6. 在MATLAB R2020a中设置m文件的字体大小
  7. Oracle触发器5-Instead of触发器
  8. OpenSSL历史版本整理
  9. 步步为营 .NET 代码重构学习笔记 十四
  10. 欠采样临界采样matlab,信号临界采样、过采样、欠采样实验报告.doc
  11. 量子计算机原理 纠缠,白话量子计算机原理【前面的那个有错误,重新理清了一下思路】...
  12. WinPE (老毛桃最终修改版) V09.11 硬盘安装操作系统详细图解
  13. 算数-02-史丰收算法
  14. 游戏挂机还开着电脑?那就真的out了!
  15. PS 如何制作Vista的毛玻璃效果
  16. 作为SLAM中最常用的闭环检测方法,视觉词袋模型技术详解来了
  17. PHP上传文件大小限制大全
  18. 汉语属于哪个语系_汉语,日语,韩语分别属于什么语系?
  19. Office Tool Plus 下载使用 365 2021/2019等版本
  20. Android集成bilibili播放器以及弹幕

热门文章

  1. relu函数_激活函数解析:Sigmoid, tanh, Softmax, ReLU, Leaky ReLU
  2. ioinic 怎样配置 android sdk,NiceFish-ionic: 这是一个移动端项目,示范Angular移动端组件库Ionic的基本用法,基于Ioinic 2.0,已支持PWA。...
  3. yum mysql 无法启动失败_Linux下MySQL数据库yum升级后无法启动解决办法
  4. c语言 intptr_t
  5. chmod命令的用法
  6. Android报错:IllegalStateException: The specified child already has a parent问题解决办法
  7. Futter基础第13篇: 实现Drawer侧边栏、以及侧边栏内容布局
  8. ecshop实现弹出登录框
  9. java基础 内部类详解
  10. GeoServer地图开发解决方案(二):地图数据处理篇