第2章 数据

习题1:(中文版本翻译错误)统计人员说“是的,字段2和3也有不少问题”,应该翻译为“字段2和3表达了相同的意思”。  译者在翻译该句的时候承用了上句的“有意思,还有其他问题吗”,但是作者这里想表达的不仅仅是字段2和3有问题,而是字段2和3是一样的含义,具有冗余属性列。

习题2:难点主要体现在区分 区间(interval)和比率(ratio)属性。

区间属性:两个值之间的差是有意义的,比如温度,90°C比80°C高10°C。相对标称和序数属性,更具备数值的含义。

【An interval variable is a measurement where the difference between two values is meaningful. The difference between a temperature of 100 degrees and 90 degrees is the same difference as between 90 degrees and 80 degrees.】

比率属性:比率属性包含所有区间属性的性质,即一个属性如果是比率属性,那么它同时也是一个区间属性,但是反之则不成立。区分区间属性和比率属性的一个方法是: 看值0.0是否有意义,即使说0.0对比率比率属性来说表示什么都没有,而对区间来说,本身具有含义,如质量是一个比率属性,因为质量为0表示就是没有质量。但是PH         值,则不是比率属性,因为PH=0.0并不是没有酸度,相反PH=0.0具备最大的酸度。

【A ratio variable, has all the properties of an interval variable, and also has a clear definition of 0.0. When the variable equals 0.0, there is none of that variable. Variables like height, weight, enzyme activity are ratio variables. Temperature, expressed in F or C, is not a ratio variable. A temperature of 0.0 on either of those scales does not mean 'no temperature'. However, temperature in Kelvin is a ratio variable, as 0.0 Kelvin really does mean 'no temperature'. Another counter example is pH. It is not a ratio variable, as pH=0 just means 1 molar of H+. and the definition of molar is fairly arbitrary. A pH of 0.0 does not mean 'no acidity' (quite the opposite!). When working with ratio variables, but not interval variables, you can look at the ratio of two measurements. A weight of 4 grams is twice a weight of 2 grams, because weight is a ratio variable. A temperature of 100 degrees C is not twice as hot as 50 degrees C, because temperature C is not a ratio variable. A pH of 3 is not twice as acidic as a pH of 6, because pH is not a ratio variable.】

习题6:关键点——进行关联分析的元组的属性需要时二元属性,因此进行关联分析时,一个基础性活动是首先将属性转换成二元属性。

为什么需要二元化?有哪些属性二元化的方法?

数据挖掘导论(Pang-Ning Tan)习题记录相关推荐

  1. 《数据挖掘导论》Pangaea-Ning Tan 读书笔记 ----第五章 分类其他技术

    文章目录 第五章 分类:其他技术 5.1 基于规则的分类 5.1.1 基于规则的分类器的工作原理 5.1.2 规则的排序方案 5.2 最近邻算法(KNN) 无监督最近邻 KDTree和BallTree ...

  2. 数据挖掘导论Pangaea-Ning Tan 读书笔记——(第一,二,三章)

    <数据挖掘导论>Pang-Ning Tan ,Michael Steinbach,Vipin Kumar 读书笔记, 第一章 绪论 数据挖掘任务 预测任务 描述任务 分类任务 回归任务 聚 ...

  3. 《数据挖掘导论(完整版)》习题答案导航_补档

    英文版:英文 - pdf 中文版(识图翻译,质量较差):数据挖掘导论习题答案(中文版) - 百度文库 数据挖掘导论习题答案(中文版) - 道客巴巴 中文版(质量较好):中文_分章

  4. 【第1章】数据挖掘导论课后习题答案

    中文(翻译) 1.讨论下列每项活动是否是数据挖掘任务. 答案 (a)否. 这是一种简单的数据库查询. (b)否.这是一个会计计算,然后应用一个阈值.然而,预测一个新客户的盈利能力是数据挖掘. (c)否 ...

  5. 数据挖掘导论 复习一(介绍+数据预处理方法+定性归纳)

    数据挖掘=数据库+机器学习 算法 经验 模型 机器学习任务:分类.回归.聚类(KMeans.DCSAN.层次聚类).数据降维.数据预处理 常用分类器:KNN.贝叶斯. 逻辑回归 .决策树.随机森林 本 ...

  6. 《数据挖掘导论》学习笔记(第1-2章)

    本文主要是在学习<数据挖掘导论(完整版)>中的学习笔记,主要用来梳理思路,并没有多少思考,我尽量会在后期多弥补这方面的不足. 第1章 绪论 1.1 什么是数据挖掘 KDD: K nowle ...

  7. 《数据挖掘导论》学习笔记:第1-2章

    本文转载自:https://blog.csdn.net/u013232035/article/details/48281659 本文主要是在学习<数据挖掘导论(完整版)>中的学习笔记,主要 ...

  8. 北师范《计算机导论》在线作业,计算机导论教学指导与习题解答简介,目录书摘...

    编辑推荐: 根据教育部"高等学校计算机科学与技术专业规范"组织编写 与美国ACM和IEEE CS ComputingCurricula新进展同步 国家精品教材配套用书 ●提供了教材 ...

  9. 《数据挖掘导论》归纳笔记

    目录 第一章 绪论 第二章 数据 2.0引言 2.0.1数据类型 2.0.2数据的质量 2.0.3使数据适合挖掘的预处理步骤 2.0.4根据数据联系分析数据 2.1数据类型 2.1.1 属性与度量 2 ...

最新文章

  1. 5 个刁钻的 String 面试题!
  2. Kafka 2.8.0发布,与ZooKeeper正式分手!
  3. spring-data-redis 使用
  4. 深入浅出python机器学习_5.1.2_朴素贝叶斯的简单应用
  5. Shiro框架:授权流程、授权方式、Shiro授权入门程序、自定义Realm进行授权
  6. android 修改 dpi_鼠标DPI是什么意思?鼠标CPI和DPI之间区别知识科普
  7. SharedPreferences操作数据
  8. HTTP1.0、HTTP1.1 、SPDY、HTTP2.0之演变过程和优化
  9. python中unicode函数_中文字符 unicode转utf-8函数 python实现
  10. UNIX环境高级编程之第5章:标准I/O库
  11. HDU 3949 XOR (线性基第k小)题解
  12. Android完美适配dimens.xml脚本
  13. 使用通达信获取股票历史数据
  14. 项目管理ppt_干货:腾讯内部项目管理PPT!
  15. 每日简报 4月22日简报新鲜事 每天一分钟 了解新鲜事
  16. ndows 未能启动,Windows未能启动F8无效怎么办?
  17. EPICS -- pyDevice
  18. java反转函数_在JAVA中,下列哪个函数可用于字符串的反转?
  19. 服务器价格和性能,戴尔PowerEdge R715 性能与价格的平衡
  20. 《学习笔记56》—— python爬虫显示乱码 b‘\x1f\x8b\x08\x00\x00\x00\x00\x00\...‘

热门文章

  1. 散转程序c语言,单片机 散转表程序的使用
  2. fect:基于面板数据的因果推断(上)
  3. 后台管理系统项目-登录页-实现步骤
  4. 从备受质疑到业绩翻盘,这家少女装品牌为何能上演“命运大逆转”?
  5. ValueError: binary mode doesn‘t take an encoding argument
  6. 「全网最细」接口测试怎么测?接口测试的流程和步骤
  7. GIT回顾(持续更新)
  8. 为什么很多硅谷工程师偏爱 OS X,而不是 Linux 或 Windows
  9. java抽象类与final关键字的用法
  10. MAGIX Sequoia 15 v15.5 Windows 高级母带广播音频制作软件