数据挖掘导论(Pang-Ning Tan)习题记录
第2章 数据
习题1:(中文版本翻译错误)统计人员说“是的,字段2和3也有不少问题”,应该翻译为“字段2和3表达了相同的意思”。 译者在翻译该句的时候承用了上句的“有意思,还有其他问题吗”,但是作者这里想表达的不仅仅是字段2和3有问题,而是字段2和3是一样的含义,具有冗余属性列。
习题2:难点主要体现在区分 区间(interval)和比率(ratio)属性。
区间属性:两个值之间的差是有意义的,比如温度,90°C比80°C高10°C。相对标称和序数属性,更具备数值的含义。
【An interval variable is a measurement where the difference between two values is meaningful. The difference between a temperature of 100 degrees and 90 degrees is the same difference as between 90 degrees and 80 degrees.】
比率属性:比率属性包含所有区间属性的性质,即一个属性如果是比率属性,那么它同时也是一个区间属性,但是反之则不成立。区分区间属性和比率属性的一个方法是: 看值0.0是否有意义,即使说0.0对比率比率属性来说表示什么都没有,而对区间来说,本身具有含义,如质量是一个比率属性,因为质量为0表示就是没有质量。但是PH 值,则不是比率属性,因为PH=0.0并不是没有酸度,相反PH=0.0具备最大的酸度。
【A ratio variable, has all the properties of an interval variable, and also has a clear definition of 0.0. When the variable equals 0.0, there is none of that variable. Variables like height, weight, enzyme activity are ratio variables. Temperature, expressed in F or C, is not a ratio variable. A temperature of 0.0 on either of those scales does not mean 'no temperature'. However, temperature in Kelvin is a ratio variable, as 0.0 Kelvin really does mean 'no temperature'. Another counter example is pH. It is not a ratio variable, as pH=0 just means 1 molar of H+. and the definition of molar is fairly arbitrary. A pH of 0.0 does not mean 'no acidity' (quite the opposite!). When working with ratio variables, but not interval variables, you can look at the ratio of two measurements. A weight of 4 grams is twice a weight of 2 grams, because weight is a ratio variable. A temperature of 100 degrees C is not twice as hot as 50 degrees C, because temperature C is not a ratio variable. A pH of 3 is not twice as acidic as a pH of 6, because pH is not a ratio variable.】
习题6:关键点——进行关联分析的元组的属性需要时二元属性,因此进行关联分析时,一个基础性活动是首先将属性转换成二元属性。
为什么需要二元化?有哪些属性二元化的方法?
数据挖掘导论(Pang-Ning Tan)习题记录相关推荐
- 《数据挖掘导论》Pangaea-Ning Tan 读书笔记 ----第五章 分类其他技术
文章目录 第五章 分类:其他技术 5.1 基于规则的分类 5.1.1 基于规则的分类器的工作原理 5.1.2 规则的排序方案 5.2 最近邻算法(KNN) 无监督最近邻 KDTree和BallTree ...
- 数据挖掘导论Pangaea-Ning Tan 读书笔记——(第一,二,三章)
<数据挖掘导论>Pang-Ning Tan ,Michael Steinbach,Vipin Kumar 读书笔记, 第一章 绪论 数据挖掘任务 预测任务 描述任务 分类任务 回归任务 聚 ...
- 《数据挖掘导论(完整版)》习题答案导航_补档
英文版:英文 - pdf 中文版(识图翻译,质量较差):数据挖掘导论习题答案(中文版) - 百度文库 数据挖掘导论习题答案(中文版) - 道客巴巴 中文版(质量较好):中文_分章
- 【第1章】数据挖掘导论课后习题答案
中文(翻译) 1.讨论下列每项活动是否是数据挖掘任务. 答案 (a)否. 这是一种简单的数据库查询. (b)否.这是一个会计计算,然后应用一个阈值.然而,预测一个新客户的盈利能力是数据挖掘. (c)否 ...
- 数据挖掘导论 复习一(介绍+数据预处理方法+定性归纳)
数据挖掘=数据库+机器学习 算法 经验 模型 机器学习任务:分类.回归.聚类(KMeans.DCSAN.层次聚类).数据降维.数据预处理 常用分类器:KNN.贝叶斯. 逻辑回归 .决策树.随机森林 本 ...
- 《数据挖掘导论》学习笔记(第1-2章)
本文主要是在学习<数据挖掘导论(完整版)>中的学习笔记,主要用来梳理思路,并没有多少思考,我尽量会在后期多弥补这方面的不足. 第1章 绪论 1.1 什么是数据挖掘 KDD: K nowle ...
- 《数据挖掘导论》学习笔记:第1-2章
本文转载自:https://blog.csdn.net/u013232035/article/details/48281659 本文主要是在学习<数据挖掘导论(完整版)>中的学习笔记,主要 ...
- 北师范《计算机导论》在线作业,计算机导论教学指导与习题解答简介,目录书摘...
编辑推荐: 根据教育部"高等学校计算机科学与技术专业规范"组织编写 与美国ACM和IEEE CS ComputingCurricula新进展同步 国家精品教材配套用书 ●提供了教材 ...
- 《数据挖掘导论》归纳笔记
目录 第一章 绪论 第二章 数据 2.0引言 2.0.1数据类型 2.0.2数据的质量 2.0.3使数据适合挖掘的预处理步骤 2.0.4根据数据联系分析数据 2.1数据类型 2.1.1 属性与度量 2 ...
最新文章
- 5 个刁钻的 String 面试题!
- Kafka 2.8.0发布,与ZooKeeper正式分手!
- spring-data-redis 使用
- 深入浅出python机器学习_5.1.2_朴素贝叶斯的简单应用
- Shiro框架:授权流程、授权方式、Shiro授权入门程序、自定义Realm进行授权
- android 修改 dpi_鼠标DPI是什么意思?鼠标CPI和DPI之间区别知识科普
- SharedPreferences操作数据
- HTTP1.0、HTTP1.1 、SPDY、HTTP2.0之演变过程和优化
- python中unicode函数_中文字符 unicode转utf-8函数 python实现
- UNIX环境高级编程之第5章:标准I/O库
- HDU 3949 XOR (线性基第k小)题解
- Android完美适配dimens.xml脚本
- 使用通达信获取股票历史数据
- 项目管理ppt_干货:腾讯内部项目管理PPT!
- 每日简报 4月22日简报新鲜事 每天一分钟 了解新鲜事
- ndows 未能启动,Windows未能启动F8无效怎么办?
- EPICS -- pyDevice
- java反转函数_在JAVA中,下列哪个函数可用于字符串的反转?
- 服务器价格和性能,戴尔PowerEdge R715 性能与价格的平衡
- 《学习笔记56》—— python爬虫显示乱码 b‘\x1f\x8b\x08\x00\x00\x00\x00\x00\...‘
热门文章
- 散转程序c语言,单片机 散转表程序的使用
- fect:基于面板数据的因果推断(上)
- 后台管理系统项目-登录页-实现步骤
- 从备受质疑到业绩翻盘,这家少女装品牌为何能上演“命运大逆转”?
- ValueError: binary mode doesn‘t take an encoding argument
- 「全网最细」接口测试怎么测?接口测试的流程和步骤
- GIT回顾(持续更新)
- 为什么很多硅谷工程师偏爱 OS X,而不是 Linux 或 Windows
- java抽象类与final关键字的用法
- MAGIX Sequoia 15 v15.5 Windows 高级母带广播音频制作软件