第一章

一、填空题

1.对原始数据进行有效的__清洗___是大数据分析和应用过程中的关键环节。

2.数据质量的评价指标有准确性 ___完整性_____、简洁性、___适用性_____。

3.数据质量的问题可以分为两类,分别是__基于数据源的脏数据分类___________和基于清洗方式的脏数据分类。

4.____数据清洗__________技术是提高数据质量的有效方法。

5.常见的数据质量问题主要包括缺失值、___重复值_______以及错误值等问题。

二、判断题

1.(×)若直接使用原始数据的话,不会影响数据决策的准确性和效率。

2.()从数据清洗方式的设计者角度来看,可以将脏数据分为“独立型脏数据”和“依赖型脏数据”两类。

3.(×)依赖型脏数据主要包括缺失数据和拼写错误数据等脏数据。

4.(×)数据清洗目的是要是将“脏数据”洗掉。

5.()基于数据源的脏数据分类的数据质量问题可以分为单数据源问题和多数据源问题。

三、选择题

1.C下列选项中,哪个才是评价数据质量的核心准则?

A.完整性

B.准确性

C.适用性

D.简洁性

2.ABCD下列策略中,哪个策略属于一般的数据清洗策略?

A.手工清洗

B.自动清洗

C.特定应用领域

D.与特定应用领域无关

3.C下列说法中,关于清洗重复值说法正确的是。

A.清洗重复值的基本思想是“分而合之”。

B.清洗重复值的基本思想是“排序”。

C.清洗重复值的基本思想是“排序和合并”。

D.清洗重复值的基本思想是“合并”。

第二章

一、填空题

1.__ETL__是实现商务智能(Business Intelligence,即BI)的核心和灵魂。

2.ETL是将业务系统的数据经过抽取、_清洗转换__之后加载到数据仓库的过程。

3. ETL的实现有多种方式,常见方式有借助ETL工具、编写SQL语句、将ETL工具和SQL语句结合使用

4.数据的抽取分为数据的全量抽取和数据的增量抽取

5.不符合要求的数据主要有不完整的数据、错误的数据 、重复的数据三大类。

二、判断题

1.()基于ETL的数据清洗是挖掘有价值数据的一种方案。

2.(×)如果数据源为外部文件,可使用SQL语句进行数据清洗工作。

3.(×)不完整数据主要包括日期越界的数据。

4.()重复数据检测主要分为基于字段和基于记录的重复检测。

5.(×)Kettle是一款国外免费开源的ETL工具,纯Python语言编写。

三、选择题

1.D下列方式,哪个不属于增量抽取的?

A.触发器方式

B.时间戳方式

C.全表比对方式

D.批量抽取方式

2.A下列算法中,哪个算法不可用于检测重复记录?

A.编辑距离算法

B.优先队列算法

C.N-Gram 聚类算法

D.排序邻居算法

第三章

一、填空题

1.__Kettle_是一款国外免费开源的轻量级ETL工具。

2.Kettle可以在Windows、Linux 、Unix系统上运行,并且是绿色无需安装的。

3.Kettle的集成开发环境Spoon提供了一个基于SWT的图形用户界面,主要用于ETL的开发。

4.一个数据抽取过程主要包括创建一个作业,并且每个作业可以包括多个转换操作。

5.转换中的步骤是通过来连接的。

二、判断题

1.()Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。

2.(×)Kettle中,一个作业只包含一个作业项。

3.(×)转换跳是作业项之间的连接线,它定义了作业的执行路径。

4.(×)定义一个Kettle的数据库连接,是要真正打开一个到数据库的连接。

5.()作业执行的顺序由作业项之间的跳和每个作业项的执行结果来决定。

三、选择题

1.C下列设计原则,哪个不属于Kettle的设计原则?

A.避免自定义开发

B.灵活的数据通道

C.可维护性与可扩展性的原则

D.只映射需要映射的字段

2.D下列类别,哪个不属于作业管理?

A.邮件

B.文件管理

C.条件

D.应用

3.ABCD下列组件中,哪个组件属于Kettle工具?

A.Spoon

B.Pan

C.Kitchen

D.Carte

第四章

一、填空题

1.在实际应用中,常用的文本文件类型有两种,分别是TSV文件和CSV文件文件。

2.制表符文件中的数据是以表格的结构进行储存。

3.使用逗号分隔数据字段的文件被称为逗号分隔值文件。

4.HTML可以以文档的形式展示,HTML文档中包含标签 和纯文本。

5. JSON 是一种轻量级的数据交换格式。

二、判断题

1.(×)XML是一种和HTML完全相同的标记语言。

2.(×)JSON是一种编程语言。

3.()通过制表符分隔的文本数据与未使用制表符分隔的数据相比,前者更便于观察识别,同时也方便对数据进行抽取操作。

4.()CSV文件是以纯文本形式存储表格数据(数字和文本)。

5.(×)NoSQL是No! SQL的缩写。

三、选择题

1.B下列实现原则中,哪个不属于CSV的实现原则?

A.文件开头不能留空,以“列”为单位

B.在文件读写时,引号和逗号操作规则不可互逆

C.文件中不支持数字或特殊字符

D.文件中的一行数据不能跨行,但是行与行间可存在空行

2.D下列关于XML用途的说法中,哪个说法是正确的?

A.XML不可将数据从HTML中分离

B.XML无法简化数据共享

C.XML无法使数据充分利用

D.XML可用于创建新的互联网语言

3.B下列数据库中,哪个数据库属于非关系型数据库?

A.MySQL

B.MongoDB

C.Oracle

D.SQL Server

第五章

一、填空题

1.常见的数据清洗操作包括重复值的处理、缺失值的处理  、异常值的处理。

2.数据缺失分为两种,分别是行记录的缺失和 数据列值的缺失

3.异常值的检测方法通常分为三大类,即无监督式异常值的检测 、监督式异常值的检测以及半监督式异常值的检测

4.数据的一致性有三种类型,即强一致性、 弱一致性以及最终一致性。

5.修补异常值的方式主要有两种,即 修改异常值 和替换异常值。

二、判断题

1.(×)完全去重指的是消除不完全重复的数据。

2.(×)缺失值产生的原因主要是人为原因。

3.()箱型图又称为箱线图,是一种用于显示一组数据分散情况的统计图。

4.(×)数据一致性是指在对一个副本数据进行更新的同时,无需确保也能够更新到其他的副本。

5.(√)检查数据都必须遵守预定义的业务规则,找出不符合业务规则的数据。

三、选择题

1.C下列方法中,哪个方法不是填充缺失值的方法?

A.均值填充

B.热卡填充

C.3σ准则

D.回归填充

2.A下列规范中,为了提高数据的可读性及合理性,企业会要求数据遵守哪些规范?

A.电子邮箱的地址必须是有效的格式

B.用户的年龄必须小于18岁

C.数值可超过预定义的值

D.电话号码无须是xxx-xxxx-xxxx的格式

3.D下列策略中,哪个策略不属于修改异常值的策略?

A.最邻近值替代异常值

B.均值替代异常值

C.众数替代异常值

D.异常值替换成缺失值

第六章

一、填空题

1.___数据转换_____是数据清洗过程的重要步骤之一。

2.不一致数据转换主要是将不同业务系统中的相同类型的数据进行统一。

3. 一般情况下,会将业务系统数据按数据仓库粒度进行聚合,这个过程被称为数据粒度的转换    

第七章

一、填空题

1.数据的加载机制可以分为全量加载  和增量加载。

2.增量加载是指目标表仅加载源数据表中新增和发生变化  的数据。

3.当数据迁移量过于庞大时,需要针对数据采取批量加载  操作。

数据清洗(黑马程序员)课后题答案选择填空判断相关推荐

  1. 《Android移动应用基础教程》(Android Studio)(第二版)黑马程序员 课后习题答案

    <Android移动应用基础教程>(Android Studio)(第二版)黑马程序员 课后习题答案 目录 第1章 Android基础入门 第2章 Android常见界面布局 第3章 An ...

  2. 【传智播客】Javaweb程序设计任务教程 黑马程序员 课后答案【合集】

    [传智播客]Javaweb程序设计任务教程 黑马程序员 第一章 课后答案 [传智播客]Javaweb程序设计任务教程 黑马程序员 第二章 课后答案 [传智播客]Javaweb程序设计任务教程 黑马程序 ...

  3. 软件测试黑马程序员课后答案_软件测试课后习题答案

    软件测试课后习题答案 [篇一:软件测试基础习题及答案] > 软件测试是一个过程或者一系列过程,用来确认计算和代码完成了 其应该完成的功能,并且不执行其不应该有的操作. 2 .软件测试的目标是什么 ...

  4. 尚学堂百战程序员1573题---答案总结第一章 初识Java

    第一章 初识Java 1. 你学习编程的目的是什么?学习编程最快的办法是什么? 答:我觉得的我喜欢计算机,我认为计算机是一个很神奇的东西,所以我要学计算机专业,同时,我认为学计算机学编程是一个比较容易 ...

  5. 软件测试黑马程序员课后答案_软件测试技术课后答案

    软件测试技术课后答案 [篇一:软件测试习题答案] 测试的目的是 ( ). a) 试验性运行软件 b) 发现软件错误 c) 证明软件正确 d) 找出软件中全 部错误 2. 软件测试中白盒法是通过分析程序 ...

  6. 软件测试黑马程序员课后答案_软件测试教程课后答案

    软件测试教程课后答案 [篇一:软件测试习题答案] > 一.简答题和应用题: 1 测试人员面试题 01 .为什么要在一个团队中开展软件测试工作? 因为没有经过测试的软件很难在发布之前知道该软件的质 ...

  7. 软件测试黑马程序员课后答案_软件测试课后答案

    软件测试课后答案 第一章 引论 3 .软件测试与开发的关系就是怎样的?为什么这么说? 答 : 软件测试与软件开发构成一个全过程的交互.协作之关系 , 两者自始至终一起工 作 , 共同致力于同一个目标 ...

  8. 《Java基础入门第2版》--黑马程序员 课后答案及其详解 第6章 集合

    文章目录 一.填空题 二.判断题 三.选择题 四.简答题 五.编程题 六.原题及其解析 一.填空题 1.Comparator 2.hashNext().next() 3.键.值 4.ArrayList ...

  9. 《Java基础入门第2版》--黑马程序员 课后答案及其详解 第5章 Java中的常用类

    文章目录 一.填空题 二.判断题 三.选择题 四.简答题 五.编程题 六.原题及其解析 一.填空题 1. String.StringBuffer 2. Date.Calendar.DateFormat ...

最新文章

  1. kafka 批量 回写mysql_kafka往mysql写数据操作笔记
  2. FuseSeg:用于自动驾驶领域的RGB和热成像数据融合网络
  3. EntityFramework:状态变化与方法的关系
  4. CUDA support is required (OpenCV CMake parameter ‘WITH_CUDA‘ must be true).
  5. python【Pandas科学计算库】连女朋友都会用的Pandas(真の能看懂~!)
  6. JAVA 对象序列化(二)——Externalizable
  7. 一个毕设的建成——记录下我毕设途中的《SOP》
  8. springboot 订单重复提交_瞬间几千次的重复提交,我用Spring Boot+Redis扛住了
  9. (六)Netty网络编程应用实例-群聊系统
  10. 20160403_C++初始化列表与赋值
  11. EDA技术实用教程 | 复习五 | 端口模式
  12. easyui酷黑风格主题模板组件html
  13. 手机点餐小程序怎么弄_分享点餐小程序制作教程
  14. Speedoffice(Excel)怎么把边框线条加粗
  15. 19年1月尔雅移动互联网时代的信息安全与防护考试答案(96分)
  16. 20年研发管理经验谈(十七)(终结)
  17. 多校HDU.5724 Chess
  18. 指甲半月痕 血象和微量元素检查分析是否有贫血
  19. 因特网中的域名服务器系统负责全网IP,因特网中的域名服务器系统负责全网IP地址的解析工作,它的好处是()...
  20. Unity实现植物识别示例详解

热门文章

  1. 多频外差法(三频四相)理论及代码
  2. 食品生产车间温湿度监控系统
  3. java 分糖果游戏 蓝桥杯
  4. 二手房房价数据分析与探索
  5. Python破解WiFi密码Demo
  6. CAN通信讲解(2)——数据帧和遥控帧
  7. 如何查看连接到手机热点的ip地址
  8. 贵州高速 | 山地变出“平原”新感觉
  9. 阐述一下空间数据库在遥感专业的应用前景
  10. LTC4054/TP4054的高性价比替代,DP4054线性锂离子电池充电器