1. 简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。
    答:面向属性归纳的基本思想是:
    首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的计数值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。

    使用属性删除的情况:
    如果初始工作关系的一个属性上有大量的不同值,但是
    (1)在此属性上没有概化操作符
    或(2)它的较高层概念用其他属性表示;

    使用属性概化的情况:
    如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。

  2. 为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。
    答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:
    (1)提高两个系统的性能
    操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询,多维视图,汇总等OLAP功能提供了优化。

    (2)两者有着不同的功能
    操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。

    (3)两者有着不同的数据
    数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。

  3. 对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?
    答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:
    逐层独立:
    完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;
    层交叉k-项集过滤:
    一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;
    层交叉单项过滤:
    一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。

  4. 请简述数据挖掘过程.
    1确定挖掘对象
    2准备数据
    3建立模型
    4数据挖掘
    5结果分析
    6知识应用

  5. 数据挖掘的任务
    分类、聚类、回归、关联分析、离群点监测、演化分析、序列模式。

  6. 数据集的三个重要特性
    维度、稀疏性、分辨率。

  7. 什么是主成份分析?
    答:主成份分析(PCA)是一种用于连续属性的线性变换技术,找出新的属性(主成份),这些新属性是原属性的线性组合,是相互正交的,使得原来数据投影到较小的集合中,并且捕获数据的最大变差。PCA通常揭示先前未曾觉察的联系,解释不寻常的结果。

  8. 简述k-最近邻算法过程。
    答:KNN分类算法的基本描述如下:
    算法名:KNN
    输入:最近邻数目K,训练集D,测试集Z(1分)
    输出:对测试集Z中所有测试样本预测其类标号值(1分)
    (1)for每个测试样本(1分)do
    (2)计算z和每个训练样本之间的距离(1分)
    (3)选择离z最近的k最近邻集合(1分)
    (4)返回中样本的多数类的类标号(1分)
    (5)endfor

  9. 简述Apriori算法原理。
    答:Apriori性质:
    一个项集是频繁的,那么它的所有子集都是频繁的。(1分)一个项集的支持度不会超过其任何子集的支持度。(1分)该算法采用逐层的方法找出频繁项集,(1分)首先找出1频繁-项集,通过迭代方法利用频繁k-1-项集生成k候选项集,(1分)扫描数据库后从候选k-项集中指出频繁k-项集,直到生成的候选项集为空。(1分)

  10. 什么是离群点?
    答:离群点是在数据集中偏离大部分数据的数据,(2分)使人怀疑这些数据的偏离并非由随机因素产生,(1分)而是产生于完全不同的机制。(2分)

  11. 什么是数据挖掘?什么是数据仓库?并简述数据挖掘的步骤。
    数据挖掘是从大量数据中提取或发现(挖掘)知识的过程。
    数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。
    步骤:
    1)数据清理(消除噪声或不一致数据)
    2)数据集成(多种数据源可以组合在一起)
    3)数据选择(从数据库中检索与分析任务相关的数据)
    4)数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)
    5)数据挖掘(基本步骤,使用智能方法提取数据模式)
    6)模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式;)
    7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

  12. 在OLAP中,如何使用概念分层?请解释多维数据模型中的OLAP上卷下钻切片切块和转轴操作。
    在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层。这种组织为用户从不同角度观察数据提供了灵活性。有一些OLAP数据立方体操作用来物化这些不同视图,允许交互查询和分析手头数据。因此,OLAP为交互数据分析提供了友好的环境。Apriori性质:
    上卷: 上卷操作通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。
    下钻: 下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。
    切片: 在给定的数据立方体的一个维上进行选择,导致一个子方。
    切块: 通过对两个或多个维执行选择,定义子方。
    转轴: 转轴是一种目视操作,它转动数据的视角,提供数据的替代表示。

  13. 什么是数据变换?数据变换涉及的内容有哪些?
    数据变换是将数据转换成适合于挖掘的形式。数据变换可能涉及如下内容:
    1).平滑: 去掉数据中的噪声。这种技术包括分箱、聚类和回归。
    2).聚集: 对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。通常,这一步用来为多粒度数据分析构造数据立方体。
    3).数据概化: 使用概念分层,用高层次概念替换低层次“原始”数据。例如,分类的属性,如street,可以概化为较高层的概念,如city或country。类似地,数值属性,如age,可以映射到较高层概念,如young,middle-age和senior。
    4).规范化: 将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0到1.0或0.0到1.0。
    5).属性构造(或特征构造): 可以构造新的属性并添加到属性集中,以帮助挖掘过程。

  14. 简述数据预处理方法和内容。
    ① 数据清洗: 包括填充空缺值,识别孤立点,去掉噪声和无关数据。
    ② 数据集成: 将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。
    ③ 数据变换: 将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的重构。
    ④ 数据归约: 缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果

  15. 简述处理空缺值的方法。
    ① 忽略该记录;
    ② 去掉属性;
    ③ 手工填写空缺值;
    ④ 使用默认值;
    ⑤ 使用属性平均值;
    ⑥ 使用同类样本平均值;
    ⑦ 预测最可能的值。

  16. 常见的分箱方法有哪些?数据平滑处理的方法有哪些?
    分箱的方法主要有:
    ① 统一权重法 ( 又称等深分箱法 )
    ② 统一区间法 ( 又称等宽分箱法 )
    ③ 最小熵法
    ④ 自定义区间法
    数据平滑的方法主要有:平均值法、边界值法和中值法。

  17. 何谓数据规范化?规范化的方法有哪些?写出对应的变换公式。
    将数据按比例缩放 ( 如更换大单位 ) ,使之落入一个特定的区域(如 0.0 ~1.0 ),称为规范化。
    规范化的常用方法有:
    (1) 最大-最小规范化
    (2) 零-均值规范化
    (3) 小数定标规范化

  18. 数据归约的方法有哪些?为什么要进行维归约?
    ① 数据立方体聚集
    ② 维归约
    ③ 数据压缩
    ④ 数值压缩
    ⑤ 离散化和概念分层
    维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率。

  19. 何谓聚类?它与分类有什么异同?
    聚类是将物理或抽象对象的集合分组成为多个类或簇 (cluster)的过程,使得在同一个簇中的对象之间具有较高的相似 度,而不同簇中的对象差别较大。
    聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。

2021年机器学习与数据挖掘简答题复习整理相关推荐

  1. 简述计算机图形的图形应用主要有哪些,5计算机图形学考试简答题复习.doc

    5计算机图形学考试简答题复习 计算机图形学考试简答题复习 1.简述计算机动画的概念,它经历了哪几个阶段的发展?(2分) 计算机动画是指采用图形与图像的处理技术,借助于编程或动画制作软件生成一系列的景物 ...

  2. 计算机系统与网络安全-简答题复习

    计算机系统与网络安全-简答题复习 参考文献 [1] 周世杰,陈伟,罗绪成,<计算机系统与网络安全技术>,高等教育出版社 第一章 信息安全概述 (1.1信息及信息安全+1.2 信息安全体系) ...

  3. 机器学习与数据挖掘(上)——期末复习

    机器学习与数据挖掘(上)--期末复习 机器学习与数据挖掘(下)--期末复习 预备概念 过拟合与欠拟合 过拟合 过拟合定义 当学习器把训练样本学的"太好"了的时候,很可能已经把训练样 ...

  4. Python数据分析与可视化期末简答题复习

    1.可视化数据分析主要用了哪些图表,说明其作用和意义. ①柱状图:用于做比较. ②折线图:用于看数据变化的趋势. ③饼状图:用于看各部分的占比. ④散点图:用于二维数据的比较. ⑤气泡图:用于用户三维 ...

  5. 计算机考研计组简答题复习-本篇长期更新

    1. 指令和数据均存放在内存中,计算机如何从空间和时间上区分它们是指令还是数据? 答:时间上,取指令事件发生在取指周期,取数据事件发生在执行周期:空间上,从内存读出的指令流流向控制器,从内存读出的数据 ...

  6. 计算机网络简答题复习要点

    面向连接和非连接的服务特点 面向连接的服务:通信双方在进行通信之前,要事先建立一个完整的可以彼此沟通的通道,在通信过程中整个连接的情况可以被实时的监控和管理 面向非链接的服务:不需要预先建立一个联络两 ...

  7. Linux嵌入式系统简答题复习

    1. 嵌入式系统的定义是什么? IEEE给出的嵌入式系统定义是:控制.监视或者辅助装置.机器和设备运行的装置. 目前国内的被普遍认同的定义是:以应用为中心,以计算机技术为基础.软件硬件可裁剪.适应应用 ...

  8. js简答题复习:第5章对象、第6章BOM

    目录 第5章对象 1.面向对象的特征:封装.继承.多态. (1)面向对象的特征--封装性 (2)面向对象的特征--继承性 (2)面向对象的特征--多态性 2.对象的定义 3.深拷贝和浅拷贝 实现深拷贝 ...

  9. 语言智能复试简答题猜测整理

    目录 前沿基础概念收集 机器学习 机器学习基于学习方式的分类 机器学习常见算法 深度学习 [监督学习类算法] 回归分析(regresion analysis): 决策树算法 随机森林(random f ...

最新文章

  1. JavaScript面向对象怎样删除标签页?
  2. linux本地监听创建,linux 创建监听服务器
  3. c++疯狂代码之读和写。。。(用读操作来触发写)
  4. 一个经典面试题:如何保证缓存与数据库的双写一致性?
  5. Hadoop中通过ToolRunner和Configured实现直接读取命令行动态出入reduce task数量,jar文件等...
  6. RSA加解密算法的Java实现
  7. xss漏洞的poc与exp
  8. [数据结构]求解迷宫最短路径问题
  9. Oracle监听器—静态注册
  10. SpringBoot - 配置文件加载位置与优先级
  11. 【Flink】IncompatibleClassChangeError: Found class org.apache.flink.streaming.runtime.tasks.Processing
  12. 修改telnet提示并非_iPhone修改微信提示音,iOS12可用,无需越狱详细教程
  13. 苹果怎么分享无线密码_无线路由器密码怎么破解 无线路由器密码破解方法【介绍】...
  14. 开源微博系统Xweibo的一些主要函数注释
  15. 稳坐青梅零食第一宝座,溜溜梅凭什么?
  16. 80C51单片机的指令系统
  17. 腾讯云服务器如何实现内网互联?
  18. 用技术支点撬开“掘金池”,多多云能否成为中国版VMWare?
  19. 2017.1直播类APP排行:斗鱼第一、YY第二、映客第三
  20. pro4重影花屏 surface_【图】- 微软Surfacepro4会花屏模糊抖动怎么回事 - 厦门思明湖滨南路电脑维修 - 厦门百姓网...

热门文章

  1. 平板终结者android,Android例外终结者
  2. anaconda 安装 scipy
  3. python爬虫实战:爬取美剧网站
  4. 史上最会拍马屁的面试答卷——爆笑!
  5. Redis服务器搭建
  6. springmvc-嵌入式tomcat基本配置
  7. ReportViewer报表模版中显示图片
  8. WEBRTC实现的基于GMM模型的VAD
  9. Linux-PXE高效批量网络装机!超详细的实验步骤+超详细的理论!(可跟做!新手都能做起来)
  10. 基于ffmpeg的视频处理与MPEG的压缩试验(下载安装使用全流程)