老师让我帮他出卷,就自己做了细纲出了点题。可以参考着复习。

1.什么是“维数灾难” ,为什么要降维,为什么能进行降维?

2. “多维缩放”方法的特点

3. “最近重构性”、“最大可分性”

4. 非线性降维的常用方法和特点

5. 什么是“测地线”距离、欧氏距离,如何计算“测地线”距离?

6. 局部线性嵌入方法的特点

第十章 降维与度量学习

1 k近邻学习

  1. knn特点(判断)

knn是一种基于实例的学习,没有显示的训练过程,因此它是一种急切学习。(×)

解释:knn是一种基于实例的学习,没有显示的训练过程,是一种典型的懒惰学习。

1.2 懒惰学习(名词解释)

懒惰学习:在训练阶段只保存样本,训练时间开销为0,收到测试样本后再进行处理(训练阶段不处理样本的学习方法)

1.3二分类问题。(填空)

如图的knn,问k=3,k=7时的分类结果,颜色换加减号

1.4 最近邻分类器错误率(填空)

最近邻分类器的泛化错误率P(err)=和贝叶斯最优分类器错误率P*(err)=1-P(c*|x)的关系P(err)≤P*(err)

       1.5 knn优缺点(可出简单判断)

       优点:

一、简单直观,训练非常快,易于实现

二、特别适合多分类问题

三、k和训练数据足够大时,效果很好

缺点:

一、k值小时对噪声敏感

二、即使在测试时间时,也需要存储所有训练数据

三、查询时间慢:每个查询o ( nd)复杂度

四、高维空间表现不佳(维数灾难)

2 低维嵌入

2.1维数灾难

(名词解释)

高维情况下出现的数据样本稀疏、距离计算困难等问题。

(判断)

当算法需要用到距离和相似性计算时,容易遭受维数灾难。而应用余弦相似度可以避免维数灾难。(×)

解释:没有一种距离函数或相似性函数可以避免高维带来的问题

2.2多维缩放

(判断)

在现实应用中为了有效降维,往往仅需降维后的距离与原始空间中的距离尽可能接近,而不必严格相等,因此可取远小于d的d’个最大特征值构成对角矩阵。(√)

  1. 主成分分析

3.1 PCA综合应用(大题)

(一)(考察超平面性质)(6‘)

题目:对于正交属性空间中的样本点,若要用一个超平面对所有样本进行客观地表达,那么这个超平面应该具有最近重构性和最大可分性两种性质。请分别解释他们的含义。

答案:

最近重构性:样本点到这个超平面的距离都足够近;
最大可分性:样本点在这个超平面上的投影能尽可能分开.

(二)考察维度选择(8‘)

题目:降维后低维空间的维数d’通常是由用户事先指定,或通过在d’值不同的低维空间中对k近邻分类器(或其他开销较小的学习器)进行交叉验证来选取较好d’值。而对于PCA, 常常从重构的角度设置一个重构國值,例如t=95%,使得d’值满足一定的条件。请简要解释下式的含义。并根据下表的特征值选择符合条件的λ进行重构,指出重构后的特征,并用文字说明如何操作来得到重构后的特征值。

特征

λ1

λ2

λ3

λ4

λ5

λ6

λ7

λ8

λ9

特征值

0.28

0.17

0.14

0.08

0.01

0.03

0.09

0.01

0.19

答案:

排序后前d‘个特征值的的和占全部特征值的和的比例应当大于阈值t。(2‘)

排序后结果为(2’)

λ1

λ9

λ2

λ3

λ7

λ4

λ6

λ5

λ5

0.28

0.19

0.17

0.14

0.09

0.08

0.03

0.01

0.01

取前6个和恰为0.95。(2’)

λ1

λ9

λ2

λ3

λ7

λ4

0.28

0.19

0.17

0.14

0.09

0.08

重构时各特征值除以0.95(2’)

(三)(考察降维目的)(6‘)

题目:PCA仅需保留W与样本的均值向量即可通过简单的向量减法和矩阵向量乘法将新样本投影至低维空间中。显然低维空间与原始高维空间必有不同,因为对应于最小的d-d’个特征值的特征向量被舍弃了,这是降维导致的结果。但舍弃这部分信息往往是必要的,请从两方面解释原因。

答案:(角度答对即可)

  1. (采样密度角度)一方面,舍弃这部分信息之后能使样本的采样密度增大,这正是降维的重要动机;
  2. (噪声角度)另一方面,当数据受到噪声影响时,最小的特征值所对应的特征向量往往与噪声有关,将它们舍弃能在一定程度 上起到去噪的效果。

3.2(选择)(考察PCA简单应用)

对如图所示的样本进行了两次投影,则方差为 的投影方式更优,并说明你的选择的依据是超平面的 。

A 0.045;最近重构性                        B 0.206;最近重构性

C 0.045;最大可分性                        D 0.206;最大可分性

答案:D

3.3维度选择

(填空)PCA中可以通过奇异值分解的方法来代替协方差矩阵的特征值分解,分解完成后对求得的特征值进行从大到小(选填:从大到小/从小到大)的排序。

  1. 度量学习

(填空))考察基础线代知识

在度量学习中因为假定不同属性的重要性不同而引入了属性权重矩阵W,该矩阵是一个对角矩阵,这假设了属性之间是无关的;但在西瓜问题中,显然“重量“和”体积“这两个属性是高度正相关的,因此需要将W换成一个更加普通的半正定/半正定对称矩阵M,于是得到了马氏距离。

周志华《机器学习》第十章复习(带例题)相关推荐

  1. 周志华机器学习(西瓜书)学习笔记(持续更新)

    <周志华机器学习>笔记 第1章 绪论 1.1 引言 1.2 基本术语 1.3 假设空间 1.4 归纳偏好 1.5 发展历程 1.6 应用现状 第2章 模型评估与选择 2.1 经验误差与过拟 ...

  2. 周志华机器学习-支持向量机

    周志华机器学习-支持向量机 第一章 绪论 第二章 模型评估与选择 第三章 线性模型 第四章 决策树 第五章 支持向量机 第六章 神经网络 第七章 贝叶斯分类器 第八章 集成学习和聚类 – 文章目录 周 ...

  3. 周志华-机器学习西瓜书-第三章习题3.3 编程实现对率回归

    本文为周志华机器学习西瓜书第三章课后习题3.3答案,编程实现对率回归,数据集为书本第89页的数据 使用tensorflow实现过程 # coding=utf-8 import tensorflow a ...

  4. 周志华机器学习(6):支持向量机

    周志华机器学习(6):支持向量机 6 支持向量机 6.1 间隔与支持向量 6.2 对偶问题(dual problem) 6.3 核函数 6.4 软间隔与正则化 基本是大段摘录西瓜书加上一些自己的解释补 ...

  5. 周志华机器学习--绪论

    周志华机器学习–绪论 第一章 绪论 第二章 模型评估与选择 第三章 线性模型 第四章 决策树 第五章 支持向量机 第六章 神经网络 第七章 贝叶斯分类器 第八章 集成学习和聚类 文章目录 周志华机器学 ...

  6. 【读书笔记】周志华 机器学习 第二章 模型评估和选择

    第二章 模型评估和选择 1 欠拟合和过拟合 偏差和方差 1.1 欠拟合和过拟合 1.2 偏差和方差 2 评估方法 性能度量 2.1 评估方法 2.1.1 留出法 2.2.2 交叉验证法 2.2.3 自 ...

  7. 周志华机器学习--模型评估与选择

    周志华机器学习–模型评估与选择 第一章 绪论 第二章 模型评估与选择 第三章 线性模型 第四章 决策树 第五章 支持向量机 第六章 神经网络 第七章 贝叶斯分类器 第八章 集成学习和聚类 文章目录 周 ...

  8. 周志华机器学习-决策树

    周志华机器学习-决策树 第一章 绪论 第二章 模型评估与选择 第三章 线性模型 第四章 决策树 第五章 支持向量机 第六章 神经网络 第七章 贝叶斯分类器 第八章 集成学习和聚类 文章目录 周志华机器 ...

  9. 机器学习(周志华) 第十章降维与度量学习

    关于周志华老师的<机器学习>这本书的学习笔记 记录学习过程 本博客记录Chapter10 文章目录 1 kkk邻近学习 2 低维嵌入 3 主成分分析 4 核化线性降维 5 流形学习 5.1 ...

  10. 【周志华机器学习】八、集成学习

    文章目录 参考资料 1. 基本概念 1.1 个体与集成 2. Boosting 3. Bagging 4.随机森林 5. 结合策略 5.1 平均法(回归问题) 5.2 投票法(分类问题) 5.3 学习 ...

最新文章

  1. 读取EXCEL文件内容
  2. eclipse中hadoop2.3.0环境部署及在eclipse中直接提交mapreduce任务
  3. DPM2012保护sharepoint场
  4. ICDAR 2019国际竞赛召开在即,百度联合学界重奖破局者!
  5. 50-overlay 如何实现跨主机通信?
  6. jzoj6191-[NOI2019模拟2019.5.31]Exchange【线段树】
  7. 第九十九期:可以编写代码的代码:代码生成的利与弊
  8. myeclipse2013 jad反编译插件安装
  9. 手机360浏览器怎么清空历史记录 手机360浏览器历史记录清空方法分享
  10. Python爬虫之pyppeteer去除Chrome正受到自动测试软件的控制(反爬策略)
  11. Cover开启投票是否对Yearn漏洞提供保险
  12. PropertyGrid 绑定动态的属性与值的集合
  13. .net控件开发系列
  14. python+pytest接口自动化_python接口自动化11-pytest入门
  15. 实验一 201521410003 15网一 叶萌熙
  16. 倍福TwinCAT3中控制台达A2伺服使用
  17. 对ichartjs基于基于HTML5的开源图形组件画图的心得
  18. 归并排序java示例
  19. 基于PHP的网上书店系统(前后台)
  20. webqq机器人java_一步一步来做WebQQ机器人-(二)(第一次登陆)

热门文章

  1. 百度量子披荆斩浪,与如流共赴效率之舞
  2. 微信小程序升级Vant Weapp版本
  3. 【seaborn】ValueError: Colormap Y1GnBu is not recognized.
  4. SSH2项目引入百度富文本编辑器Ueditor编辑器
  5. 二0一九 人工智能到处有
  6. 《Linux系统编程:Linux 可执行文件结构与进程结构》
  7. js 判断是windows和苹果浏览器
  8. html中的audio标签
  9. JSP上传图片限制大小像素
  10. JRE,JDK,JVM