数据降维的方法:
Manifold Learning(流行学习)
1、什么是流形

流形学习的观点:认为我们所能观察到的数据实际上是由一个低维流行映射到高维空间的。由于数据内部特征的限制,一些高维中的数据会产生维度上的冗余,实际上这些数据只要比较低的维度就能唯一的表示。所以直观上来讲,一个流形好比是一个d维的空间,在一个m维的空间中(m>d)被扭曲之后的结果。需要注意的是流形并不是一个形状,而是一个空间。举个例子来说,比如说一块布,可以把它看成一个二维的平面,这是一个二维的空间,现在我们把它扭一扭(三维空间),它就变成了一个流形,当然不扭的时候,它也是一个流形,欧式空间是流形的一种特殊情况。如下图所示
  

流形具有在局部与欧式空间同胚的空间,也就是它在局部具有欧式空间的性质,能用欧式距离来进行距离计算。这就给降维带来了很大的启发,若低维流形嵌入到了高维空间,此时样本在高维空间的分布虽然复杂,但在局部上仍具有欧式空间的性质,因此可以在局部建立降维映射关系,然后再设法将局部映射关系推广到全局。而且当数据被降维到二维和三维时,就可以进行可视化,因此流形学习也可以被用于可视化。
[1]Locally Linear Embedding(LLE)局部线性嵌入
局部线性嵌入的思想:只是试图去保持领域内样本之间的关系。具体如下图所示,样本从高维空间映射到低维空间后,各个领域内的样本之间的线性关系不变。
1)求最小值的Wij,固定住Wij,第一步根据邻域关系计算出所有的样本的领域重构系数w,也就是找出每一个样本和其领域内的样本之间的线性关系

2)在另外一个空间找到同样Wij关系的两个Zi,Zj,第二步就是根据领域重构系数不变,去求每个样本在低维空间的坐标



2)zai
[2]Laplacian Eigenmaps
1)找一个graph,去降低维度的方法

问题:


高维的点做成低维的点,完成低维的可视化
降维前做相似度分析P
降维后做相似度分析Q
KL计算两个分布的相近程度

计算概率的方法:两个评估的方式:SNE tSNE tSNE更好的可视化,放大gap

LLE算法总结:

主要优点:

1)可以学习任意维的局部线性的低维流形。

2)算法归结为稀疏矩阵特征分解,计算复杂度相对较小,实现容易。

3)可以处理非线性的数据,能进行非线性降维。

主要缺点:

1)算法所学习的流形只能是不闭合的,且样本集是稠密的。

2)算法对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响。

李宏毅-DeepLearning-2017-Unsupervised Learning:Neighbor Embedding相关推荐

  1. 台大李宏毅Machine Learning 2017Fall学习笔记 (16)Unsupervised Learning:Neighbor Embedding

    台大李宏毅Machine Learning 2017Fall学习笔记 (16)Unsupervised Learning:Neighbor Embedding

  2. 李宏毅深度学习--《Unsupervised Learning:Neighbor Embedding》

    <Unsupervised Learning:Neighbor Embedding> Manifold Learning Locally Linear Embedding (LLE) La ...

  3. 【李宏毅机器学习】Unsupervised Learning - Word Embedding 无监督学习 - 词嵌入(p22) 学习笔记

    文章目录 Unsupervised Learning Word Embedding 用一个vector来表示一个word的几种方法 1-of-N Encoding Word Class Word Em ...

  4. 【李宏毅2020 ML/DL】P58 Unsupervised Learning - Neighbor Embedding | LLE, t-SNE

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...

  5. 李宏毅机器学习16—Unsupervised learning:word embedding

    Unsupervised learning:word embedding 无监督学习:词嵌入 摘要:这节课通过介绍word  embedding,说明什么是无监督学习以及word embedding的 ...

  6. 李宏毅ML lecture-14 unsupervised Learning Word Embeddng

    李宏毅ML lecture-14 unsupervised Learning--Word Embeddng https://blog.csdn.net/Arron_hou/article/detail ...

  7. 李宏毅老师课程:Unsupervised Learning - Word Embedding

    词嵌入:word embedding Introduction Word Embedding Count based Prediction based Sharing Parameters Train ...

  8. 【李宏毅2020 ML/DL】P22 Unsupervised Learning - Word Embedding

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...

  9. 【李宏毅2020 ML/DL】P59 Unsupervised Learning - Auto-encoder

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...

最新文章

  1. 【C++】 C++标准模板库(十) 双向队列
  2. 适配器模式源码解析(jdk+spring+springjpa+springmvc)
  3. 《恋上数据结构第1季》集合 ListSet、TreeSet、HashSet
  4. mysql简介博客_mysql简介
  5. jquery之val()和attr(value)
  6. unity三维地图的经纬度如何在二维地图上表示_安全数据分析:数据点—地图—线性回归...
  7. maven本地仓库地址更改
  8. SMA、SMB、SMC封装的二极管尺寸区分
  9. 《Ruminations on C++/C++沉思录》学习笔记一————koening和Moo夫妇访谈
  10. ha linux 设置虚拟ip_配置双机HA - Linux下环境安装配置Rose HA全攻略(图)_数据库技术_Linux公社-Linux系统门户网站...
  11. No MyBatis mapper was found in ‘[xx.mapper]‘ package. Please check your configuration.特殊处理
  12. [英文邮件] 请求 + 感谢 + 邮件结尾 的表达整理
  13. css实现两列容器等高布局,CSS等高布局的实现方法
  14. (CVPR-2021)动态区域感知卷积
  15. android 微信是否安装app,Android判断手机是否安装微信(总结)
  16. 情景模拟面试真题解析
  17. C# Interlocked类的事例
  18. 选购手机时,运行内存和处理器先考虑哪个?来说说你的观点
  19. 快速从入门到精通!mysql删除索引
  20. MMC、SD等存储卡的区别总结

热门文章

  1. 一文教你学会实现以邮件激活的注册账户代码
  2. 神泣服务器维护公告,《神泣》七大区服务器合并详细名单公告
  3. 交通运输走向净零的旅程:替代燃料汽车对实现气候目标至关重要
  4. 详解的wc find xargs zip gzip bzip2 xz tar sftp命令或者协议
  5. vue组件通信的几种方法
  6. Linux环境Release版本的符号表剥离及调试方法
  7. 【Python随笔】python的web开发——WSGI、ASGI、uvicorn与FastAPI
  8. 原子性(atomicity)
  9. 第40篇 网络(十)WebKit初识
  10. 计算机二级考试白名单是什么意思,被列入白名单是什么意思