本文主要是对博文1进行翻译;其中“VAE with AF Prior”小节中大部分转自博文2。侵删。

  • 博文1:《From Autoencoder to Beta-VAE》 链接
  • 博文2:《干货 | 你的 KL 散度 vanish 了吗?》 链接

目录

符号定义

1. Autoencoder, 2006 [paper]

2. Denoising Autoencoder, 2008, [paper]

3. Sparse Autoencoder, [paper]

k-Sparse Autoencoder

4. Contractive Autoencoder, 2011, [paper]

5. VAE: Variational Autoencoder, 2014, [paper]

损失函数推导:ELBO/VLB(変分下界)

方式1: 根据KL散度

方式2: 根据极大似然估计进行推导

Reparameterization Trick重参数技巧

6. VAE with AF Prior, [paper]

补充:博文2:《干货 | 你的 KL 散度 vanish 了吗?》链接

7. β-VAE, 2017, [paper]

8. VQ-VAE, 2017, [paper]

9. VQ-VAE2, 2019, [paper], 比肩BigGAN的生成模型

10. TD-VAE, 2019, [paper]


符号定义

1. Autoencoder, 2006 [paper]

自编码器Autoencoder,是一个神经网络,采用无监督的方式学习一个Identity Function(一致变换):先对数据进行有效的压缩,然后再重建原始输入。

它由两部分组成:

  • Encoder网络:它将原始的high-dimensional输入转换为latent low-dimensional code。输入的大小>输出的大小。
  • Decoder网络:将latent low-dimensional code恢复为原始数据。

Encoder网络主要实现dimensionality reduction,与PCA和Matrix Factorization(矩阵因子分解)的功能类似。

Autoencoder的优化过程就是最小化reconstructed input与input之间的差异。一个好的latent representation不仅能够蕴含隐变量信息,也能很好的进行压缩和解压。

2. Denoising Autoencoder, 2008, [paper]

由于Autoencoder是学习一个Identity function,因此当网络的参数远远大于样本点数量时,会存在过拟合的问题。为了缓解过拟合问题,提高模型的鲁棒性,Denoising Autoencoder被提出。

Inspiration: 算法的思路来源于人类能够很好地识别对象,哪怕这个对象被部分损坏。因此,Denoise Autoencoder的目的是能够发现和捕获输入维度之间的关系,以便推断缺失的片段。

算法思路:为输入数据添加扰动,如:添加噪声/随机遮盖掉输入vector的部分值等方式,构造corrupted data;然后令Decoder恢复original input,而不是被扰动后的数据(corrupted data)。

3. Sparse Autoencoder, [paper]

Sparse Autoencoder(稀疏自编码) 在hidden unit activation上添加一个“sparse”约束,以避免过拟合和提高鲁棒性。它迫使模型在同一时间只有少量的隐藏单元被激活,换句话说,一个隐藏的神经元在大部分时间应该是不激活的。

回顾常用的激活函数,例如:sigmoid, tanh, relu, leaky relu, etc。当激活函数的值接近1时,神经元被激活;当接近于0时,神经元被抑制。

设第l层hidden-layer包含

从Autoencoder到VAE及其变体相关推荐

  1. 使用自动编码器(Autoencoder)及其变体进行特征学习

    自动编码器(Autoencoder)是一类无监督学习的特征提取方法,它由编码器(Encoder)和解码器(Decoder)两个部分组成.其工作的原理是,首先通过编码器将初始的特征映射到一个潜在的特征空 ...

  2. 自编码器的原始形式和各种变体

    本文参考维基百科 文章目录 最简单的原始形式:非循环前馈神经网络 欠完备自编码器 undercomplete autoencoders 过完备自编码器 overcomplete autoencoder ...

  3. 变体类的使用 package record case【转载】

    **************理论区 start********************* DELPHI中记录的存储方式       在DELPHI中,我们用record关键字来表明一个记录,有时候,我 ...

  4. react 组件样式_如何使用样式化组件为React组件创建视觉变体

    react 组件样式 by Gilad Dayagi 通过吉拉德·达亚吉 如何使用样式化组件为React组件创建视觉变体 (How to create visual variants for Reac ...

  5. 从起源、变体到评价指标,一文解读NLP的注意力机制

    作者 | yuquanle 转载自AI小白入门(ID:StudyForAI) 目录 1.写在前面 2.Seq2Seq 模型 3.NLP中注意力机制起源 4.NLP中的注意力机制 5.Hierarchi ...

  6. 在注意力中重新思考Softmax:分解非线性,这个线性transformer变体实现多项SOTA

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨机器之心 编辑丨极市平台 导读 来自商汤.上海人工智能实验室等 ...

  7. 加性注意力机制、训练推理效率优于其他Transformer变体,这个Fastformer的确够快...

    视学算法报道 机器之心编辑部 从训练与推理效率来看,清华和微软亚研提出的 Fastformer 无愧于「fast」. 在过去的几年里,Transformer 及其变体在很多领域取得了巨大成功,但由于其 ...

  8. 谷歌提出「卷积+注意力」新模型,超越ResNet最强变体!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI Tran ...

  9. Transformer模型有多少种变体?复旦邱锡鹏教授团队做了全面综述

    视学算法报道 转载自:机器之心 编辑:Liyuan.杜伟 自提出至今,Transformer 模型已经在自然语言处理.计算机视觉以及其他更多领域「大展拳脚」,学界也提出了各种各样基于原始模型的变体.但 ...

最新文章

  1. 【Live555】liveMedia下载、配置、编译、安装、基本概念
  2. 通过style来控制隔行显示不同颜色 .
  3. linux下查看cpu负载及分析
  4. 基于IAR-stm32裸板工程,完美移植RT-Thread Nano系统(附源码)
  5. Vue的axios与ajax的区别:axios是对ajax的封装
  6. 【Linux】一步一步学Linux——mkdir命令(21)
  7. @FeignClient中的@RequestMapping也被SpringMVC加载的问题解决
  8. 代码很烂,所以离职。
  9. 《MicoPython入门指南》一书即将出版
  10. 多级联动(已知和未知级次)
  11. 压缩包密码字典_压缩包密码pojie!
  12. C++之类和对象(三)
  13. stylecloud:一款可以制作个性化词云图的 Python 神器
  14. postgresql立式版本下载_PostgreSQL下载_PostgreSQL最新官方版下载_3DM单机
  15. JGG:肠道菌群与COVID-19重症风险密切关联
  16. 2023年湖北一级技师二级技师报名时间、考试时间是什么时候?
  17. 攻防世界 web高手进阶区 9分题 favorite_number
  18. log4cplus总结
  19. 计算机用户号电池,笔记本电脑用户中最常问的问题是:电池的使用时间有多长?...
  20. 网络速率方面单位MBPS和MB的区别

热门文章

  1. Testin实验室:陌陌APP通过率为94.92% 基本满足移动社交需求
  2. 『Three.js』辅助坐标轴
  3. iphone11录屏功能在哪里,告诉你手机录屏位置
  4. html标签验证百度搜索,如何验证百度站长平台(百度搜索资源平台)?
  5. php表格列表美化,【PHPWord】创建带样式表格的Word文档
  6. 登录飞信未能找到主机名的服务器,Nagios 监控+飞信的安装与配置.ppt
  7. 从30岁到35岁:为你的生命多积累一些厚度
  8. 德国光伏风电如何做到高比例消纳?
  9. 文字翻译的软件有哪些?这几款软件不容错过
  10. 前女友被腾讯挖走的那晚,我帮她...强不强见分晓!