接上一篇

P14-P16

VAE

n 按苏剑林的说法: VAE 本质上就是在常规自编码器的基础上,对 encoder 的结果(对应计算均值的网络)加上了“高斯噪声”,使得结果 decoder 能够对噪声有鲁棒性;
n 另一个 encoder (对应计算方差的网络)的作用是用来动态调节噪声的强度的。

dVAE

用Gumbel-Softmax(Jang et al.,2017;Maddison et al.,2017)松弛法来训练模型参数。

n 首先要训练了一个 discrete variational autoencoder ( dVAE ) 。
n dVAE 的意思是“离散的 VAE ”,它和 VAE 的本质是一样的:都是把一幅图像通过一些操作得到隐变量,再把隐变量通过一个生成器重建原图。
n VAE 使用均值、方差拟合神经网络得到隐变量; 使用生成器重建原图
• dVAE 使用 Tokenizer 得到隐变量;使用 Decoder 重建原图。

BEiT

n BEIT 的目标是最小化计算预测的 token 与真实的 token 之间的差异。
n 上式的含义就是:对盖住的每个 patches , BEIT 的 Encoder 在这个位置的输出,通过线性分类器之后得到预测的 visual token 与真实 patches 对应的 visual token 越接近越好。

未完,下一篇继续……

ai人工智能培训讲师计算机视觉讲师叶梓:计算机视觉领域的自监督学习模型——MAE-7相关推荐

  1. 人工智能培训老师讲师叶梓:计算机视觉领域的自监督学习模型——MAE目录

    免费直播分享最新人工智能前沿技术,直播即将开讲 P1 目录 n背景知识介绍 l AE ( AutoEncoder )与 DAE ( Denoising AutoEncoder ) l Transfor ...

  2. 人工智能培训老师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-1

    计算机视觉领域的自监督学习模型--MAE 主讲:   叶梓 P1-P2 AutoEncoder n 自动编码器是一种无监督的神经网络模型,它可以学习到输入数据的隐含特征,这称为编码 (coding) ...

  3. ai讲师人工智能讲师计算机视觉讲师叶梓:计算机视觉领域的自监督学习模型——MAE-14

    接上一篇 P31P32 CV大神--何恺明 n 2003 年 5 月,何恺明拿到保送清华的资格,高考获得满分 900 分的成绩,成为当年广东省 9 位满分状元之一. n 本科就读于清华大学,博士毕业于 ...

  4. ai讲师人工智能讲师计算机视觉老师叶梓:计算机视觉领域的自监督学习模型——MAE-13

    接上一篇 P28P30 实验效果-ViT模型的影响 n 性能惊艳: ImageNet-1K 最高 87.8% .与当前 SOTA 自监督预训练方法相比,对于 ViT -B 的表现结果都很接近.对于 V ...

  5. ai人工智能培训讲师计算机视觉讲师叶梓:计算机视觉领域的自监督学习模型——MAE-8

    接上一篇 P17-P18 BEiT n 让 BEIT 看很多的图片,随机遮住一些 patches ,让 BEIT 模型预测遮住的 patches 是什么 n 不断计算预测的 patches 与真实的 ...

  6. ai人工智能培训讲师计算机视觉讲师叶梓:计算机视觉领域的自监督学习模型——MAE-6

    接上一篇 P12-P13 BEiT n 在 BE i T 的论文中,作者 提出了一种名为遮盖图像建模( MIM )的预训练任务 : 图 像 有 2 两 种表示的形式:image patches 和 v ...

  7. 大数据人工智能培训讲师老师:叶梓简介 人工智能讲师ai讲师大数据讲师人工智能老师

    上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘.机器学习.人工智能.毕业后即进入某大型软件上市公司从事大数据.人工智能等技术相关工作,曾先后作为技术经理或总工程师,负责大型信息平台.市级 ...

  8. ai讲师人工智能讲师计算机视觉讲师叶梓:计算机视觉领域的自监督学习模型——MAE-15

    接上一篇 P32P33 故事还没完-- n2021年12月中旬,Facebook AI Research和约翰霍普金斯大学的研究人员提出了MaskFeat,也是采用「Mask-and-Predict」 ...

  9. ai人工智能培训老师讲师NLP自然语言处理讲师叶梓:人工智能之最新NLP自然语言处理技术与实战-10

    接上一页 P23-P24 多义字:"由"字的释义 <动>经过.<论语-雍也>:"谁能出不由户?" <动>捱到.<茅屋为 ...

最新文章

  1. 第十六章:数据绑定(七)
  2. 打印菱形(曼哈顿距离法)
  3. 头条+腾讯 双杀面经(NLP实习)
  4. 【连载】如何掌握openGauss数据库核心技术?秘诀四:拿捏事务机制(3)
  5. [转]把复杂事物简明化
  6. 关于在Webservice里使用LinqToSQL遇到一对多关系的父子表中子表需要ToList输出泛型而产生循环引用错误的解决办法!...
  7. 写个脚本快速启动前后端
  8. userService 用户 会员 系统设计 v2 q224 .doc
  9. 云原生技术的挑战是什么?
  10. PAT 1012. 数字分类 (20)
  11. 表格存储(TableStore)
  12. 机器学习的归宿《终极算法》·一
  13. 能源DEA--对于业务和环境评估的规模报酬与规模损害
  14. 计算机桌面ico图标,.ico格式图标制作转换教程及DIY桌面图标的方法
  15. 计算机画图软件技巧,CAD绘图技巧(一)—速度篇
  16. 使用树莓派实现微信远程监控
  17. 习题3.3投骰子的随机游戏
  18. 谷歌2017面经题集
  19. 正点原子STM32(基于HAL库)3
  20. 爬虫-模拟点击,实现加载页面全部内容

热门文章

  1. C/C++编程:了解typename的双重意义
  2. 把VSO作为GitHub上JavaScript项目的免费CI服务器
  3. 如何在同一服务器上实现多站点多域名HTTPS?
  4. 基于视觉的手势识别系统(一)——前言
  5. 自动计算出你电脑需要购买多大功率的电源才合适你
  6. bt5上搭建钓鱼wifi
  7. 诛天者 pat basic 练习五十五 集体照
  8. 查杀华为:一场5G狼人杀
  9. 【Java中的运算符】
  10. randint( )函数生成随机数——python小练