众所周知,transformer已经不止火在nlp了,ViT(如下图所示)也大有取代CNN之势。我们认知中transformer最重要的部分莫过于多头的self-attention机制了,该机制发掘不同token之间的空间信息联系。这篇论文<Pay Attention to MLPs>提出了一个更简单的架构,gMLP,使用gating机制,达到和transformer在nlp或者计算机视觉一样的效果。

v2-b5f3e24c885a741b2c9496f36dc8a3b5_b.jpg
v2-110de7bf743579402f0c756923cc360e_b.jpg

MLP也是L层block堆积而成(如下图所示),输入为X(n*d),n的长度,维度是d,每个block定义如下:

v2-aa91b91dd1f0114c0c76de0c7fa2451f_b.jpg

U和V就是图中Channel Proj,对embeddings做线性映射,类似transformer中的FFNs,激活函数用的GeLU,s函数表示的是spatial gating unit,该block在预训练或finetune的方式和transformer并无区别,重要的就是用s函数替代了multi-head self-attention去挖掘不同tokens之间的关系。

为了使得spatial gating unit具备挖掘不同token之间的关系的能力,必须对空间维度有收缩的操作,最简单的就是做个线性映射:

v2-14055929529889f8910c2023d3159873_b.jpg

W是n*n维度的矩阵,这里就不像self-attention,W是随着Z动态变化的,而且W是独立于输入的embedding的,所以s函数定义如下:

v2-57370471b7ff12eeb9f7ce2400560dd1_b.jpg

论文里表示为了训练稳定性,W初始化接近0并且b初始化为1,这样fw,b(Z)基本都等于1,所以一开始s(Z)就接近Z,在训练过程中逐步注入空间信息。论文还对fw,b的输入做了标准化,采用SGU可以使得该block的表现类似transformer。

v2-dca927b0b4967cc180efa79a4008481b_b.jpg
v2-199215dd54b3595ccae400062dc5ddf1_b.jpg
v2-0f31ad97fde40a483252fecfb574bee5_b.jpg

结果表明,没有self-attention的模型可以像用于图像分类的transformer一样有效地处理数据。事实上,当模型被适当地正则化时,它们的准确度似乎与模型capacity相关,而不是与自注意机制相关。此外,gMLP很好的平衡了参数,准确率,以及模型性能。

参考文献:arxiv.org/pdf/2105.0805

self-attention竟然没用?

self-attention竟然没用?相关推荐

  1. 你竟然没用 Nuget 构建项目?

    想写这篇文章缘起于公众号文章里的一条留言: 对于一个现代化的开发平台,建立一种让开发者创建,分享与使用可复用代码的机制是十分必要的.这种"可复用代码"被打包后的文件通常被称作&qu ...

  2. sql 查询性能的问题 有order by 和无order by 速度竟然相差百倍

    2019独角兽企业重金招聘Python工程师标准>>> 我想请大家两个问题: 第一个问题: 我有表T_Order_Prod_Line,有一个timestamp的字段,create_d ...

  3. 大佬算法校招经验总结(拼多多、小米、华为、百度等)

    点上方蓝字视学算法获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 转载于 :工大菜鸡,已获授权 https://www.nowcoder.com/discuss/295287 我从今年7月 ...

  4. NEJM:益生菌LGG治疗肠胃炎无效,Immunity|LGG促进生骨

    亦正亦邪,骨骼惊奇的LGG LGG,这既不是你家雪地靴UGG的山寨品牌,也不是"老公公"的简称,今天我们来聊的是一款颇负盛名的益生菌--鼠李糖乳杆菌GG(Lactobacillus ...

  5. NEJM | 益生菌LGG治疗肠胃炎无效,Immunity|LGG促进生骨

    亦正亦邪,骨骼惊奇的LGG LGG,这既不是你家雪地靴UGG的山寨品牌,也不是"老公公"的简称,今天我们来聊的是一款颇负盛名的益生菌--鼠李糖乳杆菌GG(Lactobacillus ...

  6. 亦正亦邪,骨骼惊奇的LGG

    文章目录 亦正亦邪,骨骼惊奇的LGG 对急性肠胃炎没啥用 帮助生骨 未来可期 作者简介 猜你喜欢 写在后面 亦正亦邪,骨骼惊奇的LGG LGG,这既不是你家雪地靴UGG的山寨品牌,也不是"老 ...

  7. Math.Round()——面试题小结

    今天面试,碰到一道题,关于Math.Round();也许做应用做久了,脑子不怎么转了,呵呵. 之前竟然没用过这个方法,可能看到过,忘了.....一时想不起来,只猜是四舍五入的,后来还是做错了. 题目大 ...

  8. macbook可以装linux,怎样给老旧的 MacBook 安装 Linux

    话说,不作死就不会死. 上一篇文章讲解了怎么老旧的 MacBook Pro 重新安装 MacOS 操作系统,我安装成功了,但是跑了一会儿以后,我发现我犯了一个严重的错误,我还是把固态硬盘当作了启动盘来 ...

  9. mysql明明有索引却用不到的情况

    文章目录 一.前言 1.问题sql: 2.explain一下 3.量级 二.排查过程 1.难道是字段类型的问题,表结构如下 2.查看字段编码 3.修改编码一致看看 (1)解释: (2)查看效果 4.为 ...

最新文章

  1. 各种经典透镜投影模型
  2. arm gcc栈帧结构(1)
  3. mysql as用法_MySQL基础学习总结
  4. 用extjs4做个登录框
  5. 论文浅尝 - ICML2020 | 通过关系图上的贝叶斯元学习进行少样本关系提取
  6. 搜狐视频开放平台的申请使用方法
  7. 信息学奥赛一本通 1132:石头剪子布 | OpenJudge NOI 1.7 04
  8. 数据库编程--SqlServer示例
  9. python2.7对DICOM图像的读取
  10. shell编程入门步步高(三、shell的基本结构)
  11. 模糊搜索框(H5),兼容安卓和ios(令人头大的ios输入法)
  12. MacBook pro HTML 编写,老司机血泪劝告:买MacBook Pro一定不要买顶配!
  13. 计算机专业课科目,考研计算机专业课科目有哪些
  14. [语音识别] 单音素、三音素、决策树
  15. java计算机毕业设计web家庭财务管理系统MyBatis+系统+LW文档+源码+调试部署
  16. 达梦数据库SYSDBA密码攻略
  17. 嵩天老师Python面向对象-23,Python计算自然常数e
  18. 以小饭桌网站为例介绍抓取动态网页的数据【python爬虫入门进阶】(12)
  19. SpringBoot与knif4j学习
  20. 如何快速获取图片的ROI区域坐标

热门文章

  1. 我爱工程化 之 gulp 使用(一)
  2. Grunt 常用插件
  3. 网络通信:单播、广播、组播
  4. C51端口结构和工作原理(转)
  5. WCF热带鱼书学习手记 - Service Contract Overload
  6. 6.1的学习成果,主要是用到指向函数的指针
  7. Windows下python虚拟环境pip依旧使用全局pip的解决办法
  8. Android(六)——Android第一周学习
  9. 视觉SLAM找工作面试问题集锦(转自网络)
  10. Spring Boot + Thymeleaf 创建web项目