self-attention竟然没用?
众所周知,transformer已经不止火在nlp了,ViT(如下图所示)也大有取代CNN之势。我们认知中transformer最重要的部分莫过于多头的self-attention机制了,该机制发掘不同token之间的空间信息联系。这篇论文<Pay Attention to MLPs>提出了一个更简单的架构,gMLP,使用gating机制,达到和transformer在nlp或者计算机视觉一样的效果。
MLP也是L层block堆积而成(如下图所示),输入为X(n*d),n的长度,维度是d,每个block定义如下:
U和V就是图中Channel Proj,对embeddings做线性映射,类似transformer中的FFNs,激活函数用的GeLU,s函数表示的是spatial gating unit,该block在预训练或finetune的方式和transformer并无区别,重要的就是用s函数替代了multi-head self-attention去挖掘不同tokens之间的关系。
为了使得spatial gating unit具备挖掘不同token之间的关系的能力,必须对空间维度有收缩的操作,最简单的就是做个线性映射:
W是n*n维度的矩阵,这里就不像self-attention,W是随着Z动态变化的,而且W是独立于输入的embedding的,所以s函数定义如下:
论文里表示为了训练稳定性,W初始化接近0并且b初始化为1,这样fw,b(Z)基本都等于1,所以一开始s(Z)就接近Z,在训练过程中逐步注入空间信息。论文还对fw,b的输入做了标准化,采用SGU可以使得该block的表现类似transformer。
结果表明,没有self-attention的模型可以像用于图像分类的transformer一样有效地处理数据。事实上,当模型被适当地正则化时,它们的准确度似乎与模型capacity相关,而不是与自注意机制相关。此外,gMLP很好的平衡了参数,准确率,以及模型性能。
参考文献:https://arxiv.org/pdf/2105.08050.pdf
self-attention竟然没用?
self-attention竟然没用?相关推荐
- 你竟然没用 Nuget 构建项目?
想写这篇文章缘起于公众号文章里的一条留言: 对于一个现代化的开发平台,建立一种让开发者创建,分享与使用可复用代码的机制是十分必要的.这种"可复用代码"被打包后的文件通常被称作&qu ...
- sql 查询性能的问题 有order by 和无order by 速度竟然相差百倍
2019独角兽企业重金招聘Python工程师标准>>> 我想请大家两个问题: 第一个问题: 我有表T_Order_Prod_Line,有一个timestamp的字段,create_d ...
- 大佬算法校招经验总结(拼多多、小米、华为、百度等)
点上方蓝字视学算法获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 转载于 :工大菜鸡,已获授权 https://www.nowcoder.com/discuss/295287 我从今年7月 ...
- NEJM:益生菌LGG治疗肠胃炎无效,Immunity|LGG促进生骨
亦正亦邪,骨骼惊奇的LGG LGG,这既不是你家雪地靴UGG的山寨品牌,也不是"老公公"的简称,今天我们来聊的是一款颇负盛名的益生菌--鼠李糖乳杆菌GG(Lactobacillus ...
- NEJM | 益生菌LGG治疗肠胃炎无效,Immunity|LGG促进生骨
亦正亦邪,骨骼惊奇的LGG LGG,这既不是你家雪地靴UGG的山寨品牌,也不是"老公公"的简称,今天我们来聊的是一款颇负盛名的益生菌--鼠李糖乳杆菌GG(Lactobacillus ...
- 亦正亦邪,骨骼惊奇的LGG
文章目录 亦正亦邪,骨骼惊奇的LGG 对急性肠胃炎没啥用 帮助生骨 未来可期 作者简介 猜你喜欢 写在后面 亦正亦邪,骨骼惊奇的LGG LGG,这既不是你家雪地靴UGG的山寨品牌,也不是"老 ...
- Math.Round()——面试题小结
今天面试,碰到一道题,关于Math.Round();也许做应用做久了,脑子不怎么转了,呵呵. 之前竟然没用过这个方法,可能看到过,忘了.....一时想不起来,只猜是四舍五入的,后来还是做错了. 题目大 ...
- macbook可以装linux,怎样给老旧的 MacBook 安装 Linux
话说,不作死就不会死. 上一篇文章讲解了怎么老旧的 MacBook Pro 重新安装 MacOS 操作系统,我安装成功了,但是跑了一会儿以后,我发现我犯了一个严重的错误,我还是把固态硬盘当作了启动盘来 ...
- mysql明明有索引却用不到的情况
文章目录 一.前言 1.问题sql: 2.explain一下 3.量级 二.排查过程 1.难道是字段类型的问题,表结构如下 2.查看字段编码 3.修改编码一致看看 (1)解释: (2)查看效果 4.为 ...
最新文章
- 各种经典透镜投影模型
- arm gcc栈帧结构(1)
- mysql as用法_MySQL基础学习总结
- 用extjs4做个登录框
- 论文浅尝 - ICML2020 | 通过关系图上的贝叶斯元学习进行少样本关系提取
- 搜狐视频开放平台的申请使用方法
- 信息学奥赛一本通 1132:石头剪子布 | OpenJudge NOI 1.7 04
- 数据库编程--SqlServer示例
- python2.7对DICOM图像的读取
- shell编程入门步步高(三、shell的基本结构)
- 模糊搜索框(H5),兼容安卓和ios(令人头大的ios输入法)
- MacBook pro HTML 编写,老司机血泪劝告:买MacBook Pro一定不要买顶配!
- 计算机专业课科目,考研计算机专业课科目有哪些
- [语音识别] 单音素、三音素、决策树
- java计算机毕业设计web家庭财务管理系统MyBatis+系统+LW文档+源码+调试部署
- 达梦数据库SYSDBA密码攻略
- 嵩天老师Python面向对象-23,Python计算自然常数e
- 以小饭桌网站为例介绍抓取动态网页的数据【python爬虫入门进阶】(12)
- SpringBoot与knif4j学习
- 如何快速获取图片的ROI区域坐标