本文转自机器之心。

谷歌研究科学家 David Ha:Transformer 是新的 LSTM。

2017 年 6 月谷歌发布论文《Attention is All You Need》时,我们或许都没有意识到它提出的 Transformer 架构将带来多少惊喜。

在诞生至今不足四年的时间里,Transformer 不仅成为自然语言处理领域的主流模型(基于 Transformer 的预训练语言模型成为主流),还开始了向其他领域的跨界,近几个月来出现了大量将 Transformer 应用于计算机视觉领域的研究。

2020 年 10 月,谷歌提出了 Vision Transformer (ViT),可以直接利用 transformer 对图像进行分类,而不需要卷积网络。ViT 模型取得了与当前最优卷积网络相媲美的结果,但其训练所需的计算资源大大减少。

2020 年 12 月,复旦、牛津、腾讯等机构的研究者提出了 SEgmentation TRansformer(SETR),将语义分割视为序列到序列的预测任务,该模型在 ADE20K 上排名第一,性能优于 OCNet、GCNet 等网络。

2021 年 1 月初,OpenAI 又连放大招 ,用 DALL·E 和 CLIP 打破了自然语言与视觉的次元壁。两个模型都利用 Transformer 达到了很好的效果,前者可以基于本文直接生成图像,后者则能完成图像与文本类别的匹配。

由此,「Transformer 是万能的吗?」成为了近期机器学习社区的热门话题。谷歌大脑研究员 David Ha 发推表示:Transformer 是新的 LSTM。

他否定了自己在 2017 年 5 月发表的言论:「LSTM 就像神经网络中的 AK47。不管我们多么努力地想用新事物取代它,都是白费力气。从现在起它还将应用 50 年。」LSTM 由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年联合提出,当时已诞生 20 年。

David Ha 不会想到,这句预言被一个月后出现的 Transformer 打破,而这仅用了 4 年时间。

著名机器学习资源网站 Papers with Code 在 1 月 20 日发布的 Newsletter 中列举了近期应用 Transformer 的十大新任务

图像合成

  • 论文:Taming Transformers for High-Resolution Image Synthesis

  • 链接:https://arxiv.org/pdf/2012.09841v1.pdf

多目标追踪

  • 论文:TransTrack: Multiple-Object Tracking with Transformer

  • 链接:https://arxiv.org/pdf/2012.15460v1.pdf

音乐生成

  • 论文:Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs

  • 链接:https://arxiv.org/pdf/2101.02402v1.pdf

舞蹈生成

  • 论文:Dance Revolution: Long-Term Dance Generation with Music via Curriculum Learning

  • 链接:https://arxiv.org/pdf/2006.06119v5.pdf

3D 目标检测

  • 论文:Self-Attention Based Context-Aware 3D Object Detection

  • 链接:https://arxiv.org/pdf/2101.02672v1.pdf

点云处理

  • 论文:PCT: Point Cloud Transformer

  • 链接:https://arxiv.org/pdf/2012.09688v1.pdf

时序预测

  • 论文:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting

  • 链接:https://arxiv.org/pdf/1912.09363v3.pdf

视觉 - 语言建模

  • 论文:VinVL: Making Visual Representations Matter in Vision-Language Models

  • 链接:https://arxiv.org/pdf/2101.00529v1.pdf

车道形状预测

  • 论文:End-to-end Lane Shape Prediction with Transformers

  • 链接:https://arxiv.org/pdf/2011.04233v2.pdf

端到端目标检测

  • 论文:Deformable DETR: Deformable Transformers for End-to-End Object Detection

  • 链接:https://arxiv.org/pdf/2010.04159v2.pdf

而除了 David Ha 以外,另一位研究者英伟达研究科学家、前 OpenAI 研究科学家 Ankur Handa 也表示「Transformers are all you need」:

... is All You Need?

Transformer 引领了不止一种潮流。

在其论文《Attention is All You Need》发表后,各种「** is All You Need」论文纷纷出现。就连 LSTM 提出者 Sepp Hochreiter 也写过一篇《Hopfield Networks is All You Need》。有趣的是,这篇论文正是对 Transformer 核心注意力机制新颖性的驳斥:Transformer 中的注意力机制等价于 Hopfield 网络中的更新规则。

Transformer 的强大主要归功于其中的注意力机制。注意力机制在 NLP 领域的应用最早可以追溯到 2014 年 Bengio 团队将其引入神经机器翻译任务,但那时模型的核心架构还是 RNN。相比之下,Transformer 完全抛弃了传统的 CNN 和 RNN,整个网络结构完全由注意力机制组成,这种改变所带来的效果提升也是颠覆性的。

然而,Sepp Hochreiter 等人在 2020 年 7 月发表的论文《Hopfield Networks is All You Need》中表示,Transformer 中的注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。

Sepp 这篇论文发表时,Transformer 的跨界之旅已经开始。2020 年 5 月,Facebook AI 推出了 首个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架——Detection Transformer(DETR),用于目标检测和全景分割。6 月,OpenAI 将基于 Transformer 的模型 GPT-2 应用到图像领域,用于图像分类任务。

半年过去,越来越多的工作开始探索如何将 Transformer 应用于计算机视觉等其他领域,最近更是出现了「Transformers are all you need」、「Transformers are the new LSTMs」的说法。

Transformer 是新的 LSTM 吗?

1997 年,Sepp Hochreiter 与 Jürgen Schmidhuber 联合发表了长短期记忆网络(LSTM)论文,被认为是机器学习发展史上的一座里程碑。

LSTM 是一种特殊的循环神经网络(RNN)。Sepp Hochreiter 在 1991 年分析了随时间反向传播(BPTT)带来的梯度爆炸和梯度消失问题;1997 年,Sepp Hochreiter 与 Jürgen Schmidhuber 在 LSTM 论文中引入 CEC 单元解决 BPTT 带来的梯度爆炸和消失问题。之后又有许多研究者对其进行了改进和普及。

LSTM 单元的基本结构(图源:https://en.wikipedia.org/wiki/Long_short-term_memory)

2020 年 2 月,LSTM 提出者 Jürgen Schmidhuber 撰文综述了 LSTM 的十年发展史,介绍了它在机器翻译、语音识别、机器人学、时序预测、聊天机器人等多个领域的应用。

而 Transformer 诞生伊始就完全舍弃了 RNN,在 LSTM 占优势的 NLP 领域逐渐站稳脚跟。现在,许多研究又将它应用于时序预测、音乐生成、图像分类等跨界任务中。在 Papers with Code 最近发布的 Transformer 应用十大新任务中,过去都有着 LSTM 的活跃身影。

Transformer 是新的 LSTM 吗?从模型应用领域的多样性来看,这似乎已见雏形。

不知道如果现在发表「Transformer 无法被替代,还可以再用 50 年」的预言,多久之后会被打破。????

参考链接:

https://paperswithcode.com/newsletter/3

https://twitter.com/hardmaru

更多近期Transformer论文推荐

推荐几篇近期必看的视觉综述,含GAN、Transformer、人脸超分辨、遥感等

计算机视觉中的Transformer

Transformer又又来了,生成配有音乐的丝滑3D舞蹈,开放最大规模数据集AIST++

华为联合北大、悉尼大学对 Visual Transformer 的最新综述

Facebook开源高效图像Transformer,速度、准确率与泛化性能媲美SOTA CNN

Transformer 又立功了!又快(420 fps)又好的车道线检测算法

备注:TFM

Transformer交流群

2D、3D目标检测等最新资讯,若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

Transformer 是万能的吗?相关推荐

  1. 堪比当年的LSTM,Transformer引燃机器学习圈:它是万能的

    视学算法报道 转载自公众号:机器之心 作者:魔王 谷歌研究科学家 David Ha:Transformer 是新的 LSTM. 2017 年 6 月谷歌发布论文<Attention is All ...

  2. 今晚,圆桌讨论Transformer跨界CV任务

    转自:机器之心 自2017 年 6 月谷歌发布论文<Attention is All You Need>后,Transformer架构为整个NLP领域带来了极大的惊喜. 随着技术的发展,T ...

  3. 霸榜多个CV任务,开源仅两天,微软分层ViT模型收获近2k star

    视学算法报道 转载自:机器之心 编辑:维度 屠榜各大 CV 任务的微软 Swin Transformer,近日开源了代码和预训练模型. 自 2017 年 6 月谷歌提出 Transformer 以来, ...

  4. 亚马逊招聘,无人超市研发部门

    关注公众号,获取更多AI领域发展机会 公司介绍 Amazon Go是一种新型的实体无人商店,客户只需使用Amazon Go应用程序然后进入商店,即可从精选的新鲜美味餐点和杂货店中获取所需东西. 借助J ...

  5. iRobot 公司招聘,机器人、SLAM、视觉感知、路径规划方向

    关注公众号,获取更多AI领域发展机会 iRobot 是位于美国的全球顶尖的消费类机器人公司,其设计和制造的家用机器人,如扫地和擦地机器人,目前已经进入全球数百万个家庭. www.irobot.com ...

  6. 霸榜 | 微软CV模型收获近 2k star

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 屠 ...

  7. 我不谈ChatGPT

    (1)数据 有两个未经证实的传闻: 1.客服问答:80%用户问的问题都是那20%常见问题,但是就是这样,占用了客服人员80%的工作量和工作时间 2.资讯搜索:谷歌一位员工说,在互联网上,60%的内容都 ...

  8. 【AI简报20210514期】开源项目树莓派复古相机、L4自动驾驶新闻速递

    嵌入式AI 1. 地平线L4级自动驾驶芯片流片成功,预计2022年量产上市 原文: https://www.163.com/dy/article/G9I96HCO05508TBC.html 5月9日消 ...

  9. 霸榜多个CV任务!开源仅两天,已收获2.1k star

    本文转载自机器之心. 屠榜各大 CV 任务的微软 Swin Transformer,近日开源了代码和预训练模型. 自 2017 年 6 月谷歌提出 Transformer 以来,它便逐渐成为了自然语言 ...

最新文章

  1. Latex ! Missing $ inserted error 解决方法
  2. python画简单图形-python基础教程之turtle的简单绘图
  3. Django - Django框架 简单介绍
  4. 怎么在搭建Android开发环境?
  5. 查看sqlserver版本
  6. oracle怎么授权外地连接,Oracle异地RAC 简单介绍(Extended Distance Clusters)
  7. ZZULIOJ 1068:二进制数
  8. arm 饱和指令_ARM aarch64汇编学习笔记(九):使用Neon指令(一)
  9. 微博授权失败 redirect_uri_mismatch
  10. Notepad++ 安装jsonview插件
  11. 玩转大麦盒子airplay
  12. 【工控老马】基于PLC的花样喷泉设计原理详解
  13. kindle可以上网但是无法下载_您的Kindle已连接WiFi网络,但无法连接互联网的解决办法...
  14. 打开dbf时自动打开fxp_全新帕萨特打开点火开关后雨刮器会自动工作一次
  15. linux oel7没有网络,sudo su命令不在OEL 7中工作(sudo su command not working in OEL 7)
  16. Neokylin7安装gedit
  17. 【定位设备】蓝牙信标接近距离的计算方式及其部署原则
  18. 0622_ArcMap添加地图地图(矢量底图与影像地图)_太乐地图插件ArcTailer.tlb
  19. 支付通道跳转H5 WAP快捷支付
  20. 上海交大计算机系奖学金名额,上海交通大学-电子信息与电气工程学院-学生工作办公室...

热门文章

  1. OpenCV-数字图像处理之拉普拉斯算子
  2. 在Service中发送广播被kill掉的Activity能不能收到?
  3. Spring框架 简述
  4. CentOS基础操作指令(磁盘分区和挂载)
  5. Personal Rank——个性化推荐召回算法python
  6. 当前服务器文件夹不存在,供应商文件夹不存在,无法创建
  7. win7桌面计算机没了,win7系统桌面的计算机图标没了的解决方法
  8. java 对象初始化过程_Java——对象初始化顺序使用详解
  9. 群同态基本定理证明_有限群的线性表示 | 表示与群代数
  10. python 邮件发送附件 本目录下所有文件_为python中的每个txt文件发送附件电子邮件...