论文标题:Pretrained Transformer As Universal Computation Engines - CoRR 2021

原文传送门:https://arxiv.org/abs/2103.05247https://arxiv.org/abs/2103.05247

1. Abstarct

作者研究了在语言上预训练的Transformer以最少的微调泛化到其他模态的能力——特别是在没有微调residual blocks (Self-Attn和FFN Layers)的情况下。

他们称该预训练模型为 Frozen Pretrained Transformer (FPT),在涵盖数值计算、视觉和蛋白质折叠预测的各种序列分类任务上对其进行微调。

与在相同模态数据集下预训练+微调的模型比较,基于自然语言的预训练可提高非语言下游任务的性能和计算效率。此外,还与随机初始化Transformer、LSTM 进行了比较。

总体性能图:

2. Introduction & Methodology

Introduction:简而言之,在大型语料库训练GPT,在不同任务的小数据集上做微调。注:仅针对线性输入和输出层,以及位置嵌入和层范数参数。

Methodology:

I. Bit memory, Bit XOR, ListOps. (数值计算任务) / MNIST, CIFAR-10, CIFAR-10 LRA (图像分类任务) / Remote homology detection (蛋白质折叠预测) II. Transformer模型就不做赘述;

3. Empirical Evaluations

3.1 Can pretrained language models transfer to different modalities?

结论:7个任务下,FPT基本和随机初始化Transformer持平,比随机初始化LSTM好。

3.2 What is the importance of the pretraining modality?

Random initialization (Random): 随机初始化的GPT-2;

Bit memory pretraining (Bit): 在Bit Memory数据集上预训练;

Image pretraining (ViT): 在ImageNet-21K上预训练;

结论:7个任务下,FPT最好;而其他预训练模型,在各自模态数据下会较优。

3.3 How important is the transformer architecture compared to LSTM architecture?

Trans.: 随机初始化Transformer

LSTM: 随机初始化LSTM

LSTM*: +12-Layer + Residual Connections + Positional Embeddings

结论:Transformer较之LSTM,存在明显模型优势。

3.4 Does language pretraining improve compute efficiency over random initialization?

结论:FPT模型收敛速度 faster >> Random Transformer

3.5 Do the frozen attention layers attend to modality-specific tokens?

结论: FPT 关注到数据中语义有效的模式,仅限Bit XOR任务

3.6 Does freezing the transformer prevent overfitting or underfitting?

结论: FPT 会欠拟合,可在增大模型容量来改进;Linformer反映Transformer会在低资源数据下过拟合。

3.7 Does performance scale with model size?

结论:较之从头训练的Transformer,FPT增大模型容量不会出现过拟合和模型不收敛。

3.8 Can performance be attributed simply to better statistics for initialization?

结论:移除FPT中的逐层均值和标准差,该Statistics Only模型介于FPT和 Random Transformer之间。

3.9 Can we train a transformer by only finetuning the output layer?

结论:FPT仅用于线性分类(Table. 10两项任务)的特征提取,1) 收敛加速;2)性能下降,模型过拟合(缺少对特征的正则化操作)

3.10 What is the role of model depth in token mixing?

With finetuning layernorm.:层少时,使用Pretrained Layer时对Token Mixing有效,层多到6层就没区别了。 Without finetuning layernorm.:Random模型一直不行,而Pretrained会ok,但是需要足够多的层才能恢复原始性能。

3.11 Can training more parameters improve performance?

结论:微调FFN Layer可提升性能,CIFAR-10只微调最后一个注意力层最佳;

3.12 Which parameters of the model are important to finetune?

消融仅微调选择参数,以查看哪些参数最敏感。

结论:+ layernorm, + input, + positions 都有用,其中+ layernorm最好

3.13 Is finetuning layer norm necessary for FPT to perform well?

只考虑微调输入和输出层,将整个FPT作为黑盒。

结论:仿射层范数参数的内部调制有所帮助,类似加入更精细的位置信息。

3.14 How well do the trends hold across other transformer models?

使用其他Transformer变种,如BERT,T5,Longformer;

结论:基于自然语言的预训练可提高非语言下游任务的性能和计算效率,该结论同样成立

4 Related Work and Discussion 略

5 Conclusion 略

【2】Pretrained Transformer As Universal Computation Engines相关推荐

  1. CV-Model【5】:Transformer

    系列文章目录 Transformer 系列网络(一): CV-Model[5]:Transformer Transformer 系列网络(二): CV-Model[6]:Vision Transfor ...

  2. 【NLP】关于Transformer的常见问题及解答

    作者 | Adherer 编辑 | NewBeeNLP PDF版文末自行下载哈~ 写在前面 前些时间,赶完论文,开始对 Transformer.GPT.Bert 系列论文来进行仔仔细细的研读,然后顺手 ...

  3. 【NLP】图解Transformer(完整版)

    译者:张贤,哈尔滨工程大学,Datawhale原创作者 本文约16000字,是NLP专栏第一篇,建议收藏阅读 审稿人:Jepson,Datawhale成员,毕业于中国科学院,目前在腾讯从事推荐算法工作 ...

  4. 【CV】Swin Transformer:使用 Shifted Windows 的分层视觉 Transformer

    论文名称:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文下载:https://arxiv.org/ ...

  5. 【NLP】使用Transformer模型进行文本分类

    作者 | Eric Fillion 编译 | VK 来源 | Towards Data Science 文本分类是NLP最常见的应用.与大多数NLP应用一样,Transformer模型近年来在该领域占 ...

  6. 【综述】基于Transformer的视频语言预训练

    关注公众号,发现CV技术之美 ▊ 1. 论文和代码地址 Survey: Transformer based Video-Language Pre-training 论文地址:https://arxiv ...

  7. 【解析】Vision Transformer 在图像分类中的应用

    An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale 代码:https://github.com/goog ...

  8. 【CS224n】(lecture9)Transformer的变体

    学习总结 Transformer 的进一步改进可能在于以下几个方向: 0.1 理论分析 Transformer 的架构已被证明能够支持具有足够参数的大规模训练数据集.许多工作表明,Transforme ...

  9. 论文笔记33 -- (CV)【ICCV2021】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    CV + Transformer 论文:点这里 官方代码:点这里 第三方代码:点这里 Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,S ...

最新文章

  1. 各种资源思科、gns3……
  2. halcon算子盘点:Chapter 17:Tools
  3. linux虚拟机ip地址更改
  4. python学习-函数(定义、可变参、小练习(列表最小值函数))
  5. [CF995F] Cowmpany Cowmpensation(树形dp,拉格朗日插值)
  6. 传输设备,光端机的应用及故障分析
  7. mit景观生成技术_永远不会再为工作感到不知所措:如何使用MIT技术
  8. c语言中的所有关键字,C语言中的32个关键字
  9. Mr.J--JavaScript-恶搞小代码
  10. Exchange企业实战技巧(1)验证安装及配置产品密钥
  11. IE下Ajax缓存(转载)
  12. 正负数据如何归一化_数据标准化period;归一化处理
  13. retrofit简单的网络请求
  14. 给大家推荐几个程序员必备网站
  15. java分解因式_Java将一个整数因式分解
  16. Python中的变量
  17. win10如何给c盘增加分区
  18. 宁波市第32届中小学生程序设计竞赛(初中组) 母鸡下蛋
  19. access通过身份证号提取性别_Access计算根据身份证号码字段计算年龄和性别的表达式,最好是还能确定户籍地址,该在什么地方输入?...
  20. Android如何避免抓包

热门文章

  1. 计算机无法用630打印机,Jolimark FP-630K+ 打印不全的解决方法分享
  2. AndroidTools:网络工具-测试下载速度
  3. 2022年安卓装Windows11操作系统教程+附软件包
  4. CTF-Misc-[BJDCTF2020]认真你就输了
  5. CentOS7-命令-关闭selinux
  6. 灼口综合征的症状和危害要找到解决办法
  7. 错误检测之奇偶校验码
  8. 【博学谷学习记录】超强总结,用心分享|大数据课程-学习第三周总结
  9. 10元倍数的整钱换1元、2元、5元的零钱组合C语言
  10. LocalDate、LocalTime和LocalDateTime用法