文 | 小轶

综述，往往是了解一个子领域最为高效的起点。然而，对于AI这样一个日新月异高速发展的行业，时效性也自然地成为了我们选择综述的衡量指标之一。即使一篇 AI 综述具有超高 citation，如果它写于 20 年前，那对今天的我们来说，这份综述的总结必然是不够全面的。那么，站在 NLP 发展轨迹中的此时此刻，哪些综述是当前最值得阅读的呢？

本文参考了 Elvis Saravia 相关主题的 twitter[1]，以及其他网友的推荐，为大家整理了 13 篇高质量综述，囊括了该细分领域的最新发展现状。其中有几篇，卖萌屋已经在往期推送中为大家介绍过了。如果大家对其他某篇特别感兴趣，也可以在评论区留言，点赞数量较多的话，卖萌屋作者团队会在日后的推送中献上该文的详细解析。

Transformer 相关

改良理论总结

首先是绕不开的 Transformer 系列。自 Transformer 在17年底被提出后，又涌现了大量Transformer的变体，各自从不同的角度来改良Transformer。据不完全统计，以改进 Transformer 为主题的论文，已有 200+ 篇。

其实从去年开始就已经陆续有了几篇 Transformer 相关的综述文章，卖萌屋也有过相关的推送。譬如，子龙小哥哥的这篇《Transformer哪家强？Google爸爸辨优良！》，讲的是去年年底谷歌推出的一份 Transformer 综述。Sherry 也写过《谁才是Transformer家族中的最强王者？谷歌告诉你答案》，这篇更于侧重实验论证，而非理论小结：通过实验比较了各类对 Transformer的改进方式，发现“最有效的改进反而是那些简单而细节的变化：比如替换成GeGLU激活函数，使用RMS正则化等；而反观模型上的改进，很少的方法可以推广到所有任务中”。

在诸多 Transformer 综述中，我们最为推荐的是以下这篇：

论文标题：
A Survey of Transformers
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/2106.04554

来自于复旦邱锡鹏老师的团队，6月15日刚刚发表在arxiv上，应该是当前最新、最全面的 Transformer 综述了。和之前综述相比，这篇文章以Transformer各结构模块为脉络进行总结（如下图所示），结构会更加清晰一些。

下游任务应用指南

上面这一篇主要是从理论角度进行总结，但在实际应用中可能还是不太清楚应该采用怎样的架构。如果你有类似的问题，不妨阅读以下这篇，可能会有所启发：

论文标题：
The NLP Cookbook: Modern Recipes for Transformer based Deep Learning Architectures
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/2104.10640

这篇文章是基于任务场景进行总结的，相当于一个 Transformer 应用指南了。今年4月发表在arxiv上，也是时效性非常强的文章了。

另外再推荐一篇发表于今年 IJCAI'21 的 survey。这篇是专门讲预训练语言模型在文本生成上的应用。做生成的同学可以看一看：

论文标题：
Pretrained Language Models for Text Generation: A Survey
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/2105.10311

轻量 Transformer

基于 Transformer 的模型往往规模宏大，训练时间也比较长。实际应用时，往往限于实验条件和落地场景，需要对其进行改造以提高运算效率、压缩模型规模。以下两篇综述，对于如何提高 Transformer 效率的方法进行了总结：

论文标题：
A Practical Survey on Faster and Lighter Transformers
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/2103.14636

论文标题：
Efficient Transformers: A Survey
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/2103.14636

关于轻量 Transformer，卖萌屋往期也有不少相关推送，这里推荐两篇其中较新的：《超硬核 ICML’21 | 如何使自然语言生成提速五倍》（五星推荐(ง •̀_•́)ง），以及《Transformer太大了，我要把它微调成RNN》。

视觉 Transformer

与NLP领域不同，隔壁CV界长期占主导地位的还是 CNN 系列的框架。直到去年，我们无敌的 Transformer 开始向 CV 界渗透。在下图时间轴中，罗列了 Transformer发展历程中的几大里程碑，其中视觉 Transformer 模型被标为红色。

下面这篇综述对视觉 Transformer 模型做了总结。对这个新兴方向感兴趣的话，不妨以它作为深入了解的起点：

论文标题：
A Survey on Visual Transformer
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/2012.12556

但这篇文章写于今年年初，有不少今年新出的相关工作并未囊括，其中就包括今年大火的、霸榜了 CV 各大榜单的 Swin Transformer（关于 Swin Transformer的介绍，可以参阅《屠榜CV还不是这篇论文的终极目标，它更大的目标其实是……》）。

GNN

图神经网络也是现在大火的方向。在所有能跟逻辑结构之类、能跟图结构扯上点关系的子领域，似乎只要在模型架构里接个 GNN，一篇 paper 就差不多成了 (:з」∠)

关于GNN的综述，我们推荐以下两篇：

论文标题：
A Comprehensive Survey on Graph Neural Networks
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/1901.00596

论文标题：
Graph Neural Networks for Natural Language Processing: A Survey
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/2106.06090

其中最为经典、citation最高的是第一篇，发表于19年底，如今引用量已有1600+；篇幅也比较短（22页）。第二篇是今年最新的综述，篇幅有127页之多。

对于初学者还是更推荐第一篇，可以配合下面这个视频共同食用。这个教学视频是李宏毅老师的 TA 补充课程，非常初学者友好。

GNN 教学视频：
https://www.youtube.com/watch?v=eybCCtNKwzA

文本增强

数据增强，简单来说就是构造新数据、扩大数据量的技术。那在 NLP 领域，就是构造新的文本数据，也就是所谓的“文本增强”。现在文本增强已经有很多现成的工具库了。对于数据稀疏的场景，都可以试一试文本增强，往往能获得意想不到的效果。在我们上月的推送《谢撩，人在斯坦福打SoTA》中，Jazon 小哥哥就是巧妙地应用了文本增强的方法，一不小心就把 CS224n 大作业刷成了 SoTA。

文本增强的综述首推下面这篇，由 CMU 、MILA 、谷歌联合推出，发表于今年3月：

论文标题：
A Survey of Data Augmentation Approaches for NLP
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/2105.03075

这篇我们 sherry 小姐姐也已经写过了相关介绍：《CMU & MILA & 谷歌 | 三家巨头发布史上最干文本增强总结》。

这里也顺便给大家推荐几个好用的文本增强工具：

NLPAUG：https://github.com/makcedward/nlpaug
TextAttack:https://github.com/QData/TextAttack
Noisemix：https://github.com/noisemix/noisemix
Textaugment：https://github.com/dsfsi/textaugment
Niacin：https://github.com/deniederhut/niacin
SeaQuBe:https://github.com/bees4ever/SeaQuBe

Multi-task Learning

多任务学习的相关工作其实一直都有。近期 NLP 界比较流行的做法是 multi-task + 预训练的范式。最简单的做法就是根据具体应用场景，在domain continual pretrain 的时候添加几个辅助任务。比如，要训一个会解数学题的 AI，就可以添一个辅助任务，让模型根据题面预测对应知识点（参见《ACL'21 | 多模态数值推理新挑战，让 AI 学解几何题》）。只要辅助任务添加得合理，一般都是能获得性能提升的。要是设计得比较新颖，效果比较好，说不定又是一篇 paper (:з」∠)

在 multi-task 方面最为经典的综述是以下这篇：

论文标题：
An Overview of Multi-Task Learning in Deep Neural Networks
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/1706.05098

AI 工业落地

最后推荐这三篇与 AI 工业落地相关，并不止限于 NLP 的角度。

论文标题：
Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/2106.08962

论文标题：
Requirement Engineering Challenges for AI-intense Systems Development
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/2103.10270

论文标题：
Technology Readiness Levels for Machine Learning Systems
原文链接：
https://arxiv-download.xixiaoyao.cn/pdf/2101.03989

第一篇主要是讲如何从模型设计和硬件环境等方面提高模型效率，讨论了在工业落地时应该优先考虑哪些模型效率问题，优先从哪些角度进行优化等等重要问题。

第二篇探讨的是 AI 落地所面临的挑战，包括数据需求、性能定义（评估问题）等等，并且给出了许多实用的 tips。

第三篇于今年年初发布，由12家工业&学术界巨头联合推出了一个所谓机器学习技术成熟度 量表，用于说明一个合格的 ML 产品要经过哪些检验才能上线。关于这篇的详细解读可以参考往期推送《学术&工业界大佬联合打造：ML产品落地流程指南》（出自亲爱的白鸟鸟同学 (✿◡‿◡)。

小结

以上就是我们为大家推荐的 13 篇前沿综述。仅仅 13 篇当然还远不足以覆盖到 NLP 研究的方方面面。如果有未提及的精品 NLP 综述，也欢迎各位在评论区补充~

不知道大家是不是也和小轶一样，每次翻到高质量综述的时候，就会有一种学习的热情油然而生。仿佛只要啃完眼前这篇综述，就可以进化了一样！就让我们一起加油 —— 启动超级爱学习形态 (ง •̀_•́)ง！

萌屋作者：小轶

之前的作者介绍是去年夕总帮我写的，关注小屋比较久的小伙伴或许还记得：“本科毕业于北大计算机系的美少女学霸。原计划赴美国就读CMU的王牌硕士项目MCDS，不过因为疫情正处于gap year，于是就来和小夕愉快地玩耍啦......” 现在 gap year 快结束了，向大家更新一下最新动向。由于在过去一年突然感到前所未有的科研热情，所以——我要读博了。希望未来的日子里也能与卖萌屋的小伙伴们共同成长。不忘初心，保持发量！（知乎ID：小轶）

作品推荐：

有钱可以多任性？OpenAI提出人肉模型训练，文本摘要全面超越人类表现！

ACL20 Best Paper揭晓！NLP模型评价体系或将迎来重大转折

Attention模型：我的注意力跟你们人类不一样

谷歌重磅：可以优化自己的优化器！手动调参或将成为历史！？

EMNLP'20最佳论文揭晓！八块肌肉=能打电话？！

全球44家机构，55位大佬，历时两年，打造最强NLG评测基准！

寻求报道、约稿、文案投放：
添加微信xixiaoyao-1，备注“商务合作”

后台回复关键词【入群】

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各大顶会论文集！

[1]https://twitter.com/omarsar0/status/1406574508635525125

写了一篇关于 NLP 综述的综述！相关推荐

自然语言处理nlp全领域综述
************************* 精华总结,时间不够只看这个部分就行了 1.书和课 Michael Collins:COMS W4705: Natural Language Proc ...
如何写好一篇高质量的IEEE/ACM Transaction级别的计算机科学论文?
转自<知乎>如何写好一篇高质量的IEEE/ACM Transaction级别的计算机科学论文? 问题: 作为一个博士生,一直为写论文头疼,读过很多高质量论文,觉得写的真好,但是轮到自己 ...
如何写好一篇论文——闵老师《论文写作》心得
如何写好一篇论文--闵老师<论文写作>心得文章目录如何写好一篇论文--闵老师<论文写作>心得一. 学术论文基本概念二.选题三.准备工作写作工具阅读大量高质量论文 ...
java毕业设计开题报告怎么写如何写好一篇论文开题报告
如何写好一篇论文开题报告开题报告的结构 (一)论文名称论文名称就是课题的名字. 第一,名称要准确.规范.准确就是论文的名称要把论文研究的问题是什么,研究的对象是什么交待清楚,论文的名称一定要和研究 ...
如何写好一篇论文-02
读博随笔(六)如何写好一篇论文-02 博士生的写作tips 论文组织结构摘要(Abstract)和引言(Introduction) 文献综述(Literature review) 文章主体结论(C ...
如何写好一篇毕业论文？
写毕业论文和装修在某种程度上有相似性--是个发生频率低,但工程量巨大的事情.很多人可能活了20多年第一次接触论文(或装修),悲催的是从开始了解相关知识到独立完成也只有几个月的时间,不得不摸着石头过河, ...
如何写好一篇技术论文
科技论文的写作质量是决定论文能否被录取的关键因素之一,再酷炫的算法如果写不好也难逃被拒的命运.因此,如何能写出好论文也成为了研究人员必须学习并掌握的一门"技术". 这次分享主要介绍 ...
【论文指导】计算机毕业设计，摘要如何写？15篇案例把你安排明白
作者主页:Designer 小郑作者简介:Java全栈软件工程师一枚,来自浙江宁波,负责开发管理公司OA项目,专注软件前后端开发(Vue.SpringBoot和微信小程序).系统定制.远程技术指导. ...
转: 如何写好一篇文章
第一份sci是这样写出来的我的导师是这样说的,先去看看1区的文献,在看看4区的文献,告诉我他们有什么区,不同.然后写一份报告给我. 导师告诉我写论文是时候需要问问自己以下4个问题你为何要开始(Why ...

写了一篇关于 NLP 综述的综述！