NLP集大成之预训练模型综述：https://mp.weixin.qq.com/s/BUcZqWlIPyuXtqh0M1IBdA

1.WORDLEVEL词级别

1.1 generative

1.1.1 MLM
Subword (BERT)

15% tokens: 80% [MASK], 10% random, 10% unchanged
在预处理阶段，给每个句子采样10种mask方式

Word (WWM)

根据分词后的词边界mask
Pre-Training with Whole Word Masking for ChineseBERT;2019.6.19
https://arxiv.org/abs/1906.08101

Entity/Phrase (Baidu ERNIE1.0)

Mask策略：word-level/phrase-leve/entity-level
50%的时候选entity或phrase，剩下选word（保持总体subword在15%）
1.0: https://arxiv.org/abs/1904.09223 2019.4.19
2.0: https://arxiv.org/abs/1907.12412 2019.7.29

Span/N-gram (SpanBERT)

根据几何分布，先随机选择一段（span）的长度，之后再根据均匀分布随机选择这一段的起始位置，最后按照长度遮盖。
文中使用几何分布取 p=0.2，最大长度只能是 10，平均被遮盖长度是 3.8 个词的长度。
参考Roberta的动态masking/一直训练长句
2019.7.24
https://arxiv.org/abs/1907.10529
https://zhuanlan.zhihu.com/p/75893972

Dynamic (RoBERTa)

每个Epoch见到的样本mask位置都不一样，实际上效果只提升了不到一个点
RoBERTa: A Robustly OptimizedBERT Pretraining Approach;2019.7.26
https://arxiv.org/abs/1907.11692

1.1.2 PLM (XLNet)

XLNet: Generalized Autoregressive Pretraining for Language
Understanding;2019.6.19
https://arxiv.org/abs/1906.08237
https://zhuanlan.zhihu.com/p/70218096

1.1.3 SBO (SpanBERT)

在训练时取 Span 前后边界的两个词，不在 Span 内，然后用这两个词向量加上 Span
中被遮盖掉词的位置向量，来预测原词。详细做法是将词向量和位置向量拼接起来，过两层全连接层比NSP表现好，有一个点的提升（个别3个点）
在span抽取式任务上有很大提升

1.1.4 InfoWord

ICLR2020
A Mutual Information Maximization Perspective of Language
Representation Learning;2019.10.18 DeepMind & CMU
https://arxiv.org/abs/1910.08350

1.2 discrimitive

1.2.1 WSO (StructBERT)

Word Structural Objective按K个一组打乱token顺序，预测原顺序（5%个trigram）和MLM
jointly等权重训练平均不到1个点或负增长，CoLA任务上有4个点的提升 ICLR2020
https://arxiv.org/abs/1908.04577

问题：

负增长是否由于joint训练？mask掉和需要预测位置的重合？以前只有15%的噪音，现在有30%

pretrain batchsize

1.2.2 RTD (ELECTRA)

ICLR2020
https://openreview.net/forum?id=r1xMH1BtvB
https://zhuanlan.zhihu.com/p/89763176

1.2.3 Capitalization Prediction (ERNIE2.0)

判断token是否大写，对英文NER有用

1.2.4 Token-Document Relation (ERNIE2.0)

判断token是否在文中其他地方出现
作者认为重复出现的都是比较重要的词

2.SENTENCELEVEL句级别

2.1self-supervised

2.1.1 NSP (BERT)

2 class: 50% next, 50% random from corpus
从消融实验来看，只对QNLI任务影响较大（3.5），对其他任务只有不到1%对影响

缺点：
SpanBERT：
1.相比起两句拼接，一句长句，模型可以获得更长上下文（类似 XLNet 的一部分效果）；
2.在 NSP 的负例情况下，基于另一个文档的句子来预测词，会给 MLM 任务带来很大噪音。
ALBERT：
3.学到的是主题相关
RoBERTa：
4. BERT的消融实验可能只去掉了NSP的loss term，但输入仍是sentence pair Symmetric Regularization：
5. BERT的顺序敏感，致使swap之后NLI任务效果下降

2.1.2 NSP+SOP (StructBERT)

3 class：预测是上一句/下一句/随机平均不到1个点的提升
StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding;2019.8.13
https://arxiv.org/abs/1908.04577

2.1.3 PN5cls+smth

previous sentence prediction
5 classs: next/prev/next-inadjacent/prev-inadjacent/diffdoc
在prev-inadj/next-inadj上用了0.8的label smoothing到prev/next
比BERTbase提升约1个点（8个glue任务） Symmetric Regularization based BERT for
Pair-wise Semantic Reasoning;2019.9.8,蚂蚁金服+达摩院
https://arxiv.org/abs/1909.03405

2.1.4 SOP (ALBERT)

Sentence Order Prediction
2class: 是next=1，是prev=0
提升1-3个点
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations,ICLR2020,2019.9.26,Google+Toyota
https://arxiv.org/abs/1909.11942
https://zhuanlan.zhihu.com/p/84273154

2.1.5 Sentence Reordering (ERNIE2.0)

把一段中的句子划分为m个片段，打乱，进行K分类 K = sum(n!), n = 1, …, m
2019.7.29

2.1.6 Sentence Distance (ERNIE2.0)

3 class：在同一篇文档且相邻/在同一篇文档不相邻/不在同一篇文档

2.1 supervised

2.2.1 DLM (Baidu ERNIE1.0)

Dialogue Language Model
多轮对话：QRQ, QRR, QQR
2 class:判断对话是真实的还是Fake
和MLM任务交替训练有一个点的提升

2.2.2 IR Relevance (ERNIE2.0)

3 class: 被点击/出现在搜索结果中/随机

2.2.3 Discourse Relation (ERNIE2.0)

判断句子的语义关系例如logical relationship( is a, has a, contract etc.)

预训练模型训练任务和策略相关推荐

使用预训练模型训练YOLOv3-Keras
使用预训练模型训练YOLOv3 文章目录使用预训练模型训练YOLOv3 前言 YOLOv3模型特点模型架构准备数据选取标注数据构建数据生成器,并做数据增强模型训练构建神经网络定义训练回 ...
[Pytorch系列-72]：生成对抗网络GAN - 图像生成开源项目pytorch-CycleGAN-and-pix2pix - 使用预训练模型训练CycleGAN模型
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析
目录相关链接 1 赛题分析 2 引言 3 方案 3.1 传统DL方案 3.2 预训练方案 4 提分技巧 5 加快训练 6 总结和反思 7 参考资料相关链接 [2021 第五届"达观杯&q ...
2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】3 Bert和Nezha方案
目录相关链接 1 引言 2 NEZHA方案 2.1 预训练 2.2 微调 3 Bert 方案 3.1 预训练 3.2 微调 3 模型融合和TTA测试集数据增强 4 总结和反思 5 参考资料相关链接 ...
「NLP」ALBERT：更轻更快的NLP预训练模型
目前在NLP领域,出彩的预训练模型的新工作,几乎都是基于BERT的改进,前面我们就介绍了XLNET.今天我来介绍一个更新的工作,相比于BERT,它更轻量,效果也要好. 作者 | 小Dream哥编辑 ...
word2vec模型评估_干货 | NLP中的十个预训练模型
Word2vec, Fasttext, Glove, Elmo, Bert, Flair pre-train Word Embedding源码+数据Github网址:https://github.co ...
【NLP】ALBERT：更轻更快的NLP预训练模型
目前在NLP领域,出彩的预训练模型的新工作,几乎都是基于BERT的改进,前面我们就介绍了XLNET.今天我来介绍一个更新的工作,相比于BERT,它更轻量,效果也要好. 作者&编辑 | 小Dre ...
如何获取高精度CV模型？快来试试百度EasyDL超大规模视觉预训练模型
在深度学习领域,有一个名词正在被越来越频繁地得到关注:迁移学习.它相比效果表现好的监督学习来说,可以减去大量的枯燥标注过程,简单来说就是在大数据集训练的预训练模型上进行小数据集的迁移,以获得对新数据较 ...
百度大脑 EasyDL 专业版最新上线自研超大规模视觉预训练模型
在学习与定制AI模型的过程中,开发者会面对各种各样的概念,在深度学习领域,有一个名词正在被越来越频繁地得到关注:迁移学习.它相比效果表现好的监督学习来说,可以减去大量的枯燥标注过程,简单来说就是在大数 ...

预训练模型训练任务和策略