NLP集大成之预训练模型综述:https://mp.weixin.qq.com/s/BUcZqWlIPyuXtqh0M1IBdA

1.WORDLEVEL词级别

1.1 generative

1.1.1 MLM
Subword (BERT)

15% tokens: 80% [MASK], 10% random, 10% unchanged
在预处理阶段,给每个句子采样10种mask方式

Word (WWM)

根据分词后的词边界mask
Pre-Training with Whole Word Masking for ChineseBERT;2019.6.19
https://arxiv.org/abs/1906.08101

Entity/Phrase (Baidu ERNIE1.0)

Mask策略:word-level/phrase-leve/entity-level
50%的时候选entity或phrase,剩下选word(保持总体subword在15%)
1.0: https://arxiv.org/abs/1904.09223 2019.4.19
2.0: https://arxiv.org/abs/1907.12412 2019.7.29

Span/N-gram (SpanBERT)

根据几何分布,先随机选择一段(span)的长度,之后再根据均匀分布随机选择这一段的起始位置,最后按照长度遮盖。
文中使用几何分布取 p=0.2,最大长度只能是 10,平均被遮盖长度是 3.8 个词的长度。
参考Roberta的动态masking/一直训练长句
2019.7.24
https://arxiv.org/abs/1907.10529
https://zhuanlan.zhihu.com/p/75893972

Dynamic (RoBERTa)

每个Epoch见到的样本mask位置都不一样,实际上效果只提升了不到一个点
RoBERTa: A Robustly OptimizedBERT Pretraining Approach;2019.7.26
https://arxiv.org/abs/1907.11692

1.1.2 PLM (XLNet)

XLNet: Generalized Autoregressive Pretraining for Language
Understanding;2019.6.19
https://arxiv.org/abs/1906.08237
https://zhuanlan.zhihu.com/p/70218096

1.1.3 SBO (SpanBERT)

在训练时取 Span 前后边界的两个词,不在 Span 内,然后用这两个词向量加上 Span
中被遮盖掉词的位置向量,来预测原词。详细做法是将词向量和位置向量拼接起来,过两层全连接层 比NSP表现好,有一个点的提升(个别3个点)
在span抽取式任务上有很大提升

1.1.4 InfoWord

ICLR2020
A Mutual Information Maximization Perspective of Language
Representation Learning;2019.10.18 DeepMind & CMU
https://arxiv.org/abs/1910.08350

1.2 discrimitive

1.2.1 WSO (StructBERT)

Word Structural Objective按K个一组打乱token顺序,预测原顺序(5%个trigram)和MLM
jointly等权重训练 平均不到1个点或负增长,CoLA任务上有4个点的提升 ICLR2020
https://arxiv.org/abs/1908.04577

问题:

  1. 负增长是否由于joint训练?mask掉和需要预测位置的重合?以前只有15%的噪音,现在有30%
  2. pretrain batchsize

1.2.2 RTD (ELECTRA)

ICLR2020
https://openreview.net/forum?id=r1xMH1BtvB
https://zhuanlan.zhihu.com/p/89763176

1.2.3 Capitalization Prediction (ERNIE2.0)

判断token是否大写,对英文NER有用

1.2.4 Token-Document Relation (ERNIE2.0)

判断token是否在文中其他地方出现
作者认为重复出现的都是比较重要的词

2.SENTENCELEVEL句级别

2.1self-supervised

2.1.1 NSP (BERT)

2 class: 50% next, 50% random from corpus
从消融实验来看,只对QNLI任务影响较大(3.5),对其他任务只有不到1%对影响

缺点:
SpanBERT:
1.相比起两句拼接,一句长句,模型可以获得更长上下文(类似 XLNet 的一部分效果);
2.在 NSP 的负例情况下,基于另一个文档的句子来预测词,会给 MLM 任务带来很大噪音。
ALBERT:
3.学到的是主题相关
RoBERTa:
4. BERT的消融实验可能只去掉了NSP的loss term,但输入仍是sentence pair Symmetric Regularization:
5. BERT的顺序敏感,致使swap之后NLI任务效果下降

2.1.2 NSP+SOP (StructBERT)

3 class:预测是上一句/下一句/随机 平均不到1个点的提升
StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding;2019.8.13
https://arxiv.org/abs/1908.04577

2.1.3 PN5cls+smth

previous sentence prediction
5 classs: next/prev/next-inadjacent/prev-inadjacent/diffdoc
在prev-inadj/next-inadj上用了0.8的label smoothing到prev/next
比BERTbase提升约1个点(8个glue任务) Symmetric Regularization based BERT for
Pair-wise Semantic Reasoning;2019.9.8,蚂蚁金服+达摩院
https://arxiv.org/abs/1909.03405

2.1.4 SOP (ALBERT)

Sentence Order Prediction
2class: 是next=1,是prev=0
提升1-3个点
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations,ICLR2020,2019.9.26,Google+Toyota
https://arxiv.org/abs/1909.11942
https://zhuanlan.zhihu.com/p/84273154

2.1.5 Sentence Reordering (ERNIE2.0)

把一段中的句子划分为m个片段,打乱,进行K分类 K = sum(n!), n = 1, …, m
2019.7.29

2.1.6 Sentence Distance (ERNIE2.0)

3 class:在同一篇文档且相邻/在同一篇文档不相邻/不在同一篇文档

2.1 supervised

2.2.1 DLM (Baidu ERNIE1.0)

Dialogue Language Model
多轮对话:QRQ, QRR, QQR
2 class:判断对话是真实的还是Fake
和MLM任务交替训练 有一个点的提升

2.2.2 IR Relevance (ERNIE2.0)

3 class: 被点击/出现在搜索结果中/随机

2.2.3 Discourse Relation (ERNIE2.0)

判断句子的语义关系例如logical relationship( is a, has a, contract etc.)

预训练模型训练任务和策略相关推荐

  1. 使用预训练模型训练YOLOv3-Keras

    使用预训练模型训练YOLOv3 文章目录 使用预训练模型训练YOLOv3 前言 YOLOv3模型特点 模型架构 准备数据 选取标注数据 构建数据生成器,并做数据增强 模型训练 构建神经网络 定义训练回 ...

  2. [Pytorch系列-72]:生成对抗网络GAN - 图像生成开源项目pytorch-CycleGAN-and-pix2pix - 使用预训练模型训练CycleGAN模型

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...

  3. 【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析

    目录 相关链接 1 赛题分析 2 引言 3 方案 3.1 传统DL方案 3.2 预训练方案 4 提分技巧 5 加快训练 6 总结和反思 7 参考资料 相关链接 [2021 第五届"达观杯&q ...

  4. 2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】3 Bert和Nezha方案

    目录 相关链接 1 引言 2 NEZHA方案 2.1 预训练 2.2 微调 3 Bert 方案 3.1 预训练 3.2 微调 3 模型融合和TTA测试集数据增强 4 总结和反思 5 参考资料 相关链接 ...

  5. 「NLP」ALBERT:更轻更快的NLP预训练模型

    目前在NLP领域,出彩的预训练模型的新工作,几乎都是基于BERT的改进,前面我们就介绍了XLNET.今天我来介绍一个更新的工作,相比于BERT,它更轻量,效果也要好. 作者 | 小Dream哥 编辑 ...

  6. word2vec模型评估_干货 | NLP中的十个预训练模型

    Word2vec, Fasttext, Glove, Elmo, Bert, Flair pre-train Word Embedding源码+数据Github网址:https://github.co ...

  7. 【NLP】ALBERT:更轻更快的NLP预训练模型

    目前在NLP领域,出彩的预训练模型的新工作,几乎都是基于BERT的改进,前面我们就介绍了XLNET.今天我来介绍一个更新的工作,相比于BERT,它更轻量,效果也要好. 作者&编辑 | 小Dre ...

  8. 如何获取高精度CV模型?快来试试百度EasyDL超大规模视觉预训练模型

    在深度学习领域,有一个名词正在被越来越频繁地得到关注:迁移学习.它相比效果表现好的监督学习来说,可以减去大量的枯燥标注过程,简单来说就是在大数据集训练的预训练模型上进行小数据集的迁移,以获得对新数据较 ...

  9. 百度大脑 EasyDL 专业版最新上线自研超大规模视觉预训练模型

    在学习与定制AI模型的过程中,开发者会面对各种各样的概念,在深度学习领域,有一个名词正在被越来越频繁地得到关注:迁移学习.它相比效果表现好的监督学习来说,可以减去大量的枯燥标注过程,简单来说就是在大数 ...

最新文章

  1. jupyter的下载安装
  2. DBGrid 应用全书(一)
  3. Bash shell - 2
  4. 20171117-构建之法:现代软件工程-阅读笔记
  5. 用js自动把url加入ubb代码的函数
  6. Java反射:框架设计的灵魂
  7. 解决MySQL事务未提交导致死锁报错 避免死锁的方法
  8. 英特尔SVT-AV1 0.8 AV1视频编码基准发布
  9. iPhone:文本设计的注意事项
  10. Emlog精简模板无繁琐操作,适合新手
  11. careercup-递归和动态规划 9.10
  12. java用 拼接字符串的原理_Java String 拼接字符串原理详解
  13. Django新手图文教程
  14. 对比修改过的两个BOM表
  15. 如何安装biopython_Biopython - 安装
  16. linux clac countif的使用
  17. Markdown - 推荐一个markdown在线编辑器
  18. web前端入门知识大全:系统路线,各类要点解析
  19. 任务调度之Elastic-Job
  20. 当台式机能搜索到WiFi,但是连不上WiFi时,如何解决?

热门文章

  1. 小红书上线社区公约,博主和品牌方要注意这5点!
  2. UG塑胶模具设计之透明PS水杯,建议收藏
  3. Python3.X subprocess、os.system/os.popen/os.spawn*、commands:与系统进行交互,如测试时常用的adb命令
  4. 卡牌大师怎么玩_lol10.10版本卡牌大师怎么玩 卡牌天赋出装详解
  5. 在VBA里使用range(cells(),cells()) ,一个容易出错的点:需要注意 range() 和cells() 前都指定好sheet名!
  6. 使用go生成以太坊私钥并获取其地址查询余额
  7. JavaScript基础语法入门
  8. 计算机学院院长讲话稿,院长致辞
  9. 几十行代码实现Java爬虫,结合jsoup爬取网名昵称
  10. 一本通 1271:【例9.15】潜水员(二维费用背包)