RoBERTa是的BERT的常用变体,出自Facebook的RoBERTa: A Robustly Optimized BERT Pretraining Approach。来自Facebook的作者根据BERT训练不足的缺点提出了更有效的预训练方法,并发布了具有更强鲁棒性的BERT:RoBERTa。

RoBERTa通过以下四个方面改变来改善BERT的预训练:在MLM任务中使用动态掩码而不是静态掩码;移除NSP任务,仅使用MLM任务;通过更大的批数据进行训练;使用BBPE作为分词器。

1 动态掩码

RoBERTa使用动态掩码。BERT中,对于每一个样本序列进行mask之后,mask的tokens都固定下来了,也就是静态mask的方式。RoBERTa的训练过程中使用了动态mask的方式:对于每一个输入样本序列,都会复制10条,然后复制的每一个都会重新随机mask,其中每个句子被mask的token不同:即拥有不同的masked tokens。

MASK结果如下所示:

在模型训练时,对于每个epoch,使用不同标记被[MASK]的句子喂给模型。这样模型只会在训练10个epoch之后看到具有同样掩码标记的句子。比如,句子1会被epoch1,epoch11,epoch21和epoch31看到。这样,我们使用动态掩码而不是静态掩码去训练RoBERTa模型。

2 移除NSP任务

为了证明可以移除NSP任务,论文进行了以下对比实验:

1.SEGMENT-PAIR+NSP: NSP任务保留。每个输入是段落(segment),每个片段由多个自然句子组成,最大长度为512;
        2.SENTENCE-PAIR+NSP:NSP任务保留。每个输入是一对自然句子,每个自然句子可是一个文本的连续部分,也可以是不同文本。因为这些输入显然少于512,因此增加了批大小,让一个批次总的单词数和SEGMENT-PAIR+NSP差不多。同时保留NSP loss;
        3.FULL-SENTENCES: 每个输入都包含从一个或多个文档中连续采样完整句子,因此总长度差不多512个单词。输入可能跨越文档边界,如果跨文档,则在上一个文档末尾添加文档边界标记。移除NSP loss;
        4.DOC-SENTENCES: 每个输入都包含从一个连续采样的完整句子,输入格式和FULL-SENTENCES类似,除了它们不会跨域文档边界。在文档末尾附近采样的输入可能短于 512 个单词,所以动态增加了批大小让单词总数和FULL-SENTENCES类似。移除NSP loss;

实验结果如下图所示:

从实验结果看,BERT在FULL-SENTENCESDOC-SENTENCES设定中表现的更好,这两者都剔除了NSP任务。对比FULL-SENTENCESDOC-SENTENCES,DOC-SENTENCES只从一篇文档中采样,此种设定的表现比FULL-SENTENCES在多篇文档中采样要好。但在RoBERTa中,作者使用了FULL-SENTENCES,因为DOC-SENTENCES导致批大小变化很大。

3 更大规模训练数据

3-3-1 训练语料

BERT的预训练语料是 BOOKCORPUS+English WIKIPEDIA的16GB语料。RoBERT除了在Toronto BookCorpus和英文维基百科上进行训练,还在CC-News(Common Crawl-News)数据集、Open WebText和Stories(Common Crawl的子集)上进行训练。RoBERT模型在5个数据集上进行预训练,这5个数据集总大小为160G。

3-3-2 batch size

BERT预训练的batch size为256,训练了1M步。而RoBERTa则使用了更大的batch size,训练RoBERTa时采样了更大的批大小,达到了8000,训练了300000步。在同样的批大小上,也训练了一个更长训练步的版本,有500000步。训练一个更大的批大小可以增加训练速度同时也可以优化模型的表现。

4 BBPE作为分词器

BERT使用WordPiece分词器。WordPicce分词器类似于BPE分词器,它基于符号对的概率还不是频率来合并符号对。

而RoBERTa使用BBPE作为分词器。BBPE基于字节级序列,先将文本转换为字节级序列,然后应用BPE算法根据字节级符号对构建词表,BERT使用30000大小的词表,RoBERTa使用大约50000大小的词表。

5 Roberta使用

#导入模块
from transformers import RobertaConfig, RobertaModel, RobertaTokenizer
#加载模型
Robert_model = model = RobertaModel.from_pretrained('roberta-base')
#加载分词器
tokenizer = RobertaTokenizer.from_pretrained('roberta-base')
RobertaConfig {"_name_or_path": "roberta-base","architectures": ["RobertaForMaskedLM"],"attention_probs_dropout_prob": 0.1,"bos_token_id": 0,"classifier_dropout": null,"eos_token_id": 2,"gradient_checkpointing": false,"hidden_act": "gelu","hidden_dropout_prob": 0.1,"hidden_size": 768,"initializer_range": 0.02,"intermediate_size": 3072,"layer_norm_eps": 1e-05,"max_position_embeddings": 514,"model_type": "roberta","num_attention_heads": 12,"num_hidden_layers": 12,"pad_token_id": 1,"position_embedding_type": "absolute","transformers_version": "4.10.3","type_vocab_size": 1,"use_cache": true,"vocab_size": 50265
}

Reference:
https://helloai.blog.csdn.net/article/details/120499194?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-120499194-blog-124881981.pc_relevant_3mothn_strategy_recovery&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-120499194-blog-124881981.pc_relevant_3mothn_strategy_recovery&utm_relevant_index=2https://helloai.blog.csdn.net/article/details/120499194?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-1-120499194-blog-124881981.pc_relevant_3mothn_strategy_recovery&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-1-120499194-blog-124881981.pc_relevant_3mothn_strategy_recovery&utm_relevant_index=2

【深度学习】BERT变体—RoBERTa相关推荐

  1. 深入理解深度学习——BERT派生模型:XLM(Cross-lingual Language Model)

    分类目录:<深入理解深度学习>总目录 BERT本应在语义理解上具有绝对优势,但其训练语料均为英语单语,受限于此,早期的BERT只在英语文本理解上有优势.随着全球化进程的加速,跨语言的预训练 ...

  2. 高效的深度学习:将深度学习模型变得更小、更快、更好的综述

    ©PaperWeekly 原创 · 作者 | 王馨月 学校 | 四川大学本科生 研究方向 | 自然语言处理 摘要 深度学习彻底改变了计算机视觉.自然语言理解.语音识别.信息检索等领域.然而,随着深度学 ...

  3. 深入理解深度学习——BERT派生模型:BART(Bidirectional and Auto-Regressive Transformers)

    分类目录:<深入理解深度学习>总目录 UniLM和XLNet都尝试在一定程度上融合BERT的双向编码思想,以及GPT的单向编码思想,同时兼具自编码的语义理解能力和自回归的文本生成能力.由脸 ...

  4. 深入理解深度学习——BERT派生模型:SpanBERT(Improving Pre-training by Representing and Predicting Spans)

    分类目录:<深入理解深度学习>总目录 MLM训练方法是BERT拥有自然语言理解能力的核心训练方法.然而,BERT在预训练过程中挑选掩码词的概率是独立计算的,即BERT掩码词的粒度是最小的, ...

  5. 10.23 开一个专栏,金融人工智能,设计深度学习,智能体交易,平台api接口等学习内容

    大纲 1.sklearn,tensorflow,keras,各种机器学习模型,深度学习DNN模型,RNN,强化学习等 2.智能体依赖的向量化回测模块,包括env环境模块,类似于gym,回测 3.oan ...

  6. 18 岁清华毕业,95后博士生杨幻睿将深度学习 “单核” 变“多核”,显著提高 “对抗性攻击” 防御力-1

    9 月 26 日,杜克大学陈怡然教授在微博秀出了组里博士生的成绩--杨幻睿同学的论文被 NeurIPS 评为最优的 Oral 级别,并不忘强调"还是家里领导最牛",狠狠向粉丝撒了一 ...

  7. 【深度学习】BERT变体—BERT-wwm

    1.BERT-wwm 1-1 Whole Word Masking         Whole Word Masking (wwm)是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了 ...

  8. BERT的优秀变体:ALBERT论文图解介绍

    2020-06-15 09:22:09 作者:amitness 编译:ronghuaiyang 正文共: 3116 字 21 图 预计阅读时间: 9 分钟 导读 ALBERT作为BERT的一个变体,在 ...

  9. 【MATLAB深度学习工具箱】学习笔记--体脂估计算例再分析:拟合神经网络fitnet里面的数据结构】

    原文链接如下 [MATLAB深度学习工具箱]学习笔记--体脂估计Body Fat Estimation_bear_miao的博客-CSDN博客介绍本示例展示一个函数拟合神经网络如何根据解剖学测量结果估 ...

  10. 分布式存储图解_BERT的youxiu变体:ALBERT论文图解介绍

    作者:amitness 编译:ronghuaiyang 正文共: 3116 字 21 图 预计阅读时间: 9 分钟 原文链接: BERT的youxiu变体:ALBERT论文图解介绍​mp.weixin ...

最新文章

  1. linux wifi-tools,Linux下WiFi工具wireless_tools交叉编译,及其支持生成iwconfig使用的内核配置...
  2. Event自定义事件
  3. 2019年上半年收集到的人工智能机器学习方向干货文章
  4. 如何构建高性能web站点之:分布式缓存
  5. 中国研究的超级系统计算机,[公告]超级系统恢复--学习电脑 Book 3 V1.1
  6. 【Git】cannot create directory invalid argument
  7. 案例:6 种 A / B 测试成功培养用户使用习惯
  8. python tfidf特征变换_Spark MLlib机器学习开发指南(4)--特征提取--TF-IDF
  9. .net项目进不去后台解决
  10. ELK下Kibana性能调优
  11. mysql查询优化~group by知多少
  12. 大数据-浅谈hive优化
  13. redis之集群运维总结
  14. 木瓜移动:黑五网一爆冷跨境电商如何破局?
  15. 移动指数加权平均笔记
  16. 世界排名第一的免费开源WMS仓储物流管理系统介绍
  17. OpenCV—python OCR文本检测
  18. asp毕业设计——基于asp+access的校园网上购物平台设计与实现(毕业论文+程序源码)——网上购物平台
  19. jvm-sandbox实战之编写简单案例
  20. MySQL查询最大值(最小值)或前n个最大(最小)值的方法分析

热门文章

  1. 使用noodejs文件系统操作文件,排序去重。
  2. 关键词短语生成的无监督方法12——Train.py
  3. Unity功能开发 新手引导
  4. 实验五 Android Studio RecyclerView列表视图【班级名单列表视图01】
  5. 面临淡季的危机,为什么同行却全然不惧,软文推广很有用
  6. RocketMQ与Kafka差异全面对比
  7. 学习笔记10--局部轨迹生成主要方法
  8. 管理入门1之初为管理者的误区
  9. 云办公管理平台 部署手册(无图)
  10. 图的邻接矩阵:深度优先遍历