《原始论文:Unsupervised Cross-lingual Representation Learning at Scale》

Facebook AI团队于2019年11月发布了XLM-RoBERTa,作为其原始XLM-100模型的更新。它们都是基于Transformer的语言模型,都依赖于掩码语言模型目标,并且都能够处理100种不同语言的文本。

相较于原始版本,XLM-Roberta的最大更新是训练数据量的显著增加。经过清洗训练过的常用爬虫数据集占用高达2.5tb的存储空间!它比用来训练其前身的Wiki-100语料库大几个数量级,并且在资源较少的语言中,扩展尤其明显。

它比用来训练其前版本的Wiki-100语料库大几个数量级,并且在资源较少的语言中,这种扩大尤其明显。“ RoBERTa”从某方面来说,它的训练程序与单语言RoBERTa模型相同,特别是唯一的训练目标是掩码语言模型。它没有下句预测的á la BERT模型或者句子顺序预测的á la ALBERT模型。




参考资料:
XLM-RoBERTa: The alternative for non-english NLP
XLM-RoBERTa: 一种多语言预训练模型

NLP-预训练模型-2019:XLM-Roberta【一种多语言预训练模型】相关推荐

  1. 【NLP】打破BERT天花板:11种花式炼丹术刷爆NLP分类SOTA!

    文 | JayLou娄杰 编 | 小轶 在2020这个时间节点,对于NLP分类任务,我们的关注重点早已不再是如何构造模型.拘泥于分类模型长什么样子了.如同CV领域当前的重点一样,我们更应该关注如何利用 ...

  2. 【NLP】人大团队研究:面向文本生成,预训练模型进展梳理

    文本生成是 NLP 中最重要且颇具挑战性的任务之一.近年来,预训练语言模型 (Pretrained Language Models ,下文简称 "PLM") 的范式,极大地推动了该 ...

  3. Day03『NLP打卡营』实践课3:使用预训练模型实现快递单信息抽取

    Day03 词法分析作业辅导 本教程旨在辅导同学如何完成 AI Studio课程--『NLP打卡营』实践课3:使用预训练模型实现快递单信息抽取 课后作业. 1. 更换预训练模型 在PaddleNLP ...

  4. 势如破竹!169 篇论文带你看 BERT 在 NLP 中的 2019 年!

    来源: AI科技评论  编译 | JocelynWang 编辑 | 丛末 2019 年,可谓是 NLP 发展历程中具有里程碑意义的一年,而其背后的最大功臣当属  BERT ! 2018 年底才发布,B ...

  5. 语言五子棋无ai程序框图_微软多语言预训练模型T-ULRv2登顶XTREME排行榜

    编者按:为进一步实现用 AI 赋能用户体验,微软正在不断拓展多语言模型的边界.近日,由微软图灵团队与微软亚洲研究院联合探索的最新跨语言研究成果--多语言预训练模型 T-ULRv2,登顶 XTREME ...

  6. EMNLP 2021 | 百度:多语言预训练模型ERNIE-M

    作者 |‍ Chilia  ‍ 哥伦比亚大学 nlp搜索推荐 整理 | NewBeeNLP 2021年伊始,百度发布多语言预训练模型ERNIE-M,通过对96门语言的学习,使得一个模型能同时理解96种 ...

  7. 跨域预训练语言模型(XLM)

    XLM来自于Facebook ai的论文<Cross-lingual Language Model Pretraining>.目前多数语言模型都是单语义(monolingual)模型,比如 ...

  8. 《智源社区周刊:预训练模型》第2期:Facebook用“预微调”改进预训练性能、再议GPT-3中的东方主义偏见...

    超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第2期<智源社区周刊:预训练模型>,从论文推荐.研究动态.热点讨论等几个维度推 ...

  9. ERNIE-GeoL:“地理位置-语言”预训练模型

    本文介绍『文心大模型』的一项最新工作:"地理位置-语言"预训练模型 ERNIE-GeoL. 论文链接: https://arxiv.org/abs/2203.09127 实践中的观 ...

最新文章

  1. ssm框架mysql配置_ssm框架使用详解配置两个数据源
  2. Spring学习总结(6)——Spring之核心容器bean
  3. SQL提取表中某列字符长度为2的所有记录
  4. 把中缀表达式转化为后缀表达式
  5. Android Studio编译提示如下attribute layout_constraintBottom_toBottomOf (aka com.luck.pictureselector:layou
  6. python mysql lastrowid_加快MySQL对lastrowid的多个单次插入
  7. Rwordseg安装
  8. html5视频播放器使用,视频站启用html5播放器
  9. 数组的 sort() 方法详解
  10. 万能倍投计算器工具_一周总结上证A股市盈率14.83倍,这是机会还是风险呢?
  11. 微型计算机强化训练的答案,微型计算机第8章+强化训练
  12. linux终端清除命令,如何清除 Linux 中的终端?使用 clear 命令清除 Linux 终端
  13. 微信小程序:border属性
  14. GoodUP:智协云店通+BitCOO的4WiN全球互贸链 | 翼次元空间
  15. MyEclipse共享项目到SVN服务器
  16. 多线程抢票_多线程抢票系统浅析
  17. Windows 10创建用户
  18. 可在WPS环境中通用的vb6代码修改方法
  19. 【前端】菜单栏设计(html、css)
  20. Activiti6 流程模型图中文显示为方块□□

热门文章

  1. 【C++每日一练】13.最小的k个数
  2. mysql授权问题:1004 Access denied for user '用户名'@'%' to database
  3. 二叉树的抽象数据类型
  4. win7计算机服务打不开怎么办,Win7系统localhost打不开如何解决?
  5. 【MySQL】数据库索引原理 | 索引数据结构 | B+Tree
  6. 如何在线制作QQ微信表情包
  7. 浅谈解决雪花算法的时钟回拨问题
  8. 加速推进市域社会治理现代化在社会治理体系中有何作用
  9. 卷积神经网络入门基础知识
  10. shell脚本中exit0和exit1的含义