晓查 发自 凹非寺
量子位 出品 | 公众号 QbitAI

几周前,谷歌发布了新的NLP模型XLNet,它在20项基准测试中均优于BERT。

但是与BERT相比,XLNet模型的训练数据比BERT大10倍。这让学术界和工业界对此产生了疑问:XLNet如果只接受与BERT相同规模的训练数据会如何?XLNet的胜利是否只是数据集的胜利?

今天,XLNet研究团队在Medium网站上用实际数据解答了众人的疑惑。他们使用近乎相同的数据集在XLNet和BERT之间进行公平对决,看看前者的性能到底有没有本质的提升。

参数配置

为了保证公平性,团队确保BERT和XLNet中几乎所有可能的超参数尽量相同。在无法保证二者相同的情况下,他们还让参数的优势更向BERT倾斜。

超参数用的是原来BERT作者发布的数据。也就是说,这么做更有可能针对BERT而不是XLNet进行优化。

具体的超参数设置如下:

  • 相同的batch size:256

  • 相同的训练步数:1M

  • 相同的优化器:Adam,学习率1e-4,10K预热,线性衰减

  • 相同的训练语料库:Wikipedia + BooksCorpus。XLNet团队使用与BERT repo中描述相同的工具来处理维基百科。但由于某些未知原因,XLNet维基百科语料库只有20亿单词,而BERT有25亿单词。因此XLNet训练集反而更小。

  • 相同的模型架构参数:24层,1024个隐藏单元,head数16

  • 相同的微调超参数搜索空间

他们修改了一些与数据相关的实现细节,以便与BERT进行一对一的比较:

  • 在之前的实现中,未被覆盖的token在预训练中看不到CLS和SEP。在现在的实现中,未被覆盖的token可以看到CLS和SEP,这与BERT一致。

  • 在微调中,XLNet使用“BERT格式”[CLS,A,SEP,B,SEP]取代[A,SEP,B,SEP,CLS]。

此外,他们还考虑了BERT的三种变体,并报告每个单独任务的最佳微调结果。

  • 模型-I:作者发布的原始BERT

  • 模型-II:具有全词覆盖的BERT,也是由作者发布

  • 模型-III:由于下一句预测(NSP)可能会影响性能,使用已发布的BERT代码预训练一个新的没有NSP损失的模型。

以上的设置可能会为BERT带来一些优势,因为BERT可以通过不同的变体获得单个任务的最佳性能。

对比结果

二者在SQuAD、RACE等测试集上的结果如下,过程中没有使用数据扩增、集成学习或多任务学习。

测试结果说明了一些问题:

  1. 使用几乎相同的数据和训练方法,XLNet在所有数据集上均以相当大的优势超越BERT。

  2. 10倍数据对训练效果的提升不如从BERT到XLNet的变化明显。11个基准测试中,有8个从BERT切换到XLNet的提升更为明显。

  3. 在CoLA和MRPC等一些基准测试中,更多数据上训练的模型得分反而低于在较少数据上训练的模型。

上述结果中让我们获得了一些宝贵的经验。

  1. XLNet确实提高了性能。实验结果1表明,在相同的训练条件下XLNet相对于BERT具有优势。

  2. XLNet-Large可以更好地进行优化。实验结果2和3似乎表明XLNet-Large(更多训练数据)没有充分利用数据规模。

对未来工作的启发

XLNet团队表示,将继续研究如何正确扩展XLNet语言预训练。根据目前有限的观察结果,他们推测以下训练细节可能会发挥重要作用:

数据相关:数据规模、数据来源、数据清洗、数据编码、数据格式化。
优化相关:学习率、batch size、训练步数、优化器。
这些超参数之间可能有高阶的相互作用。
Facebook AI最近的RoBERTa进入GLUE排行榜第一,似乎也暗示了训练细节的重要性。

原文链接:
https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0

作者系网易新闻·网易号“各有态度”签约作者

加入社群 | 与优秀的人交流

小程序 | 全类别AI学习教程

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

XLNet团队:赢BERT靠的并不是数据集更大,公平对决也碾压对手相关推荐

  1. pytorch微调bert_香侬读 | RoBERT: 没错,我就是能更强——更大数据规模和仔细调参下的最优BERT

    文章标题:RoBERTa: A Robustly Optimized BERT Pretraining Approach 文章作者:Yinhan Liu, Myle Ott, Naman Goyal, ...

  2. 中国团队在精液中发现新冠病毒,“蛋疼”且“不行”:新冠可能对男性威胁更大...

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 新冠疫情下,男人不好当. 5月7日,中国的研究人员发布结果称,在中国本土的病中.愈后男性病例精液样本里,都检出新冠病毒. 这也进一步印证了 ...

  3. bert 多义词_BERT之后,GLUE基准升级为SuperGLUE:难度更大

    选自Medium 作者:Alex Wang等 机器之心编译 参与:Panda BERT 等模型的进展已让 GLUE 基准在新模型的评估方面日渐乏力,为推动 NLP 技术的进一步发展,有必要对 GLUE ...

  4. 团队协作效率低?多半是这5大障碍搞的鬼

    管理学大师彼得·德鲁克曾说,随着知识经济的深入发展,在管理活动中,管理者要把人当人看,一切活动要以维护人性为中心展开.虽然从表面看以人性为中心很简单,但在实际的团队管理中,管理者往往忽视人性.比如,以 ...

  5. 更大的歌曲和言语,赢卡拉OK

    更大的歌曲和言语,赢卡拉OK! 开卡拉OK是通过时间和崇拜者广泛的途径.毕竟,拉链可以击败appealingness并调用唱很多其他最广泛的曲调与朋友的几罐啤酒和一些芯片.但是拉链可以使卡拉OK更棕榈 ...

  6. 转:团队协作效率低?多半是这5大障碍搞的鬼

    个人理解: 承认不足和私利,共建齐心协力.团队合作. 5大障碍:   缺乏信任 -- 不怕存在私心,就怕团队事务面前仍然私利大于公利   惧怕冲突 -- 一团和气不错,怕的是和气下的大锅饭.不做事:冲 ...

  7. 97. BERT微调、自然语言推理数据集以及代码实现

    1. 微调BERT 2. 句子分类 3. 命名实体识别 4. 问题回答 5. 总结 即使下游任务各有不同,使用BERT微调时只需要增加输出层 但根据任务的不同,输入的表示,和使用的BERT特征也会不一 ...

  8. 响铃:打赢“心智战争”,服装品牌只有“更张扬”

    文|曾响铃 来源|科技向令说(xiangling0815) 在互联网时代的新消费潮流冲击下,服装已经被定义为"传统产业",除了某些国际时装周还能凑点话题,多数品牌都难以找到走出&q ...

  9. XLNet再次超越BERT,技术发展太快,如何才能跟得上节奏?

    在过去的2-3天时间里,Google的XLNet又刷爆了朋友圈.在面对技术的快速迭代更新,我们也在第一时间把XLNet纳入到了训练营体系里,在模型发布的第三天就完成了所有教研的工作.2019年贪心学院 ...

最新文章

  1. 出现这四种情况,才是考虑分库分表的时候!
  2. 红包规则_“科普闯关100%夺红包”游戏规则升级了!速速来看!
  3. Zend Studio 10正式版破解(2013-02-26更新)
  4. php 输出 cvs,php将数组转换成cvs格式并输出的简单示例
  5. 启动oracle00119,oracle启动报ORA-00119错误
  6. Fiddler监听Https请求响应
  7. c语言不能在函数中求数组大小,C语言中数组长度不能用变量定义吗?
  8. java 23种设计模式(转载)
  9. Elasticsearch 嵌套类型nested
  10. python从入门到精通pdf下载-Python网络爬虫从入门到精通 PDF 下载
  11. iOS解决融云的 attempt to delete row 0 from section 0 which only contains 0 rows before the update 问题
  12. 点钞视频软件测试,模拟银行综合实验
  13. 解决xshell flashfxp等工具连接不上本机上的虚拟机
  14. (详解)CentOS 7+环境下PHP使用Imagick+ghostscript将PDF文件转为图片
  15. Scrum和TFS2010
  16. poj-1260 Pearls
  17. 公网远程开机(唤醒家庭PC)
  18. Linux中通配符的使用
  19. Python脚本处理文件
  20. CUDA C 编程指南

热门文章

  1. P1984 [SDOI2008]烧水问题
  2. System x迈向更多领域 国内超算步入全面发展时代
  3. CentOS系统dig和nslookup的安装
  4. WPS 导致 EXCEL 文件下载问题
  5. 推荐一款好用的搜索引擎(kngine)
  6. WEP自动破解工具wesside-ng
  7. 网页后门工具laudanum
  8. 被动路由跟踪工具InTrace
  9. ArduinoYun教程之配置Arduino Yun环境
  10. 四轴飞行器实践教程第1章什么是飞行器