XLNet团队:赢BERT靠的并不是数据集更大,公平对决也碾压对手
晓查 发自 凹非寺
量子位 出品 | 公众号 QbitAI
几周前,谷歌发布了新的NLP模型XLNet,它在20项基准测试中均优于BERT。
但是与BERT相比,XLNet模型的训练数据比BERT大10倍。这让学术界和工业界对此产生了疑问:XLNet如果只接受与BERT相同规模的训练数据会如何?XLNet的胜利是否只是数据集的胜利?
今天,XLNet研究团队在Medium网站上用实际数据解答了众人的疑惑。他们使用近乎相同的数据集在XLNet和BERT之间进行公平对决,看看前者的性能到底有没有本质的提升。
参数配置
为了保证公平性,团队确保BERT和XLNet中几乎所有可能的超参数尽量相同。在无法保证二者相同的情况下,他们还让参数的优势更向BERT倾斜。
超参数用的是原来BERT作者发布的数据。也就是说,这么做更有可能针对BERT而不是XLNet进行优化。
具体的超参数设置如下:
相同的batch size:256
相同的训练步数:1M
相同的优化器:Adam,学习率1e-4,10K预热,线性衰减
相同的训练语料库:Wikipedia + BooksCorpus。XLNet团队使用与BERT repo中描述相同的工具来处理维基百科。但由于某些未知原因,XLNet维基百科语料库只有20亿单词,而BERT有25亿单词。因此XLNet训练集反而更小。
相同的模型架构参数:24层,1024个隐藏单元,head数16
相同的微调超参数搜索空间
他们修改了一些与数据相关的实现细节,以便与BERT进行一对一的比较:
在之前的实现中,未被覆盖的token在预训练中看不到CLS和SEP。在现在的实现中,未被覆盖的token可以看到CLS和SEP,这与BERT一致。
在微调中,XLNet使用“BERT格式”[CLS,A,SEP,B,SEP]取代[A,SEP,B,SEP,CLS]。
此外,他们还考虑了BERT的三种变体,并报告每个单独任务的最佳微调结果。
模型-I:作者发布的原始BERT
模型-II:具有全词覆盖的BERT,也是由作者发布
模型-III:由于下一句预测(NSP)可能会影响性能,使用已发布的BERT代码预训练一个新的没有NSP损失的模型。
以上的设置可能会为BERT带来一些优势,因为BERT可以通过不同的变体获得单个任务的最佳性能。
对比结果
二者在SQuAD、RACE等测试集上的结果如下,过程中没有使用数据扩增、集成学习或多任务学习。
测试结果说明了一些问题:
使用几乎相同的数据和训练方法,XLNet在所有数据集上均以相当大的优势超越BERT。
10倍数据对训练效果的提升不如从BERT到XLNet的变化明显。11个基准测试中,有8个从BERT切换到XLNet的提升更为明显。
在CoLA和MRPC等一些基准测试中,更多数据上训练的模型得分反而低于在较少数据上训练的模型。
上述结果中让我们获得了一些宝贵的经验。
XLNet确实提高了性能。实验结果1表明,在相同的训练条件下XLNet相对于BERT具有优势。
XLNet-Large可以更好地进行优化。实验结果2和3似乎表明XLNet-Large(更多训练数据)没有充分利用数据规模。
对未来工作的启发
XLNet团队表示,将继续研究如何正确扩展XLNet语言预训练。根据目前有限的观察结果,他们推测以下训练细节可能会发挥重要作用:
数据相关:数据规模、数据来源、数据清洗、数据编码、数据格式化。
优化相关:学习率、batch size、训练步数、优化器。
这些超参数之间可能有高阶的相互作用。
Facebook AI最近的RoBERTa进入GLUE排行榜第一,似乎也暗示了训练细节的重要性。
原文链接:
https://medium.com/@xlnet.team/a-fair-comparison-study-of-xlnet-and-bert-with-large-models-5a4257f59dc0
作者系网易新闻·网易号“各有态度”签约作者
— 完 —
加入社群 | 与优秀的人交流
小程序 | 全类别AI学习教程
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
XLNet团队:赢BERT靠的并不是数据集更大,公平对决也碾压对手相关推荐
- pytorch微调bert_香侬读 | RoBERT: 没错,我就是能更强——更大数据规模和仔细调参下的最优BERT
文章标题:RoBERTa: A Robustly Optimized BERT Pretraining Approach 文章作者:Yinhan Liu, Myle Ott, Naman Goyal, ...
- 中国团队在精液中发现新冠病毒,“蛋疼”且“不行”:新冠可能对男性威胁更大...
贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 新冠疫情下,男人不好当. 5月7日,中国的研究人员发布结果称,在中国本土的病中.愈后男性病例精液样本里,都检出新冠病毒. 这也进一步印证了 ...
- bert 多义词_BERT之后,GLUE基准升级为SuperGLUE:难度更大
选自Medium 作者:Alex Wang等 机器之心编译 参与:Panda BERT 等模型的进展已让 GLUE 基准在新模型的评估方面日渐乏力,为推动 NLP 技术的进一步发展,有必要对 GLUE ...
- 团队协作效率低?多半是这5大障碍搞的鬼
管理学大师彼得·德鲁克曾说,随着知识经济的深入发展,在管理活动中,管理者要把人当人看,一切活动要以维护人性为中心展开.虽然从表面看以人性为中心很简单,但在实际的团队管理中,管理者往往忽视人性.比如,以 ...
- 更大的歌曲和言语,赢卡拉OK
更大的歌曲和言语,赢卡拉OK! 开卡拉OK是通过时间和崇拜者广泛的途径.毕竟,拉链可以击败appealingness并调用唱很多其他最广泛的曲调与朋友的几罐啤酒和一些芯片.但是拉链可以使卡拉OK更棕榈 ...
- 转:团队协作效率低?多半是这5大障碍搞的鬼
个人理解: 承认不足和私利,共建齐心协力.团队合作. 5大障碍: 缺乏信任 -- 不怕存在私心,就怕团队事务面前仍然私利大于公利 惧怕冲突 -- 一团和气不错,怕的是和气下的大锅饭.不做事:冲 ...
- 97. BERT微调、自然语言推理数据集以及代码实现
1. 微调BERT 2. 句子分类 3. 命名实体识别 4. 问题回答 5. 总结 即使下游任务各有不同,使用BERT微调时只需要增加输出层 但根据任务的不同,输入的表示,和使用的BERT特征也会不一 ...
- 响铃:打赢“心智战争”,服装品牌只有“更张扬”
文|曾响铃 来源|科技向令说(xiangling0815) 在互联网时代的新消费潮流冲击下,服装已经被定义为"传统产业",除了某些国际时装周还能凑点话题,多数品牌都难以找到走出&q ...
- XLNet再次超越BERT,技术发展太快,如何才能跟得上节奏?
在过去的2-3天时间里,Google的XLNet又刷爆了朋友圈.在面对技术的快速迭代更新,我们也在第一时间把XLNet纳入到了训练营体系里,在模型发布的第三天就完成了所有教研的工作.2019年贪心学院 ...
最新文章
- 出现这四种情况,才是考虑分库分表的时候!
- 红包规则_“科普闯关100%夺红包”游戏规则升级了!速速来看!
- Zend Studio 10正式版破解(2013-02-26更新)
- php 输出 cvs,php将数组转换成cvs格式并输出的简单示例
- 启动oracle00119,oracle启动报ORA-00119错误
- Fiddler监听Https请求响应
- c语言不能在函数中求数组大小,C语言中数组长度不能用变量定义吗?
- java 23种设计模式(转载)
- Elasticsearch 嵌套类型nested
- python从入门到精通pdf下载-Python网络爬虫从入门到精通 PDF 下载
- iOS解决融云的 attempt to delete row 0 from section 0 which only contains 0 rows before the update 问题
- 点钞视频软件测试,模拟银行综合实验
- 解决xshell flashfxp等工具连接不上本机上的虚拟机
- (详解)CentOS 7+环境下PHP使用Imagick+ghostscript将PDF文件转为图片
- Scrum和TFS2010
- poj-1260 Pearls
- 公网远程开机(唤醒家庭PC)
- Linux中通配符的使用
- Python脚本处理文件
- CUDA C 编程指南