新智元报道  

来源:github

谷歌在最新发布的论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》提出了一个新的预训练模型:T5。该模型涵盖了问题解答,文本分类等方面,参数量达到了110亿!一举超越ALBERT,刷新Glue榜单,成为全新的NLP SOTA预训练模型。

榜单地址:

https://gluebenchmark.com/leaderboard

甚至在GLUE的升级版SuperGlue上,T5也超越了Facebook提出的的RoBERTa,以89.8的得分成为仅次于人类基准的SOTA模型!

榜单地址:

https://super.gluebenchmark.com/leaderboard

T5:稳健推进,暴力碾压

从论文中我们了解到,谷歌的T5模型没有用到什么新的方法,而是从全面的视角来概述当前 NLP 领域迁移学习的发展现状。不过谷歌能让110亿参数跑在seq2seq模式上,并且一举超越现有最强模型成为新SOTA,证明了该方式的可行性。

因此本次T5算不上出奇制胜,而是像一个巨大的战舰一样,稳健推进暴力碾压,在摘要生成、问答、文本分类等诸多基准测试中都取得了 SOTA 性能。

作为一个文本到文本的统一框架,可以将同一模型、目标、训练流程和解码过程,直接应用于实验中的每一项任务。研究者可以在这个框架上比较不同迁移学习目标、未标注数据集或者其他因素的有效性,也可以通过扩展模型和数据集来发现 NLP 领域迁移学习的局限。

谷歌编写的通用知识训练语料库中的片段来自Common Crawl网站,该项目每个月从网络上爬取大约20 TB的英文文本。

为了过滤出乱码、菜单和错误消息,仅保留以终端标点符号(句点,感叹号,问号或结束引号)结尾的文本行,同时删除带有明显填充文本和重复项的页面。最终所得到的集合比预训练的数据集大了一个数量级,约为750GB。该数据集Colossal Clean Crawled Corpus(C4)已开源。

T5模型构造

研究人员在语料库上训练了几种基于Transformer的模型,以评估其文本到文本方法的有效性。

研究人员使用的编码器-解码器 Transformer 基本依照了原版 Transformer 架构。解码器包含了一堆“块”,其中每个块又包含两个子部件:自注意力层和小的前馈网络。

自注意力不受顺序的影响,因此就可以将明确的位置信号提供给Transformer,如今比较流行的做法是使用相对位置嵌。相对位置嵌入和固定嵌入的方式不同,它是根据自注意力机制,对比key和query之前的偏置,生成一个不同的学习到的嵌入,权重是动态的。

论文提到的所有的模型都使用了32个嵌入,范围的大小能够以对数方式增加,最高能到128偏置。研究人员还使用了一种简化的位置嵌入来提高效率,每个嵌入只是作为添加到用于计算注意力权重的相应logit的一个标量。

不过团队也承认,T5在诸如翻译之类的语言任务中不尽人意,研究人员将此归咎于特定任务数据的相对缺乏和培训规模的不足。因此,他们提倡研究使用较小的模型实现更强性能的方法,以便将迁移学习应用于影响最大的地方。

该论文的合著者写道:“我们的研究得出重要的结果是:较大的模型往往表现更好。用于运行这些模型的硬件一直在变得越来越便宜,功能越来越强大,这一事实表明,扩大规模可能仍然是实现更好性能的有前途的方法。但是,在某些应用程序和场景中,总是存在使用较小或较便宜的模型有帮助的情况,例如在执行客户端推断或联合学习时。”

大模型攻坚、小模型扫尾。NLP模型在SuperGLUE上彻底超越人类的一天,还远吗?

论文链接:

https://arxiv.org/abs/1910.10683 Github 

GitHub链接:

https://github.com/google-research/text-to-text-transfer-transformer

推荐阅读


谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE!相关推荐

  1. 比 OpenAI 更好!!谷歌发布 20 亿参数通用语音模型——USM

    整理 | 禾木木       责编 | 王子彧 出品 | CSDN(ID:CSDNnews) 去年11月,谷歌曾宣布"1000 种语言计划",通过建立一个机器学习模型,从而支持世界 ...

  2. 《预训练周刊》第26期:有效扩展:来自预训练和微调变换器的见解、rct.ai训练出5亿参数的BERT-X模型...

    No.26 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了14篇预训练相关的论文,涉及短语检索.网络结构.文本排序.架构扩展.对话选择.语言检测.模型微调.机器 ...

  3. 智源社区AI周刊No.105:谷歌FLAN-T5 30亿参数即超越GPT-3性能;Copilot推出语音编程新功能,但面临诉讼...

    社区周刊今日改版!汇聚每周AI热点,不错过重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 提示工程模拟人类思考模式,推理等任务迎来曙光 谷歌近日发布的新提示工程方法,再次说明了数据和训练方式对大模型 ...

  4. 透视鹏程.盘古:首个2000亿参数中文大模型是怎样炼成的?

    2021-05-19 10:21:00 机器之心原创 机器之心编辑部 给足算力和数据,就能训练出千亿参数的大模型?事实没有那么简单. 「70 年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最 ...

  5. FAIR发布两大更新:PyTorch1.8和一个10亿参数自监督模型,自监督也学GPT-3套路?

    2021-03-05 19:38:58 作者 | 青暮 今天,FAIR发布了两项重要更新,分别是PyTorch 1.8以及10亿参数自监督模型SEER. 根据官方推特,此次更新重点包括:编译器更新.代 ...

  6. 阿里发布千亿参数规模AI模型,可设计30多种物品高清图像

    2021-03-02 14:20:52 3月2日,阿里巴巴与清华大学联合发布业界最大的中文多模态预训练AI模型M6,该模型参数规模超千亿,同时具备文本.图像的理解和生成能力,图像设计效率超越人类,可应 ...

  7. 人类算力天花板?1750 亿参数的 AI 模型 GPT-3 引爆硅谷

    这几天轰动硅谷的 GPT-3 是什么来头? 相信不太了解 AI 的朋友这几天也或多或少看到了一些关于 GPT-3 的重磅消息,甚至有媒体称其为 "继比特币之后又一个轰动全球的现象级新技术&q ...

  8. 阿里50亿参数AI画画模型火了!将图像拆分再自由重组,达摩院副院长率队打造...

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI AI画画通用模型,新增一员大将! 由阿里达摩院副院长周靖人等人打造的可控扩散模型Composer,一经发布就小火了一把. 这个模型由50亿参数训练 ...

  9. 谷歌大脑组合模型霸榜 SuperGLUE

    [CSDN 编者按]2020 年12 月31 日,谷歌大脑的研究科学家 Adams Wei Yu 在社交媒体发布消息,宣布实现了新的 SOTA(state of the art 即实现该领域已知的最好 ...

最新文章

  1. vi/vim 中批量在行插入或删除指定字符
  2. [云炬创业基础笔记]第六章商业模式测试6
  3. 一年学遍吴恩达、李飞飞、周志华等16大精品课!(ML、CV、NLP一应俱全)
  4. 7-25 雨刷程序功能扩展设计 (100 分)
  5. 程序员面试金典 - 面试题 16.18. 模式匹配(逻辑题)
  6. java对象组合_java并发编程(三): 对象的组合
  7. Linux视频切片m3u8,Rtmp转m3u8视频切片系统及方法
  8. 局部加权线性回归(Locally weighted linear regression)
  9. Spring-aop-Advisor接口与Pointcut接口
  10. oracle11g ADR 位置
  11. excel趋势线公式导出_除了类 Excel, SpreadJS 表格控件还能为系统开发带来什么价值?...
  12. CountDownLatch 多线程使用示例
  13. openwrt刷回原厂固件_小米路由器4刷breed, pandavan,openwrt
  14. android+实时ping工具,安卓ping测试工具
  15. 机器学习之------信号处理(入门原理)
  16. Chrome和360浏览器“无法翻译此网页”解决方法
  17. 计算机29首流行音乐叫什么,2018结婚用的歌曲排名 50首流行歌曲燃爆婚礼现场...
  18. C#将指定时区中的时间转换为协调世界时 (UTC)。
  19. 微信公众号JS-SDK多图上传爬坑指南
  20. UltraScale Architecture Clocking Resources

热门文章

  1. websocket autobahn webrtc
  2. 串口连接-console口
  3. 解决win10家庭版更新后VM与 Device/Credential Guard 不兼容!解决bcdedit : 无法将“bcdedit”项识别为 cmdlet、函数、脚本文件或可运行程序的名称错误。
  4. 【C语言】PCM音频数据处理---左右声道分离
  5. EC读取风扇转速并在BIOS中显示
  6. 【NISP一级】考前必刷九套卷(一)
  7. fsbrain的学习笔记
  8. 基于Centos 7系统的安全加固方案
  9. java三维滑雪_知到电工电子学山东联盟第二单元章节测试答案
  10. CSDN仅粉丝可见功能无限期下线