paper: https://arxiv.org/pdf/1910.01108v2.pdf

code: https://github.com/huggingface/transformers

Time: 2019.10

在过去的18个月中,在过去的18个月中,几乎所有的自然语言处理任务都从大型语言模型进行迁移学习这一方式达到了SOTA效果。通常基于Vaswani等人的Transformer体系结构,这些经过预先训练的语言模型会变得越来越大,并在更大的数据集上进行训练。 Nvidia的最新模型具有83亿个参数:比BERT-large大24倍,比GPT-2大5倍,而来自Facebook AI的最新作品RoBERTa受过160GB文本的训练

Smaller, faster, cheaper, lighter: Introducing DistilBERT, a distilled version of BERT 翻译相关推荐

  1. 论文笔记--DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

    论文笔记--DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter 1. 文章简介 2. 文章概括 ...

  2. 《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》(NeurIPS-2019)论文阅读

    前言 论文地址:https://arxiv.org/abs/1910.01108 代码地址:https://github.com/huggingface/transformers Abstract 就 ...

  3. DistilBERT, a distilled version of BERT

    1 简介 本文根据2020年<DistilBERT, a distilled version of BERT: smaller,faster, cheaper and lighter>翻译 ...

  4. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter(2019-10-2)

    模型介绍 NLP预训练模型随着近几年的发展,参数量越来越大,受限于算力,在实际落地上线带来了困难,针对最近最为流行的BERT预训练模型,提出了DistilBERT,在保留97%的性能的前提下,模型大小 ...

  5. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter学习

    1. 总结 论文地址 论文写得很简单,但是引用量好高啊

  6. 《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》论文笔记

    论文来源:NIPS-2019(hugging face发布) 论文链接:https://arxiv.org/abs/1910.01108 ⭐背景介绍:  近年来NLP领域,在大型预训练模型上进行迁移学 ...

  7. FLiText: A Faster and Lighter Semi-Supervised Text Classification with Convolution Networks

    本文发表于EMNLP2020. 本文提出了一个基于卷积模型的蒸馏方法,实现了一个轻量级的.快速的半监督文本分类框架FLiText,相比于Bert等大规模预训练模型,蒸馏模型更具备实际应用价值. Met ...

  8. Introducing Android Instant Apps - Google I-O 2016 翻译字幕

    上周几乎没怎么学习,一直在忙字幕组的考核,干脆就把我翻译的字幕贴出来吧--这可真是最新的Android技术了. YouTube视频链接:https://www.youtube.com/watch?v= ...

  9. 使用DistilBERT 蒸馏类 BERT 模型的代码实现

    来源:DeepHub IMBA 本文约2700字,建议阅读9分钟 本文带你进入Distil细节,并给出完整的代码实现.本文为你详细介绍DistilBERT,并给出完整的代码实现. 机器学习模型已经变得 ...

最新文章

  1. jdk-ant-sphnix4安装
  2. Android CardView卡片布局 标签: 控件
  3. ipados 文件 连接服务器,iPadOS更新指南,总有一个功能是你需要的
  4. Codeforces.666E.Forensic Examination(广义后缀自动机 线段树合并)
  5. USACO-Section1.5 Arithmetic Progressions(枚举)
  6. 20100311 学习记录
  7. MongoDB.so: undefined symbol: HeUTF8解决方法
  8. c++代码整洁之道pdf_软件工程-实践者的研究方式的阅读(代码大全后面再说)...
  9. 智能手机玩转Smart3D三维建模介绍
  10. python pyhook_pyhook的简单使用
  11. qtdesigner设计表格_Qt Designer下的一些基础操作
  12. 菜鸟版JAVA设计模式—从笔记本电源线看适配器模式
  13. Mysql主从切换自动_keepalived实现对mysql主从复制的主备自动切换
  14. 【简单易懂的Unity5 Shader着色器入门教程】 笔记
  15. UEBA在信息安全领域的使用
  16. 厉建宇的阿里巴巴离职信
  17. 语文默写的决斗(YZOJ-1069)
  18. Oracle Instance and Database
  19. 使用R语言绘制graph:无向图(ug)和有向无环图(dag)
  20. Ubuntu16.04 和 Win7 双系统启动顺序更改

热门文章

  1. 缓存方案coolKie、localStorage、sessionStorage介绍和简单的使用
  2. DSP ADAU1452输入与ASRC之间的关系
  3. python有哪些代码_Python有哪些神一般的蜜汁操作?(附代码),
  4. 给出一个大于或等于3的正整数,判断它是不是一个素数
  5. jsp+ssm计算机毕业设计壹家吃货店网站【附源码】
  6. 资料分析的统计术语、速算技巧、重点题型
  7. Adobe Acrobat Pro DC 鼠标中键滚轮页面滑动速度太慢解决办法
  8. python 列表操作之合并
  9. 提升组织信息安全意识的重要性
  10. 自考计算机科学与技术本科毕业论文选题,自考本科毕业论文探究.doc