

Time: 2019.10

在过去的18个月中,在过去的18个月中,几乎所有的自然语言处理任务都从大型语言模型进行迁移学习这一方式达到了SOTA效果。通常基于Vaswani等人的Transformer体系结构,这些经过预先训练的语言模型会变得越来越大,并在更大的数据集上进行训练。 Nvidia的最新模型具有83亿个参数:比BERT-large大24倍,比GPT-2大5倍,而来自Facebook AI的最新作品RoBERTa受过160GB文本的训练

Smaller, faster, cheaper, lighter: Introducing DistilBERT, a distilled version of BERT

