【BERT】2018-10-11

预训练任务:(1) MLM 带掩码的语言模型 (2) NSP 下一句子预测

【XLNet】2019-6-19

【SpanBERT】2019-7-24

【RoBERTa】2019-7-26

【AlBERT】2019-9-26

【ELECTRA】2020-3-11

【ERNIE 3.0】2021-12-23

【StructBERT】

轻量化BERT变种

【TinyBERT】2019-9-23

【MobileBERT】2020-4-6

论文连接

RoBERTa[1907.11692] RoBERTa: A Robustly Optimized BERT Pretraining Approach (arxiv.org)https://arxiv.org/abs/1907.11692

AlBERT

[1909.11942v6] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations (arxiv.org)https://arxiv.org/abs/1909.11942v6XLNet

[1906.08237] XLNet: Generalized Autoregressive Pretraining for Language Understanding (arxiv.org)https://arxiv.org/abs/1906.08237ERNIE 3.0

[2112.12731] ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation (arxiv.org)https://arxiv.org/abs/2112.12731TinyBERT

[1909.10351] TinyBERT: Distilling BERT for Natural Language Understanding (arxiv.org)https://arxiv.org/abs/1909.10351ELECTRA

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators | OpenReviewhttps://openreview.net/forum?id=r1xMH1BtvBMobileBERT

[2004.02984] MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices (arxiv.org)https://arxiv.org/abs/2004.02984SpanBERT

[1907.10529] SpanBERT: Improving Pre-training by Representing and Predicting Spans (arxiv.org)https://arxiv.org/abs/1907.10529

梳理 BERT和BERT变种相关推荐

  1. 最火的几个全网络预训练模型梳理整合(BERT、ALBERT、XLNet详解)

    前言 过去两年可谓是NLP领域的高光年,自从18年BERT提出,狂刷了11项下游任务的记录之后,全网络预训练模型开启了NLP嵌入表示的新时代,真正意义上实现了自然语言处理的迁移学习. 作为一个刚入坑没 ...

  2. 自然语言处理NLP之BERT、BERT是什么、智能问答、阅读理解、分词、词性标注、数据增强、文本分类、BERT的知识表示本质

    自然语言处理NLP之BERT.BERT是什么.智能问答.阅读理解.分词.词性标注.数据增强.文本分类.BERT的知识表示本质 目录

  3. 【BERT】BERT模型压缩技术概览

    由于BERT参数众多,模型庞大,推理速度较慢,在一些实时性要求较高.计算资源受限的场景,其应用会受到限制.因此,讨论如何在不过多的损失BERT性能的条件下,对BERT进行模型压缩,是一个非常有现实意义 ...

  4. BERT!BERT!BERT!

    从ELMO说起的预训练语言模型 我们先来看一张图: 从图中可以看到,ELMO其实是NLP模型发展的一个转折点,从ELMO开始,Pre-training+finetune的模式开始崭露头角并逐渐流行起来 ...

  5. NLP之BERT:BERT的简介(背景、改进点、创新点、简介、意义、原理、优缺点、总结与评价)、模型结构、训练过程(MLM、NSP任务的概述)之详细攻略

    NLP之BERT:BERT的简介(背景.改进点.创新点.简介.意义.原理.优缺点.总结与评价).模型结构.训练过程(MLM.NSP任务的概述)之详细攻略 目录 BERT的论文 BERT的概述 BERT ...

  6. NLP之PTM:自然语言处理领域—预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transfo→GPT系列/BERT系列等)、关系梳理、模型对比之详细攻略

    NLP之PTM:自然语言处理领域-预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transformer→GPT系列/BERT系列等).关系梳理.模型对比之 ...

  7. 原创 | 从ULMFiT、Transformer、BERT等经典模型看NLP 发展趋势

    自然语言处理(Natural Language Process,简称NLP)是计算机科学.信息工程以及人工智能的子领域,专注于人机语言交互,探讨如何处理和运用自然语言.自然语言处理的研究,最早可以说开 ...

  8. 【NLP】BERT蒸馏完全指南|原理/技巧/代码

    小朋友,关于模型蒸馏,你是否有很多问号: 蒸馏是什么?怎么蒸BERT? BERT蒸馏有什么技巧?如何调参? 蒸馏代码怎么写?有现成的吗? 今天rumor就结合Distilled BiLSTM/BERT ...

  9. 深度学习之 自然语言处理BERT

    Natural Language Processing(NLP)包括自然语言理解和自然语言生成,自然语言理解的应用包括语义分析.机器客服.语音识别.机器翻译等. transformer这一深度网络架构 ...

最新文章

  1. DATEIF实例说明3
  2. 2014-03-11 Spring的学习(3)------面向切面编程(AOP)
  3. 皮一皮:直男这下懂了吧...
  4. 一步步构建多层架构系列二之设计模式运用篇
  5. 解决J2EE系统应用性能问题常用方法
  6. 996和被辞退,二选一
  7. 文件IO-Properties
  8. 不能修改“System Roots”钥匙串
  9. 排序千万级数据_MySQL 对于千万级的大表要怎么优化?我写了6000字的深度解读...
  10. 答题获得思科T-shirt
  11. HDU2039 三角形【水题】
  12. Treap树堆(bzoj 3224: Tyvj 1728 普通平衡树)
  13. 利用CPUID 汇编指令(转载)
  14. win10 联想键盘快捷键关闭_如何关闭联想台式机电脑USB键盘的FN功能
  15. P进阶_(zip函数)
  16. 禾川Q1控制器连接威纶通显示屏
  17. Java设计模式之《装饰器模式》
  18. Python面试题大全总结
  19. 大数据教程,大数据学习线路图
  20. java application_运行java application时,总是报错

热门文章

  1. iOS开发 -- UIScrollView 仿京东金融首页效果
  2. java提供文件下载的方法
  3. Leetcode Best Time to Buy and Sell Stock III
  4. 企业大数据结合的CRM客户关系管理系统?
  5. 通过无参构造实例化对象
  6. tomcat默认端口号简介
  7. 激光slam课程学习笔记--第2课:2D激光slam
  8. echarts实现下钻功能的地图
  9. c语言dword转float,vc中float与DWORD的互想转换实现代码
  10. vue获取dom元素的内容