梳理 BERT和BERT变种
【BERT】2018-10-11
预训练任务:(1) MLM 带掩码的语言模型 (2) NSP 下一句子预测
【XLNet】2019-6-19
【SpanBERT】2019-7-24
【RoBERTa】2019-7-26
【AlBERT】2019-9-26
【ELECTRA】2020-3-11
【ERNIE 3.0】2021-12-23
【StructBERT】
轻量化BERT变种
【TinyBERT】2019-9-23
【MobileBERT】2020-4-6
论文连接
RoBERTa[1907.11692] RoBERTa: A Robustly Optimized BERT Pretraining Approach (arxiv.org)https://arxiv.org/abs/1907.11692
AlBERT
[1909.11942v6] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations (arxiv.org)https://arxiv.org/abs/1909.11942v6XLNet
[1906.08237] XLNet: Generalized Autoregressive Pretraining for Language Understanding (arxiv.org)https://arxiv.org/abs/1906.08237ERNIE 3.0
[2112.12731] ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation (arxiv.org)https://arxiv.org/abs/2112.12731TinyBERT
[1909.10351] TinyBERT: Distilling BERT for Natural Language Understanding (arxiv.org)https://arxiv.org/abs/1909.10351ELECTRA
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators | OpenReviewhttps://openreview.net/forum?id=r1xMH1BtvBMobileBERT
[2004.02984] MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices (arxiv.org)https://arxiv.org/abs/2004.02984SpanBERT
[1907.10529] SpanBERT: Improving Pre-training by Representing and Predicting Spans (arxiv.org)https://arxiv.org/abs/1907.10529
梳理 BERT和BERT变种相关推荐
- 最火的几个全网络预训练模型梳理整合(BERT、ALBERT、XLNet详解)
前言 过去两年可谓是NLP领域的高光年,自从18年BERT提出,狂刷了11项下游任务的记录之后,全网络预训练模型开启了NLP嵌入表示的新时代,真正意义上实现了自然语言处理的迁移学习. 作为一个刚入坑没 ...
- 自然语言处理NLP之BERT、BERT是什么、智能问答、阅读理解、分词、词性标注、数据增强、文本分类、BERT的知识表示本质
自然语言处理NLP之BERT.BERT是什么.智能问答.阅读理解.分词.词性标注.数据增强.文本分类.BERT的知识表示本质 目录
- 【BERT】BERT模型压缩技术概览
由于BERT参数众多,模型庞大,推理速度较慢,在一些实时性要求较高.计算资源受限的场景,其应用会受到限制.因此,讨论如何在不过多的损失BERT性能的条件下,对BERT进行模型压缩,是一个非常有现实意义 ...
- BERT!BERT!BERT!
从ELMO说起的预训练语言模型 我们先来看一张图: 从图中可以看到,ELMO其实是NLP模型发展的一个转折点,从ELMO开始,Pre-training+finetune的模式开始崭露头角并逐渐流行起来 ...
- NLP之BERT:BERT的简介(背景、改进点、创新点、简介、意义、原理、优缺点、总结与评价)、模型结构、训练过程(MLM、NSP任务的概述)之详细攻略
NLP之BERT:BERT的简介(背景.改进点.创新点.简介.意义.原理.优缺点.总结与评价).模型结构.训练过程(MLM.NSP任务的概述)之详细攻略 目录 BERT的论文 BERT的概述 BERT ...
- NLP之PTM:自然语言处理领域—预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transfo→GPT系列/BERT系列等)、关系梳理、模型对比之详细攻略
NLP之PTM:自然语言处理领域-预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transformer→GPT系列/BERT系列等).关系梳理.模型对比之 ...
- 原创 | 从ULMFiT、Transformer、BERT等经典模型看NLP 发展趋势
自然语言处理(Natural Language Process,简称NLP)是计算机科学.信息工程以及人工智能的子领域,专注于人机语言交互,探讨如何处理和运用自然语言.自然语言处理的研究,最早可以说开 ...
- 【NLP】BERT蒸馏完全指南|原理/技巧/代码
小朋友,关于模型蒸馏,你是否有很多问号: 蒸馏是什么?怎么蒸BERT? BERT蒸馏有什么技巧?如何调参? 蒸馏代码怎么写?有现成的吗? 今天rumor就结合Distilled BiLSTM/BERT ...
- 深度学习之 自然语言处理BERT
Natural Language Processing(NLP)包括自然语言理解和自然语言生成,自然语言理解的应用包括语义分析.机器客服.语音识别.机器翻译等. transformer这一深度网络架构 ...
最新文章
- DATEIF实例说明3
- 2014-03-11 Spring的学习(3)------面向切面编程(AOP)
- 皮一皮:直男这下懂了吧...
- 一步步构建多层架构系列二之设计模式运用篇
- 解决J2EE系统应用性能问题常用方法
- 996和被辞退,二选一
- 文件IO-Properties
- 不能修改“System Roots”钥匙串
- 排序千万级数据_MySQL 对于千万级的大表要怎么优化?我写了6000字的深度解读...
- 答题获得思科T-shirt
- HDU2039 三角形【水题】
- Treap树堆(bzoj 3224: Tyvj 1728 普通平衡树)
- 利用CPUID 汇编指令(转载)
- win10 联想键盘快捷键关闭_如何关闭联想台式机电脑USB键盘的FN功能
- P进阶_(zip函数)
- 禾川Q1控制器连接威纶通显示屏
- Java设计模式之《装饰器模式》
- Python面试题大全总结
- 大数据教程,大数据学习线路图
- java application_运行java application时,总是报错