BERT、MT-DNN、GPT2.0、ERNIE

目前效果较好的大部分的nlp任务都会应用预训练语言模型的迁移知识，主要是采用两阶段的模型。第一阶段进行预训练，一般是训练一个语言模型。最出名的是BERT,BERT的预训练阶段包括两个任务，一个是Masked Language Model，还有一个是Next Sentence Prediction。通过预训练能够利用海量的无标注的语料，以从中抽取出语言学特征，并在第二阶段结合具体任务，把这些从海量无标注语料中抽取出的语言学特征作为特征补充，迁移到下游任务中进行应用。第一阶段预训练出的模型具有很强的泛化能力，一方面是因为语料非常丰富能够得到很好的表征，另一方面是因为使用多层的Transformer作为特征提取器能够抽取出泛化能够更强的特征。从GPT2.0可以看出加大用于进行预训练模型的语料，同时提高这些语料的质量能够使训练出的模型更具泛化性能。从微软提出的多任务深度神经网络以及清华和华为ERNIE: Enhanced Language Representation with Informative Entities以及百度的ERNIE: Enhanced Representation through Knowledge Integration来看补充更多的先验知识供预训练语言模型学习能够使模型泛化能力更高。ERNIE相当于融入了知识图谱，清华的ERNIE在BERT的MLM以及Next Sentence Prediction任务的基础上增加了denoising entity auto-encoder (dEA)任务，这是自然而然应该想到了，MLM相当于在字上的降噪，增加了实体信息，自然应该在实体层次进行降噪。

在具体的第二阶段的任务中我们只需结合第一阶段的预训练（pre-train）模型简单的修改一些输出层，再用我们自己的数据进行一个增量训练，对权重进行一个轻微的调整（fine-tune）。例如BERT训练好的模型会保存在checkpoint中，在我们进行具体的第二阶段的任务时，例如分类任务，只需传入当前的训练语料会加载预训练模型的图以及训练好的具备丰富特征的参数，因为预训练好的模型泛化能力很强，所以具体任务中只需要对可训练的这些参数进行fine-tuning（微调）便能满足当前任务，因为可用的标注语料很少，只用这些语料通过特征抽取器可能并无法抽取出泛化能力强的表征，通过预训练的模型能够进行很好的特征补充，使得抽取出的特征更加适用于我们具体的任务。结合具体任务的训练语料对可训练的参数进行微调，然后把这些微调后的参数以及图保存起来，以便于我们进一步进行预测时使用。

论文的详细介绍参考另一篇博客：https://www.cnblogs.com/dyl222/p/10960842.html

转载于:https://www.cnblogs.com/dyl222/p/10779742.html

BERT、MT-DNN、GPT2.0、ERNIE相关推荐

sql server 2008 r2卸载重装_免费下载：Intouch软件、Windows操作系统、SQL数据库，VB6.0、C#...
为大家整理了常用的Windows操作系统和安装软件,基本上都是经过我们项目测试OK的版本,以后项目调试就齐全了,不用再"东奔西走","小鹿乱撞"了.整理不易,若 ...
Android调用相册、相机（兼容6.0、7.0、8.0）
又好久没有写博客了,好习惯不能断,该写点就得写点,今天带来的笔记是关于Android 项目调用系统相机与调用系统相册的之后拿到照片的基本操作,我感觉好多人还是不太熟悉的哈.项目兼容 Android ...
解析：数组名a、数组名取地址a、数组首地址a[0]、数组指针*p
数组和指针向来就是傻傻分不清,当他们一起出现的时候就更加懵逼. 1 解析不同变量之间的区别: 数组名a: 数组名可以作为数组第一个元素的指针.我们由数组和指针的关系知道,a代表这个地址数值,它相当于一 ...
tkinter中分割线Separator、frame控件pack_propagate(0)、frame滚动条的用法
1.设置屏幕最大化方法: #设置窗口最大化: #方法一 root = Tk() w, h = root.maxsize() root.geometry("{}x{}".format ...
Java中collection.toArray(new String[0])、resultSet.toArray(new Integer[0])、Set.toArray()new 数组的性能比较
一.在调用Set的toArray()方法的时候在使用HashMap的时候,它的keySet()方法将返回一个Set集合且Set是继承自Collection的,在使用toArray()的时候其实转换 ...
C++ 数组名a、数组名取地址a、数组首地址a[0]、数组指针*p
数组名a: 数组名可以作为数组第一个元素的指针.由数组和指针的关系知道,a代表这个地址数值,它相当于一个指针,指向第一个元素(&a[0]),即指向数组的首地址.数组中的其他元素可以通过a的位移 ...
Android 系统自带图片裁剪功能（适配7.0、8.0、对了还有小米手机）
前段时间写了如何获取相册和拍照之后的照片并且进行显示和上传,这一次是如何进行圆形图像制作,经常看我写的笔记的人会知道,我很懒.那么我就懒的自定义了,目前需求就用原生的就好了,大神的轮子,我会在后面进行 ...
Julia入门-0、在Windows下安装Julia
文章目录 0.前言 1.相关网站 2.Windows 系统下安装Julia 3.Julia 交互式命令窗口 0.前言 Julia 是一个面向科学计算的高性能动态高级程序设计语言. Julia 最初是为 ...
DL之CNN：卷积神经网络算法简介之卷积矩阵、转置卷积(反卷积Transpose)、膨胀卷积(扩张卷积Dilated/带孔卷积atrous)之详细攻略
DL之CNN:卷积神经网络算法简介之卷积矩阵.转置卷积(反卷积Transpose).膨胀卷积(扩张卷积Dilated/带孔卷积atrous)之详细攻略目录卷积矩阵的简介卷积.转置卷积--Tran ...

BERT、MT-DNN、GPT2.0、ERNIE

BERT、MT-DNN、GPT2.0、ERNIE相关推荐

最新文章

热门文章