Semantics-aware BERT for Language Understanding

一、本文所做工作
- 1）现成的语义角色标记器
- 2）一种序列编码器
- 3）一个整合语义信息和文本表示的组件
二、 Background and Related Work
- 1）语言模型。
- 2）明确的上下文语义。
三、 Model
- 1） Semantic Role Labeling
- 2） Encoding
- 3） Integration
四、 Results
五、 Conclusion

一、本文所做工作

目前的预训练语言模型虽然取得很大的成功，但是仅仅引入上下文特征，例如character embedding和word embedding。本文提出通过预训练的语义标注器整合显示的上下文语义，可以提升自然语言理解效果，并提出了对BERT的改进（SemBERT），在BERT上吸收上下文语义。
模型分为三个组件：

1）现成的语义角色标记器

用来对句子进行语义标签的标注。

2）一种序列编码器

使用到了预训练语言模型，用来生成文本的表示，语义标签则并行地被映射成embedding。

3）一个整合语义信息和文本表示的组件

获得为下游任务准备的一个联合表示。

二、 Background and Related Work

1）语言模型。

本文使用pre-trained BERT来作为backbone encoder。

2）明确的上下文语义。

虽然语言模型已经隐式包含了语义信息，但是不太够。SRL是以句子谓词为中心，分析句子中各个成分与谓词的关系，即句子的谓词（Predicate）-论元（Argument）结构。作者正是希望将这种关系引入到模型中去。
作者使用了He et al. (2017)提出的deep highway BiLSTM with constrained decoding模型来作为基础的semantic role labeler。

三、 Model

SemBERT能够处理多个序列输入。输入序列中的单词被传递给semantic role labeler，获取多个显式语义的谓词驱动结构，并在一个线性层后聚合相应的嵌入内容形成最后的语义嵌入
同时，输入序列被BERT词块标记器分割成子词，然后通过卷积层将子词表示转换回词级以获得上下文单词表示。
最后将单词表示和语义嵌入相结合，形成下游任务的联合表示。

1） Semantic Role Labeling

数据预处理的时候，每个句子都被标注成一些语义序列，这里用到了预训练好的semantic labeler。不过对于一个句子而言，可能会出现多种可能的标注，例如这句Reconstructing dormitories will not be approved by cavanaugh。以谓词approved为中心的话，则施事者（ARG0）为by cavanaugh，受事者（ARG1）为reconstructing dormitories。而以reconstructing为中心的话，则受事者为dormitories。因此这里对语义标签进行分组，并且将他们和BERT的text embedding整合。输入表示如下：

2） Encoding

首先将原始文本序列和语义角色标签序列表示为嵌入向量，以提供一个预训练的BERT。输入序列是长度为n的单词序列，首先标记为词块，然后为每一个词通过self-attention转换编码捕获上下文信息，并且生成上下文embedding序列。
对于多语义的表示，每个标签对应一种embedding，假设存在m种标记方式，序列长度为n，那么每一个谓词相关的m个标签序列，ti包含n个标签。因为标签是单词级的，所以长度是原始输入X的长度n。将语义信号视为embedding，通过lookup table将这些标签映射成向量，再通过一个BiGRU层获得m个标签序列的标签表示：

对于m个标签序列，用Li表示每个词xi的标签序列
最后连接这m个序列的标签表示，并通过一个全连接层获得d维精细的联合表示：

3） Integration

由于BERT是基于子词序列，而引入的语义标签基于词级别，所以需要对这些序列进行对齐。
使用CNN并通过max pooling获得word级别的表示，然后将这个表示和semantic embeddings进行拼接。
假设一个单词xi的子词序列，获得BERT的表示e(sj)，然后通过一个Conv1D层 b1，接下来y用ReLU和max polling获得单词xi的输出embedding：

所以对于输入序列X的表示就是：。
最后通过一个融合函数对齐上下文和semantic embeddings：

四、 Results

由于SemBERT以BERT为主，使用相同的评估过程，因此其取得的效果来自于新引入的显式上下文语义。
Ablation Study

消融实验：如果不进行对齐，直接给每一个subword拼接上对应word的SRL embedding，效果略有提升，说明SRL信息起到了效果，而对这二者再进行对齐的SemBERT，则取得了更好的效果。
The influence of the number m
谓词-论元结构数量m的影响：

五、 Conclusion

显式上下文语义可以有效地与最先进的预训练语言表示相结合，获得更好的性能。

ACL2020 Semantics-aware BERT for Language Understanding相关推荐

【文本分类】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
·阅读摘要: Bert是继Transformer之后的又一杰出的模型.Bert是一种预训练语言模型,是在GPT.Elmo.Transformer的基础上提出的.基于Bert的多个NLP领域任务都取 ...
BERT论文阅读(一): Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT三大核心: pre-training bidirectional==>alleviates the unidirectionality constriant of fine-tuning ...
预训练模型：BERT深度解析《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
目录 1. 背景 2. 什么是 Bert 及原理? 3. 论文内容<BERT: Pre-training of Deep Bidirectional Transformers for Langu ...
《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》
目录 <BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding> 1.Bert研究意 ...
TINYBERT: DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDING
TINYBERT: DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDING 来源:ICLR 2020 在审链接:https://arxiv.org/pd ...
论文译文——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
文章目录摘要 1. 简介 2. 相关工作 2.1 Unsupervised Feature-based Approaches(基于特征的无监督的方法) 2.2 Unsupervised Fine-t ...
Paper：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双向Tr
Paper:<BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双 ...
【论文阅读笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT的出现使我们终于可以在一个大数据集上训练号一个深的神经网络,应用在很多NLP应用上面. BERT: Pre-training of Deep Bidirectional Transformer ...
论文阅读——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Abstract 作者引入了一种新的语 ...

ACL2020 Semantics-aware BERT for Language Understanding

Semantics-aware BERT for Language Understanding

一、本文所做工作

1）现成的语义角色标记器

2）一种序列编码器

3）一个整合语义信息和文本表示的组件

二、 Background and Related Work

1）语言模型。

2）明确的上下文语义。

三、 Model

1） Semantic Role Labeling

2） Encoding

3） Integration

四、 Results

五、 Conclusion

ACL2020 Semantics-aware BERT for Language Understanding相关推荐

最新文章

热门文章

ACL2020 Semantics-aware BERT for Language Understanding

Semantics-aware BERT for Language Understanding

一、 本文所做工作

1） 现成的语义角色标记器

2） 一种序列编码器

3） 一个整合语义信息和文本表示的组件

二、 Background and Related Work

1） 语言模型。

2） 明确的上下文语义。

三、 Model

1） Semantic Role Labeling

2） Encoding

3） Integration

四、 Results

五、 Conclusion

ACL2020 Semantics-aware BERT for Language Understanding相关推荐

最新文章

热门文章

一、本文所做工作

1）现成的语义角色标记器

2）一种序列编码器

3）一个整合语义信息和文本表示的组件

1）语言模型。

2）明确的上下文语义。