Semantics-aware BERT for Language Understanding

  • 一、 本文所做工作
    • 1) 现成的语义角色标记器
    • 2) 一种序列编码器
    • 3) 一个整合语义信息和文本表示的组件
  • 二、 Background and Related Work
    • 1) 语言模型。
    • 2) 明确的上下文语义。
  • 三、 Model
    • 1) Semantic Role Labeling
    • 2) Encoding
    • 3) Integration
  • 四、 Results
  • 五、 Conclusion

一、 本文所做工作

目前的预训练语言模型虽然取得很大的成功,但是仅仅引入上下文特征,例如character embedding和word embedding。本文提出通过预训练的语义标注器整合显示的上下文语义,可以提升自然语言理解效果,并提出了对BERT的改进(SemBERT),在BERT上吸收上下文语义。
模型分为三个组件:

1) 现成的语义角色标记器

用来对句子进行语义标签的标注。

2) 一种序列编码器

使用到了预训练语言模型,用来生成文本的表示,语义标签则并行地被映射成embedding。

3) 一个整合语义信息和文本表示的组件

获得为下游任务准备的一个联合表示。

二、 Background and Related Work

1) 语言模型。

本文使用pre-trained BERT来作为backbone encoder。

2) 明确的上下文语义。

虽然语言模型已经隐式包含了语义信息,但是不太够。SRL是以句子谓词为中心,分析句子中各个成分与谓词的关系,即句子的谓词(Predicate)-论元(Argument)结构。作者正是希望将这种关系引入到模型中去。
作者使用了He et al. (2017)提出的deep highway BiLSTM with constrained decoding模型来作为基础的semantic role labeler。

三、 Model

SemBERT能够处理多个序列输入。输入序列中的单词被传递给semantic role labeler,获取多个显式语义的谓词驱动结构,并在一个线性层后聚合相应的嵌入内容形成最后的语义嵌入
同时,输入序列被BERT词块标记器分割成子词,然后通过卷积层将子词表示转换回词级以获得上下文单词表示。
最后将单词表示和语义嵌入相结合,形成下游任务的联合表示。

1) Semantic Role Labeling

数据预处理的时候,每个句子都被标注成一些语义序列,这里用到了预训练好的semantic labeler。不过对于一个句子而言,可能会出现多种可能的标注,例如这句Reconstructing dormitories will not be approved by cavanaugh。以谓词approved为中心的话,则施事者(ARG0)为by cavanaugh,受事者(ARG1)为reconstructing dormitories。而以reconstructing为中心的话,则受事者为dormitories。因此这里对语义标签进行分组,并且将他们和BERT的text embedding整合。输入表示如下:

2) Encoding

首先将原始文本序列和语义角色标签序列表示为嵌入向量,以提供一个预训练的BERT。输入序列 是长度为n的单词序列,首先标记为词块,然后为每一个词通过self-attention转换编码捕获上下文信息,并且生成上下文embedding序列。
对于多语义的表示,每个标签对应一种embedding,假设存在m种标记方式,序列长度为n,那么每一个谓词相关的m个标签序列 ,ti包含n个标签 。因为标签是单词级的,所以长度是原始输入X的长度n。将语义信号视为embedding,通过lookup table将这些标签映射成向量 ,再通过一个BiGRU层获得m个标签序列的标签表示:

对于m个标签序列,用Li表示每个词xi的标签序列
最后连接这m个序列的标签表示,并通过一个全连接层获得d维精细的联合表示:

3) Integration

由于BERT是基于子词序列,而引入的语义标签基于词级别,所以需要对这些序列进行对齐。
使用CNN并通过max pooling获得word级别的表示,然后将这个表示和semantic embeddings进行拼接。
假设一个单词xi的子词序列 ,获得BERT的表示e(sj),然后通过一个Conv1D层 b1,接下来y用ReLU和max polling获得单词xi的输出embedding:

所以对于输入序列X的表示就是: 。
最后通过一个融合函数对齐上下文和semantic embeddings:

四、 Results

由于SemBERT以BERT为主,使用相同的评估过程,因此其取得的效果来自于新引入的显式上下文语义。
Ablation Study

消融实验:如果不进行对齐,直接给每一个subword拼接上对应word的SRL embedding,效果略有提升,说明SRL信息起到了效果,而对这二者再进行对齐的SemBERT,则取得了更好的效果。
The influence of the number m
谓词-论元结构数量m的影响:

五、 Conclusion

显式上下文语义可以有效地与最先进的预训练语言表示相结合,获得更好的性能。

ACL2020 Semantics-aware BERT for Language Understanding相关推荐

  1. 【文本分类】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    ·阅读摘要:   Bert是继Transformer之后的又一杰出的模型.Bert是一种预训练语言模型,是在GPT.Elmo.Transformer的基础上提出的.基于Bert的多个NLP领域任务都取 ...

  2. BERT论文阅读(一): Pre-training of Deep Bidirectional Transformers for Language Understanding

    BERT三大核心: pre-training bidirectional==>alleviates the unidirectionality constriant of fine-tuning ...

  3. 预训练模型:BERT深度解析《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

    目录 1. 背景 2. 什么是 Bert 及原理? 3. 论文内容<BERT: Pre-training of Deep Bidirectional Transformers for Langu ...

  4. 《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》

    目录 <BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding> 1.Bert研究意 ...

  5. TINYBERT: DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDING

    TINYBERT: DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDING 来源:ICLR 2020 在审 链接:https://arxiv.org/pd ...

  6. 论文译文——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    文章目录 摘要 1. 简介 2. 相关工作 2.1 Unsupervised Feature-based Approaches(基于特征的无监督的方法) 2.2 Unsupervised Fine-t ...

  7. Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双向Tr

    Paper:<BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双 ...

  8. 【论文阅读笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    BERT的出现使我们终于可以在一个大数据集上训练号一个深的神经网络,应用在很多NLP应用上面. BERT: Pre-training of Deep Bidirectional Transformer ...

  9. 论文阅读——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Abstract 作者引入了一种新的语 ...

最新文章

  1. javascript字符串截取
  2. 树和二叉树的转换代码python_python数据结构之二叉树的统计与转换实例
  3. zzuliOJ 2536: 绿绿学姐与AI 1
  4. C语言一元二次方程表示如下,C语言一元二次方程day6
  5. [Leetcode][第17题][JAVA][电话号码的字母组合][回溯]
  6. 第 1 节:前端面试指南 — 简历篇
  7. Docker 入门实践
  8. svn和git有什么区别
  9. 少室山论道——天下武功
  10. 自动驾驶测试中的场景构建
  11. 养生年龄的早龄化一一朱乐睿教授
  12. 前端框架Vue(11)——Vue+表单验证 VeeValidate 实践
  13. java计算机毕业设计基于安卓Android/微信小程序的游泳馆管理系统APP
  14. Mybatis学习笔记02
  15. 康威定律:产品必然是其组织沟通结构的缩影
  16. GIF录屏软件下载及使用
  17. Waifu2x 算法黑科技二次元图片无损放大
  18. 如何保护网站免受流量劫持?
  19. PartitionMagic合成分区后的文件夹拒绝访问,并且无法删除的解决方案
  20. CSS_css选择器,选择所有子元素、最后一个、第一个、单数、双数、第n个、反选,nth-child,last-child,first-child

热门文章

  1. 购房攻略—打折与返佣金套路
  2. 深度学习(三十八)初识DL在自然语言序列标注中的应用-未完待续
  3. ( 百度Java面经)互联网公司校招Java面试题总结及答案——百度(目前只是部分总结)
  4. Python:色块检测追踪以及打印中心坐标
  5. opencv python 主色彩提取
  6. 互联网创业公司如何防御 DDoS 攻击?
  7. linux 多硬盘挂载
  8. c++builder常用设置2(背景色)
  9. 《具身认知》听书笔记
  10. 手写XML版Spring容器