文章目录

Introduction
Model
- Interactive Inference Network(IIN)
- Densely Interactive Inference Network(DIIN)
- - Embedding Layer
  - Encoding Layer
  - Interaction Layer
  - Feature Extraction Layer
  - Output Layer
实验
- 数据
- 参数设置

Introduction

Natural Language Inference任务介绍
NLI又叫做recognizing textual entailment. 是用来确定两句话是不是蕴含关系.
第一句话作为premise, 第二句话作为hypothesis, 则两句话的三种关系定义如下:

entailment(如果premise为真, 则hypothesis也必须为真)
contradiction(如果premise为真, 则hypothesis必须为假)
neutral(既不是entailment, 也不是contradiction)

Model

Interactive Inference Network(IIN)

先介绍下基础的IIN
模型主要包括五部分, 每部分都可以用不同的方式实现.

Embedding Layer: 将词或者短语转换为向量表示, 并构造句子的矩阵表示.
可以直接使用预训练的词向量, 比如word2vec, glove等等.
为了提高效果, 还可以利用词性标注, 命名实体识别等方法获取更多词汇和句法信息.
Encoding Layer: 对Embedding Layer的输出进行编码, 这部分可以选择不同的编码器, 比如BiLSTM, self-attention等等. 不同的编码器可以结合使用来获得更好的句表示.
Interaction Layer: 生成premise和hypothesis之间的interaction tensor.
Interaction有多种不同的建模方式, 比如计算余弦距离, 点积等等.
Feature Extraction Layer: 解析从Interaction layer获取的语义特征. 这部分作者使用的2-D的CNN
Output Layer

Densely Interactive Inference Network(DIIN)

进入正题, 介绍DIIN. DIIN的基础结构和IIN是一样的.

Embedding Layer

Embedding部分, 作者使用了word embedding, character feature和syntactical features进行拼接.

word embedding直接用的预训练的GloVe, 注意, 作者在训练时会对词向量进行更新.

character feature是通过一维的卷积来实现的, 卷积后进行max-pooling. 作者指出, character feature有助于解决OOV问题. CNN在premise和hypothesis之间共享权重.

Syntactical feature包含词性标注的one-hot向量和 binary exact match feature.

Encoding Layer

将上层得到的premise表示 $P$ 和hypothesis表示 $H$ 先通过一个两层的highway network得到 $P^\hat P$ 和 $H^\hat H$ 作为新的表示.

然后, 通过self-attention layer获取词序和上下文信息. self-attention过程如下:

之后,将 $P^\hat P$ 和 $Pˉ\bar P$ 拼接并送入fuse date.

用同样的方法得到 $H~\tilde H$

Interaction Layer

这里 $β(a,b)=a∘b\beta(a,b)=a\circ b$ , 也就是element-wise product

Feature Extraction Layer

这部分作者将DenseNet作为CNN特征提取器.
另外, 作者在实验时发现batch normalization会延迟收敛, 而且没有提高准确率, 所以他们没用.

在得到Interaction Layer输出后, 先用1x1的卷积降维.注意这部分卷积不用ReLU激活.
假如输入通道数为 $k$ , 输出通道变为 $\times \eta)$ .

接着输入到DenseNet中, 每个DenseNet块包含n层3x3卷积, growth rate为g.

Output Layer

全连接做分类

实验

数据

SNLI
MultiNLI
Quora question pair

参数设置

optimizer: Adadelta( $ρ=0.95\rho=0.95$ , $ϵ=1e−8\epsilon=1e-8$ )
learning rate: 0.5
batch size: 70
模型不能进一步收敛后, 使用SGD(learning rate=3e-4)继续训练
在每个线性层之前都用了dropout.
word embedding: 300D GloVe 840B
character embedding: 随机初始化 100D
1维的character embedding卷积核设置为5

Natural Language Inference Over Interaction Space(DIIN)阅读笔记相关推荐

NATURAL LANGUAGE INFERENCE OVER INTERACTION SPACE
文章目录 ABSTRACT 1 INTRODUCTION 2 RELATED WORK 3 MODEL 3.1 INTERACTIVE INFERENCE NETWORK 3.2 DENSELY IN ...
【提示学习】Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
论文信息名称内容论文标题 Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inf ...
论文解读: Exploiting Cloze Questions for Few Shot Text Classiﬁcation and Natural Language Inference
前言:在自然语言研究领域,某些自然语言处理任务可以利用"预训练模型+任务描述"方式的无监督学习来解决.然而,已有的"预训练模型+任务描述"的无监督学习方法不如有 ...
论文解读：Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
论文解读:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference 随着 ...
论文笔记翻译——Enhanced LSTM for Natural Language Inference(ESIM)
文章目录 0.前言 1. 模型结构 1.1 input encoding 1.2 local inference modeling 1.3 inference composition 2. 模型实现 ...
EMNLP2020 | 近期必读Natural Language Inference精选论文
**AMiner平台**由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务 ...
ESIM：Enhanced LSTM for Natural Language Inference
原文链接:https://aclanthology.org/P17-1152.pdf ACL 2017 概述对于自然语言推理任务,Bowman等人在2015年提出了一个大数据集,大多数工作就开始使用 ...
文献阅读——Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
附注这篇文章中在最终提到模型的时候使用了一个 "知识蒸馏" 的点,这点需要注意.如果不懂的话,请参考知识蒸馏基本原理其实,这里的知识蒸馏主要是在预训练模型的Fine-tunin ...
ESIM (Enhanced LSTM for Natural Language Inference)
ESIM历史意义: 1. 深层次的挖掘文本间的语义关系特征 2.加入文本语法结构信息本文主要结构如下: 一.Abstract 1.推理是人工智能的关键体现 2.SNLI为推理模型提供数据支撑 3.文 ...

Natural Language Inference Over Interaction Space(DIIN)阅读笔记