Natural Language Inference Over Interaction Space(DIIN)阅读笔记
文章目录
- Introduction
- Model
- Interactive Inference Network(IIN)
- Densely Interactive Inference Network(DIIN)
- Embedding Layer
- Encoding Layer
- Interaction Layer
- Feature Extraction Layer
- Output Layer
- 实验
- 数据
- 参数设置
Introduction
Natural Language Inference任务介绍
NLI又叫做recognizing textual entailment. 是用来确定两句话是不是蕴含关系.
第一句话作为premise, 第二句话作为hypothesis, 则两句话的三种关系定义如下:
- entailment(如果premise为真, 则hypothesis也必须为真)
- contradiction(如果premise为真, 则hypothesis必须为假)
- neutral(既不是entailment, 也不是contradiction)
Model
Interactive Inference Network(IIN)
先介绍下基础的IIN
模型主要包括五部分, 每部分都可以用不同的方式实现.
- Embedding Layer: 将词或者短语转换为向量表示, 并构造句子的矩阵表示.
可以直接使用预训练的词向量, 比如word2vec, glove等等.
为了提高效果, 还可以利用词性标注, 命名实体识别等方法获取更多词汇和句法信息. - Encoding Layer: 对Embedding Layer的输出进行编码, 这部分可以选择不同的编码器, 比如BiLSTM, self-attention等等. 不同的编码器可以结合使用来获得更好的句表示.
- Interaction Layer: 生成premise和hypothesis之间的interaction tensor.
Interaction有多种不同的建模方式, 比如计算余弦距离, 点积等等. - Feature Extraction Layer: 解析从Interaction layer获取的语义特征. 这部分作者使用的2-D的CNN
- Output Layer
Densely Interactive Inference Network(DIIN)
进入正题, 介绍DIIN. DIIN的基础结构和IIN是一样的.
Embedding Layer
Embedding部分, 作者使用了word embedding, character feature和syntactical features进行拼接.
word embedding直接用的预训练的GloVe, 注意, 作者在训练时会对词向量进行更新.
character feature是通过一维的卷积来实现的, 卷积后进行max-pooling. 作者指出, character feature有助于解决OOV问题. CNN在premise和hypothesis之间共享权重.
Syntactical feature包含词性标注的one-hot向量和 binary exact match feature.
Encoding Layer
将上层得到的premise表示PPP和hypothesis表示HHH先通过一个两层的highway network得到P^\hat PP^ 和H^\hat HH^作为新的表示.
然后, 通过self-attention layer获取词序和上下文信息. self-attention过程如下:
之后,将P^\hat PP^和Pˉ\bar PPˉ拼接并送入fuse date.
用同样的方法得到H~\tilde HH~
Interaction Layer
这里β(a,b)=a∘b\beta(a,b)=a\circ bβ(a,b)=a∘b, 也就是element-wise product
Feature Extraction Layer
这部分作者将DenseNet作为CNN特征提取器.
另外, 作者在实验时发现batch normalization会延迟收敛, 而且没有提高准确率, 所以他们没用.
在得到Interaction Layer输出后, 先用1x1的卷积降维.注意这部分卷积不用ReLU激活.
假如输入通道数为kkk, 输出通道变为floor(k×η)floor(k \times \eta)floor(k×η).
接着输入到DenseNet中, 每个DenseNet块包含n层3x3卷积, growth rate为g.
Output Layer
全连接做分类
实验
数据
- SNLI
- MultiNLI
- Quora question pair
参数设置
optimizer: Adadelta(ρ=0.95\rho=0.95ρ=0.95, ϵ=1e−8\epsilon=1e-8ϵ=1e−8)
learning rate: 0.5
batch size: 70
模型不能进一步收敛后, 使用SGD(learning rate=3e-4)继续训练
在每个线性层之前都用了dropout.
word embedding: 300D GloVe 840B
character embedding: 随机初始化 100D
1维的character embedding卷积核设置为5
Natural Language Inference Over Interaction Space(DIIN)阅读笔记相关推荐
- NATURAL LANGUAGE INFERENCE OVER INTERACTION SPACE
文章目录 ABSTRACT 1 INTRODUCTION 2 RELATED WORK 3 MODEL 3.1 INTERACTIVE INFERENCE NETWORK 3.2 DENSELY IN ...
- 【提示学习】Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
论文信息 名称 内容 论文标题 Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inf ...
- 论文解读: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
前言:在自然语言研究领域,某些自然语言处理任务可以利用"预训练模型+任务描述"方式的无监督学习来解决.然而,已有的"预训练模型+任务描述"的无监督学习方法不如有 ...
- 论文解读:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
论文解读:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference 随着 ...
- 论文笔记翻译——Enhanced LSTM for Natural Language Inference(ESIM)
文章目录 0.前言 1. 模型结构 1.1 input encoding 1.2 local inference modeling 1.3 inference composition 2. 模型实现 ...
- EMNLP2020 | 近期必读Natural Language Inference精选论文
**AMiner平台**由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务 ...
- ESIM:Enhanced LSTM for Natural Language Inference
原文链接:https://aclanthology.org/P17-1152.pdf ACL 2017 概述 对于自然语言推理任务,Bowman等人在2015年提出了一个大数据集,大多数工作就开始使用 ...
- 文献阅读——Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
附注 这篇文章中在最终提到模型的时候使用了一个 "知识蒸馏" 的点,这点需要注意.如果不懂的话,请参考知识蒸馏基本原理 其实,这里的知识蒸馏主要是在预训练模型的Fine-tunin ...
- ESIM (Enhanced LSTM for Natural Language Inference)
ESIM历史意义: 1. 深层次的挖掘文本间的语义关系特征 2.加入文本语法结构信息 本文主要结构如下: 一.Abstract 1.推理是人工智能的关键体现 2.SNLI为推理模型提供数据支撑 3.文 ...
最新文章
- java报错MalformedURLException: unknown protocol: c
- 每日命令:(13)more
- 在windows上解压linux文件夹,Win10如何使用命令行来解压缩文件?
- 装机必备工具(普通家庭版)
- ElasticSearch配置扩展分词
- 如何quot;优雅quot;地终止一个线程?
- 《大数据》2015年第2期“动态”——大数据发现银行贷款风险
- Oracle 网络配置与管理
- Java学习记录 课程来自黑马刘意(风清扬)19年版
- 使用echarts制作拓扑图
- 【通信工程】大三下课程设计-5G核心网功能设计与部署
- 数字媒体技术在计算机技术中的应用,浅谈数字媒体技术的主要应用及发展趋势...
- Codecademy学习Python
- 基于cooja的RPL OF的修改与仿真
- 在练琴时关于音乐与计算机结合的碎思考
- 更换ruby源----RubyGems 镜像 - 淘宝网
- php绕过宝塔,一句命令绕过宝塔面板强制绑定账号
- 安笙机器人_演员动态周报 | 李晨王晓晨《北京西城故事》、张翰徐璐《若你安好便是晴天》、包贝尔辛芷蕾《我的机器人女友》...
- 如何建设IDC数据中心机房?看完你就明白了!
- 围观设计模式(23)--行为型之命令模式(Command Pattern)