文章目录

  • Introduction
  • Model
    • Interactive Inference Network(IIN)
    • Densely Interactive Inference Network(DIIN)
      • Embedding Layer
      • Encoding Layer
      • Interaction Layer
      • Feature Extraction Layer
      • Output Layer
  • 实验
    • 数据
    • 参数设置

Introduction

Natural Language Inference任务介绍
NLI又叫做recognizing textual entailment. 是用来确定两句话是不是蕴含关系.
第一句话作为premise, 第二句话作为hypothesis, 则两句话的三种关系定义如下:

  • entailment(如果premise为真, 则hypothesis也必须为真)
  • contradiction(如果premise为真, 则hypothesis必须为假)
  • neutral(既不是entailment, 也不是contradiction)

Model

Interactive Inference Network(IIN)

先介绍下基础的IIN
模型主要包括五部分, 每部分都可以用不同的方式实现.

  1. Embedding Layer: 将词或者短语转换为向量表示, 并构造句子的矩阵表示.
    可以直接使用预训练的词向量, 比如word2vec, glove等等.
    为了提高效果, 还可以利用词性标注, 命名实体识别等方法获取更多词汇和句法信息.
  2. Encoding Layer: 对Embedding Layer的输出进行编码, 这部分可以选择不同的编码器, 比如BiLSTM, self-attention等等. 不同的编码器可以结合使用来获得更好的句表示.
  3. Interaction Layer: 生成premise和hypothesis之间的interaction tensor.
    Interaction有多种不同的建模方式, 比如计算余弦距离, 点积等等.
  4. Feature Extraction Layer: 解析从Interaction layer获取的语义特征. 这部分作者使用的2-D的CNN
  5. Output Layer

Densely Interactive Inference Network(DIIN)

进入正题, 介绍DIIN. DIIN的基础结构和IIN是一样的.

Embedding Layer

Embedding部分, 作者使用了word embedding, character feature和syntactical features进行拼接.

word embedding直接用的预训练的GloVe, 注意, 作者在训练时会对词向量进行更新.

character feature是通过一维的卷积来实现的, 卷积后进行max-pooling. 作者指出, character feature有助于解决OOV问题. CNN在premise和hypothesis之间共享权重.

Syntactical feature包含词性标注的one-hot向量和 binary exact match feature.

Encoding Layer

将上层得到的premise表示PPP和hypothesis表示HHH先通过一个两层的highway network得到P^\hat PP^H^\hat HH^作为新的表示.

然后, 通过self-attention layer获取词序和上下文信息. self-attention过程如下:

之后,将P^\hat PP^Pˉ\bar PPˉ拼接并送入fuse date.

用同样的方法得到H~\tilde HH~

Interaction Layer

这里β(a,b)=a∘b\beta(a,b)=a\circ bβ(a,b)=ab, 也就是element-wise product

Feature Extraction Layer

这部分作者将DenseNet作为CNN特征提取器.
另外, 作者在实验时发现batch normalization会延迟收敛, 而且没有提高准确率, 所以他们没用.

在得到Interaction Layer输出后, 先用1x1的卷积降维.注意这部分卷积不用ReLU激活.
假如输入通道数为kkk, 输出通道变为floor(k×η)floor(k \times \eta)floor(k×η).

接着输入到DenseNet中, 每个DenseNet块包含n层3x3卷积, growth rate为g.

Output Layer

全连接做分类

实验

数据

  • SNLI
  • MultiNLI
  • Quora question pair

参数设置

optimizer: Adadelta(ρ=0.95\rho=0.95ρ=0.95, ϵ=1e−8\epsilon=1e-8ϵ=1e8)
learning rate: 0.5
batch size: 70
模型不能进一步收敛后, 使用SGD(learning rate=3e-4)继续训练
在每个线性层之前都用了dropout.
word embedding: 300D GloVe 840B
character embedding: 随机初始化 100D
1维的character embedding卷积核设置为5

Natural Language Inference Over Interaction Space(DIIN)阅读笔记相关推荐

  1. NATURAL LANGUAGE INFERENCE OVER INTERACTION SPACE

    文章目录 ABSTRACT 1 INTRODUCTION 2 RELATED WORK 3 MODEL 3.1 INTERACTIVE INFERENCE NETWORK 3.2 DENSELY IN ...

  2. 【提示学习】Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

    论文信息 名称 内容 论文标题 Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inf ...

  3. 论文解读: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

    前言:在自然语言研究领域,某些自然语言处理任务可以利用"预训练模型+任务描述"方式的无监督学习来解决.然而,已有的"预训练模型+任务描述"的无监督学习方法不如有 ...

  4. 论文解读:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

    论文解读:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference   随着 ...

  5. 论文笔记翻译——Enhanced LSTM for Natural Language Inference(ESIM)

    文章目录 0.前言 1. 模型结构 1.1 input encoding 1.2 local inference modeling 1.3 inference composition 2. 模型实现 ...

  6. EMNLP2020 | 近期必读Natural Language Inference精选论文

    **AMiner平台**由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务 ...

  7. ESIM:Enhanced LSTM for Natural Language Inference

    原文链接:https://aclanthology.org/P17-1152.pdf ACL 2017 概述 对于自然语言推理任务,Bowman等人在2015年提出了一个大数据集,大多数工作就开始使用 ...

  8. 文献阅读——Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

    附注 这篇文章中在最终提到模型的时候使用了一个 "知识蒸馏" 的点,这点需要注意.如果不懂的话,请参考知识蒸馏基本原理 其实,这里的知识蒸馏主要是在预训练模型的Fine-tunin ...

  9. ESIM (Enhanced LSTM for Natural Language Inference)

    ESIM历史意义: 1. 深层次的挖掘文本间的语义关系特征 2.加入文本语法结构信息 本文主要结构如下: 一.Abstract 1.推理是人工智能的关键体现 2.SNLI为推理模型提供数据支撑 3.文 ...

最新文章

  1. java报错MalformedURLException: unknown protocol: c
  2. 每日命令:(13)more
  3. 在windows上解压linux文件夹,Win10如何使用命令行来解压缩文件?
  4. 装机必备工具(普通家庭版)
  5. ElasticSearch配置扩展分词
  6. 如何quot;优雅quot;地终止一个线程?
  7. 《大数据》2015年第2期“动态”——大数据发现银行贷款风险
  8. Oracle 网络配置与管理
  9. Java学习记录 课程来自黑马刘意(风清扬)19年版
  10. 使用echarts制作拓扑图
  11. 【通信工程】大三下课程设计-5G核心网功能设计与部署
  12. 数字媒体技术在计算机技术中的应用,浅谈数字媒体技术的主要应用及发展趋势...
  13. Codecademy学习Python
  14. 基于cooja的RPL OF的修改与仿真
  15. 在练琴时关于音乐与计算机结合的碎思考
  16. 更换ruby源----RubyGems 镜像 - 淘宝网
  17. php绕过宝塔,一句命令绕过宝塔面板强制绑定账号
  18. 安笙机器人_演员动态周报 | 李晨王晓晨《北京西城故事》、张翰徐璐《若你安好便是晴天》、包贝尔辛芷蕾《我的机器人女友》...
  19. 如何建设IDC数据中心机房?看完你就明白了!
  20. 围观设计模式(23)--行为型之命令模式(Command Pattern)

热门文章

  1. 绥化学院计算机二级考试考试成绩,绥化学院教务网络管理系统登录入口、成绩查询网上选课查分...
  2. 旅游景区小程序开发解决方案
  3. GAIAWORLD打造区块链第一游戏公链(上篇)
  4. woudcloud库一点经验
  5. 外贸公司怎么通过谷歌地图寻找目标客户?
  6. sqlserver修改字段为允许为空
  7. 天正改变视口比例的方法
  8. 单片机ch2o程序_我做的甲醛检测的单片机源码
  9. win定时关机_windows10电脑怎么设置定时关机
  10. 淘宝最新开店卖家店铺采集同行店铺的步骤