文章目录

前言
第一课论文导读
- 阅读理解简介
- 多种阅读理解任务
- - 人工合成问答
  - 完形填空
  - 选择题
- 前期知识储备
第二课论文精读
- 论文整体框架
- 对比模型
- - 注意力机制
  - Match-LSTM（一种阅读理解的模型用的是attention）
- 模型
- - 双向Attention流模型Bi-directional Attention Flow Model
  - - Embedding Model
    - Contextual Embedding Layer
    - Attention Flow Layer
    - Modeling Layer
    - Output Layer
- 实验和结果
- - 数据集
  - 实验结果
- 讨论和总结
参考文献

前言

Bi-Directional Attention Flow for Machine Comprehension
用于阅读理解的双向attention流模型
作者：Minjoon Seo et al.
单位：Allenai
发表会议及时间：ICLR2017（表示学习learning representation的顶会）
在线LaTeX公式编辑器
别人的翻译
1.阅读理解任务的简介
阅读理解，有时也叫问答任务，就是给定背景文档和问题，需要回答出答案，一般答案都是文档中连续的一段话。
2.常见的阅读理解任务
1）SQuAD形式：给定背景文档和问题，需要回答出答案，一般答案都是文档中连续的一段话。
2）人工合成问答：人工构造若干简单事实形成的文章以及对应的问题，要求机器阅读文章并作出一定的推理，从而得到正确答案。
3）完形填空：将真实的新闻数据中的实体名如人名或者地名等隐去，用实体标记符号替换掉实体词具体名称，问题中一般问哪个实体怎么怎么了，答案就是对应的实体标记。

4）选择题：给定一篇文章，一个问题和几个获选答案，需要从多个候选答案中选出正确答案，类似于四六级的阅读理解。
3. 了解Attention
了解attention的概念和相关概念，了解attention的意义，了解attention中query、key、value的含义。

第一课论文导读

阅读理解简介

阅读理解：通过阅读文章来回答文章相关的问题。
意义：可以构建通用的问答系统。

多种阅读理解任务

人工合成问答

人工构造若干简单事实形成的文章以及对应的问题，要求机器阅读文章并作出一定的推理，从而得到正确答案。

完形填空

将真实的新闻数据中的实体名如人名或者地名等隐去，用实体标记符号替换掉实体词具体名称，问题中一般问哪个实体怎么怎么了，答案就是对应的实体标记。

选择题

给定一篇文章，一个问题和几个获选答案，需要从多个候选答案中选出正确答案，类似于四六级的阅读理解。

前期知识储备

·了解Attention的概念
·了解attention的概念和相关方法，了解attention的意义，参考论文：
Neural Machine Translation by Jointly Learning to Align and Translate（这个之前读过）
https://blog.csdn.net/oldmao_2001/article/details/100797735

第二课论文精读

论文整体框架

摘要
1.介绍
2.模型
3.相关工作
4&5.实验
6.总结

对比模型

一种基于深度学习的阅读理解模型

注意力机制

虽然之前有写过，还是直接贴过来好了：
https://blog.csdn.net/oldmao_2001/article/details/102653672
来自之前读过的：Neural Machine Translation by Jointly Learning to Align and Translate
Encoder：单层双向LSTM。(就是下图中下面两层方框)
Decoder：
对于输出：
$p(y_i)=g(y_{i-1},s_i,c_i)$
对于 $c_i$ ：
$c_i=\sum_{j=1}^{T_x}a_{ij}h_j,a_{ij}=\frac{exp(e_{ij})}{\sum_{k=1}^{T_x}exp(e_{ik})}$
$\space e_{ij}=a(s_{j-1},h_j)$

Match-LSTM（一种阅读理解的模型用的是attention）

模型来自：Machine Comprehension using Match-LSTM And Answer Pointer
Q是问题query，P是文档passage，对这两个东西都用LSTM进行处理
$H^p=\overrightarrow{LSTM} (P),H^q=\overrightarrow{LSTM}(Q)$

(P),Hq=LSTM

(Q)
然后对passage中的每一个

h_i^p

（代表词）作attention，就是下面的G，

b^p

是偏置，

e_Q

代表重复的次数

\overrightarrow G_i=tanh(W^qH^q+(W^ph_i^p+W^r\overrightarrow h^r_{i-1}+b^p)\otimes e_Q)

用softmax得到每一个词对应的attention权重

\overrightarrow\alpha_i=softmax(w^T\overrightarrow G_i+b\otimes e_Q)

\overrightarrow z_i=\left[\frac{h_i^p}{H^q\overrightarrow\alpha_i^T}\right]

下面的

\overrightarrow h_i^r

是指上一个时间步的结果

\overrightarrow h_i^r=\overrightarrow{LSTM}(\overrightarrow z_i,\overrightarrow h^r_{i-1})

下面两个式子是反向的结果

\overleftarrow G_i=tanh(W^qH^q+(W^ph_i^p+W^r\overleftarrow h^r_{i-1}+b^p)\otimes e_Q)

\overleftarrow \alpha_i=softmax(w^T\overleftarrow G_i+b\otimes e_Q)

最后的结果为：

H=(\overrightarrow h^r,\overleftarrow h^r)

最后预测的答案用答案在文档中开始位置start_id和结束位置end_id来表示。

模型

双向Attention流模型Bi-directional Attention Flow Model

模型比较复杂，有很多个层，文中称为多stage

Embedding Model

Word Embedding 用的是GLOVE，下图黄色部分，Character Embedding 用的是Char-CNN，下图粉红色部分

下面是Character Embedding的图例，看到先对词进行pad，然后卷积核大小是3，stride为1，对输入进行卷积后得到4个结果，有4个卷积核，所有有四个颜色，然后对卷积后的结果进行max pooling，每个卷积结果得到一个值。

Contextual Embedding Layer

文档级别的Embedding 层

下面是原文，大意是说用的是LSTM，而且用的是双向LSTM，最后把两个方向的结果concat到一起，所以维度是2d×T（T为背景文档中词的个数）的。H我背景文档向量，U是query文档向量，J是U中词的个数。

Attention Flow Layer

接上一层得到的结果H和U，他们的维度分别为2d×T和2d×J，然后
1.计算相似度矩阵S，大小为 $(T ， J)$ ， $S_{tj}=w[H_{:t};U_{:j};H_{:t}*U_{:j}]$
上面公式中 $H_{:t}$ 表示H中的一列，维度是2d1， $U_{:j}$ 表示U中的一列，维度是2d1，然后 $H_{:t}*U_{:j}]$ 相乘的结果维度也是2d1的，最后把他们concat出来维度的大小就变成6d1的，w维度是16d的，最后 $S_{tj}$ 就变成一个常量值，代表文档向量t和query向量j的相似度。下面分两个方向进行计算：
2.计算Context-to-query矩阵：对于Context中的词w，query中哪些词和w最相关：
$U_{c-q_t}=\sum_ja_{tj}U_{:j}$ ，其中 $a_{tj}$ 是S中第t行做softmax的结果, $U_{c-q_t}$ 的维度为2dT。
3.计算Query-to-context矩阵：对于Query，Context中哪个词和Query最相关：
$h_{q-c}=\sum_tb_tH_{:t}$ ,其中b是对S每行求max-pooling之后求softmax的结果， $H_{q-c}$ 为重复T次的结果。
4.合并两个矩阵得到G： $G_{:t}=[H_{:t};U_{c-q:t};H_{:t}*U_{c-q:t};H_{:t}*H_{q-c:t}]$
$G_{:t}$ 为4个2d×1的矩阵concat的8d1的结果。G的维度就为8dT

Modeling Layer

这里的输入是上一层得到的G，维度大小如图所示。
这里用到了两层的双向LSTM处理，得到结果M，其维度是2d×T的。

Output Layer

根据前面内容知道：G和M两个东西concat到一起维度为10d×T的，w维度是10d×1
$p^1=softmax(w^T_{(p^1)}[G;M])$
$p^2=softmax(w^T_{(p^2)}[G;M^2])$
$L(\theta)=-\frac{1}{N}\sum_i^Nlog(p^1_{y_i^1})+log(p^2_{y_i^2})$

实验和结果

数据集

SQuAD：斯坦福大学的问答数据集，包含100K+的问题答案对，其中答案是背景文档中的连续的一段话，给定问题和背景文档要求找到背景文档中的连续的一段话作为的答案。
完形填空数据集：从CNN和DailyMail上选取的新闻，分别包含300k/4k/3k数据和879k/65k/53k数据。

实验结果

单模型上要比R-net差一点，但是集成模型NB。右边显示了去掉模型的某个部分后得到的实验结果。

讨论和总结

论文主要创新点：
A. 提出了一种双向attention流的模型。
B.使用了字符，词，文本多种级别的信息。
C.在多个数据集上取得了SOTA的效果。
总结：
对比模型：本文对比了Match-Lstm模型。
模型：本文提出了一种双向attention流模型。
实验：本文提出的在对多个数据集上取得了SOTA的结果。

参考文献

Shuohang Wang et al.Neural Machine Translation by Jointly Learning to Align and Translate

深度之眼Paper带读笔记NLP.22：双向Attention相关推荐

深度之眼Paper带读笔记NLP.2：word2vec.baseline.1
文章目录前言论文储备知识语言模型基于专家语法规则的语言模型统计语言模型统计语言模型中的平滑操作基于马尔科夫假设语言模型评价指标:困惑度(Perplexity) 论文背景知识词的表示方 ...
深度之眼Paper带读笔记NLP.5：transformer
文章目录前言第一课:论文导读序列模型简介序列问题序列模型多到多的序列转换模型Sequence To Sequence Models 带有注意力的循环神经网络RNNs With Attent ...
深度之眼Paper带读笔记NLP.30：BERT
文章目录前言第一课导读语言模型与Word Embedding 语言模型 Language Model 神经网络语言模型Neural Network Language Model 词嵌入 Wor ...
深度之眼Paper带读笔记NLP.18：UMT
文章目录前言第一课论文导读机器翻译简介机器翻译研究意义机器翻译的发展历史基于规则的机器翻译基于统计的机器翻译基于实例的机器翻译基于神经网络的机器翻译端到端的神经机器翻译(Sequ ...
深度之眼Paper带读笔记NLP.19：指针生成网络
文章目录前言第一课论文导读摘要简介抽取式文本摘要基于TextRank的抽取式摘要基于聚类的抽取式摘要基于序列标注的抽取式摘要文本摘要发展历史生成式摘要序列到序列结构两类方法对比 ...
深度之眼Paper带读笔记目录
文章目录简介图神经网络(已完结) NLP精读论文目录(已完结) NLP Baseline(已完结) CV目录(已太监) 简介本次的Paper学习营分CV和NLP两个方向,每个方向又分精读.重点阅 ...
GNN手写字体识别java_深度之眼Paper带读笔记GNN.09.GGNN
文章目录前言本课程来自深度之眼,部分截图来自课程视频. 文章标题:Gated Graph Sequence Neural Networks 门控序列图神经网络(GGNN) 作者:Yujia Li∗ ...
深度之眼Paper带读笔记GNN.06.GAT
文章目录前言导读论文结构学习目标研究背景图卷积 Notation 归纳式学习空域与频域卷积 GAT模型多头注意力机制意义泛读摘要论文结构精读算法模型总览 GNN的结构 GAT ...
深度之眼Paper带读笔记GNN.09.GGNN
文章目录前言论文结构学习目标泛读研究背景研究意义摘要章节精读细节一:GRU模型回顾细节二:GGNN模型 Propagation Model output model 模型框架 G ...

深度之眼Paper带读笔记NLP.22：双向Attention

文章目录

前言

第一课论文导读

阅读理解简介