来源

  • 参考博客:
    机器阅读理解(看经典MRC模型与花式Attention)
    CNN&Dailymail:Teaching Machines to Read and Comprehend
  • 论文: Teaching Machines to Read and Comprehend

简介

  • 数据库:CNN&Dailymail
  • 任务类型:完型填空
  • 神经网络模型:Attentive Reader, Impatient Reader

1 问题构建

命名实体NE替换的数据集构建

命名实体替换技巧 (对cst类型 以及 后面bert masked有影响)

每个样本的答案(answer)的条件概率p(a|c,q)。
将NE替换,可以让模型更关注从上下文挖掘实体的语义关系(因为在不看原文仅通过阅读分析question的情况下,也可以回答question);但是为了防止训练过程中网络模型过度关注替换后的命名实体,命名实体替换后会进行随机排序,防止训练过程中网络模型过度关注替换后的NE。

从以上也能看出CNN&Dailymail语料库的特点:答案是某种实体对象;答案一定在原文中。因此该语料库不适合用于训练回答推理性的问题。

非神经网络模型的方法

  • 符号匹配模型
    识别句子谓语以及它们的主语和宾语,匹配“谁对谁做了什么事情”的框架来获取信息,如(e1, V, e2)
  • 单词距离基准法(word distance)
    将答案占位符 与 上下文文档中每个可能ne对比,计算问题与指定实体上下文之间的距离,选取距离最小的实体对象作为问题答案。

2 神经网络模型方法

2.1 Deep LSTM Reader

2.2 Attentive Reader

AR采用注意力机制来构建token级别的网络模型。Attentive Reader将query作为一个整体来分析document中不同token的注意力。

query,长度为|q|,query作为一个整体拼接正反反向上的LSTM输出作为向量表示,记为u;
document中第t个位置的token输出表示为正反向上LSTM的输出的拼接,用y(t)表示,并计算每个t的权重,记为s(t),权重矩阵W为回答问题时对文档特定位置的token的重视程度,也就是注意力。r为文档表示,也就是说,document表示r是y(t)关于W(t位置也就是s(t))的加权平均表示。
然后使用query和document的表示作为分类模型的输入。

2.3 Impatient Reader

query中不同token本身的重要性是不一样的.
Impatient Reader进一步分析query中的每个token,尝试找到query中token与document中哪几个token关联最大!并且对于query中每个token,都需要考虑到上一个token在document中累积的信息。


Impatient Reader较Attentive Reader更为复杂,在某些情况下,IR效果可能并不好,因为每读取query中的一个token就要通读原文一次!并且还要考虑上一个token在原文中的相关token,这样效率可能不高,且可能存在梯度弥散问题。

2.4 一维匹配模型与二维匹配模型的区别

一维匹配模型:将问题直接编码为一个固定长度的向量,在计算注意力分数的时候,等效于直接计算文档D每个词在特点问题上下向量中作为答案的概率:P(a|c,q),也正是在计算问题向量Q与文档各个词的匹配关系中形成的一维线性结构,称为一维匹配模型;
二维匹配模型:直接输出问题Q中每一个词的编码,计算注意力的时候,计算文档Q中每一词对D中每一个词的注意力,即形成了一个词-词的二维匹配结构。由于二维匹配模型将问题由整体表达语义的一维结构转换成为按照问题中每个单词及其上下文的语义的二维结构,明确引入了更多细节信息,所以整体而言模型效果要稍优于一维匹配模型。

3 实验

Attentive Reader & Impatient Reader

  • 隐藏层大小:[64, 128, 256]
  • LSTM层数:1
  • 学习率初始化:[1E-4, 5E-5, 2.5E-5, 1E-5]
  • batch size:[8, 16, 32]
  • dropout:[0.0, 0.1, 0.2, 0.5]

【博文笔记】Attentive Reader\Impatient Reader:机器阅读理解之开山之作Teaching Machines to Read and Comprehend相关推荐

  1. 机器阅读理解笔记之glove词向量与attentive readerimpatient reader和bi-DAF

    glove词向量模型 词向量的表示可以分成两类: 基于统计方法 共现矩阵.svd 基于语言模型 神经网络语言模型,word2vector,glove,elmo  word2vector中的skip-g ...

  2. 【哈工大SCIR笔记】机器阅读理解简述

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要25分钟 跟随小博主,每天进步一丢丢 来自:哈工大SCIR 作者:施琦.妥明翔.孙月晴.尹治博 机器阅读理解技术即机器自动从给定的文本中回答用户 ...

  3. NLP-阅读理解-2015:MRC模型-指导机器去阅读并理解【开篇之作】【完形填空任务】【第一次构建大批量有监督机器阅读理解训练语料】【三种模型结构:LSTM、Attention、Impatient】

    <原始论文:Teaching Machines to Read and Comprehend> 作者想要研究的问题是什么?一一在当下神经网络迅速发展的时代,如何针对机器阅读理解提出一个网络 ...

  4. 【论文笔记】Retro-Reader:基于回溯式阅读器的机器阅读理解模型

    Zhuosheng Zhang, Junjie Yang, Hai Zhao, Department of Computer Science and Engineering, Shanghai Jia ...

  5. 【阅读笔记】机器阅读理解(中)——架构篇

    文章目录 一.MRC模型架构 总体架构 编码层 词表向量 字符编码 上下文编码 交互层 互注意力 自注意力 上下文编码 输出层 多项式选择答案生成 区间式答案 自由式答案生成 注意力机制的应用 拷贝生 ...

  6. 基于神经网络的机器阅读理解综述学习笔记

    基于神经网络的机器阅读理解综述学习笔记 一.机器阅读理解的任务定义 1.问题描述 机器阅读理解任务可以形式化成一个有监督的学习问题:给出三元组形式的训练数据(C,Q,A),其中,C 表示段落,Q 表示 ...

  7. 深度学习技术在机器阅读理解应用的研究进展

    深度学习解决机器阅读理解任务的研究进展:https://blog.csdn.net/malefactor/article/details/52832134 深度学习技术在机器阅读理解应用的研究进展:h ...

  8. 深度学习解决机器阅读理解任务的研究进展

    /*版权声明:可以任意转载,转载时请标明文章原始出处和作者信息.*/ author: 张俊林 关于阅读理解,相信大家都不陌生,我们接受的传统语文教育中阅读理解是非常常规的考试内容,一般形式就是给你一篇 ...

  9. 2021秋招-机器阅读理解整理

    机器阅读理解整理 经典模型整理 笔记 后Bert时代机器阅读理解 后续 自己论文整理 已经分类整 大的实验室: UCL MRC_Group: AI2: 微软: THU: PKU: 数据集文章 ROPE ...

最新文章

  1. 只要掌握这三组公式,便可以在AI学习中如鱼得水了
  2. Ubuntu下创建Vim+Taglist+Cscope+Ctags组合编辑器
  3. 《妥协的完美主义—优秀产品经理的实践指南(卷一)》一2.4 分工常见的错误...
  4. [转]C++的Json解析库:jsoncpp和boost
  5. poj2352-线段树-start
  6. 启动模拟器要20多分钟_有硬核开发者将Windows 10X模拟器镜像提取并在物理机上成功安装...
  7. ScalaReact式编程书
  8. SQL Server 全文搜索
  9. 【Maven】1.使用myecplise配置自己的Maven配置,不使用默认的maven
  10. 在matlab中产生dsp程序学习
  11. Dbgview - 签名无效
  12. 高等数学张宇18讲 第十三讲 无穷级数
  13. Win 10 清除恢复分区
  14. 台式电脑自带照片编辑软件将二寸照片改为一寸照片
  15. 《Improving Cross-lingual Text Classification with Zero-shot Instance-Weighting》论文笔记
  16. 计算机网络-第1章-PPT
  17. 参会指南 | 5月20日WAVE SUMMIT 2021,一起和AI来场约会吧!
  18. 这次我真心想告诉你:分手吧!
  19. JAVAFX窗口设置阴影效果
  20. linux命令下载电影,linux命令行---用wget下载电影

热门文章

  1. 用Matplotlib绘制渐变的彩色曲线
  2. 微信小程序正则表达式截取_微信小程序实现简单input正则表达式验证功能示例...
  3. C - Make Good(构造,思维)
  4. java queue toarray_Java PriorityBlockingQueue toArray()用法及代码示例
  5. qlikview连接mysql_QlikView 通过ODBC 连接IBM DB2
  6. 网易企业邮箱服务器没有响应,网易邮箱企业邮箱无法收发信是怎么回事
  7. 人类无法抗拒的十大心理学效应
  8. 教资高中计算机科目,中学信息技术考试科目
  9. linux java模拟器_在Android模拟器和Ubuntu上测试Linux驱动
  10. 意念控制头环:用脑电波来操控智能家居