文章目录

  • 摘要
  • 设置
  • 方法
    • 候选生成
    • MCCNNs
    • 编码候选答案
      • 答案路径
      • 答案上下文
      • 答案类型
      • 模型训练
      • 推理
      • 多任务学习中的问题释义
    • 实验
      • 消融实验
      • 突出词检测
      • 实验
      • 错误分析

论文出处:ACL 2015
论文地址:https://www.aclweb.org/anthology/P15-1026/

摘要

  • 引入多列卷积神经网络(MCCNNs)从三个不同的角度(即答案路径、答案文本和答案类型)理解问题,并学习它们的分布表示。
  • 在知识库中共同学习实体和关系的低维嵌入。
  • 利用问题释义,以多任务学习的方式训练multi-task网络。
  • WEBQUESTIONS

设置

  • 给出一个自然语言问题。我们从FREEBASE中检索相关的实体和属性,并将它们作为候选答案。

方法

  1. 和实体相关节点被视为候选答案节点CqC_qCq
  2. 对于每个候选答案aaa,该模型预测一个分数S(q,a)S(q,a)S(q,a),以确定该答案是否正确。
  3. 每一个问题和答案都有三部分的表征,分别为:路径、文本和类型,f1(q),f2(q),f3(q)f1(q),f2(q),f3(q)f1(q),f2(q),f3(q)g1(a),g2(a),g3(a)g1(a),g2(a),g3(a)g1(a),g2(a),g3(a)

候选生成

  1. eebase Search API (Bollacker et al., 2008)检索问题中的实体。
  2. 实体就检索名词短语。
  3. 到两条内的额节点作为候选答案,被标注为候选集CqC_qCq.

MCCNNs

  1. 编码层:对于问题q=w1,w2,...,wnq=w_1,w_2,...,w_nq=w1,w2,...,wn。transforms层将每个单词转换成一个向量wj=Wvu(wj)w_j=W_vu(w_j)wj=Wvu(wj),其中Wv∈Rdv×∣V∣W_v∈R^{d_v \times |V|}WvRdv×V 是单词嵌入矩阵,u(wj)∈(0,1)∣V∣u(w_j)∈ (0,1)^{|V|}u(wj)(0,1)Vwjw_jwj的one-hot表示,∣V∣|V|V是词汇表大小。word embedding是参数,并在训练过程中更新。
  2. 卷积层通过滑窗的形式计算表征。
  3. 使用最大赤化成得到固定尺寸向量表示。

编码候选答案

答案路径

答案路径通过的向量表征通过g1(a)g1(a)g1(a)来计算:
g1(a)=1∣∣up(a)∣∣1Wpup(a)g_1(a) = \frac{1}{||u_p(a)||_1}W_p u_p(a)g1(a)=up(a)11Wpup(a)

其中up(a)u_p(a)up(a)是一个二进制向量,表示应答路径中每个关系的存在与否,WpW_pWp是一个参数矩阵,∣R∣|R|R是关系的数量。

答案上下文

连接答案的一度实体和关系被认为是答案的上下文。用来处理问句中的约束。其中上下文的表征为g2(a)g2(a)g2(a),被表示为:
g2(a)=1∣∣uc(a)∣∣1Wcuc(a)g_2(a) = \frac{1}{||u_c(a)||_1}W_c u_c(a)g2(a)=uc(a)11Wcuc(a)
其中Wc是参数矩阵,uc(a)u_c(a)uc(a)是一个二元向量,表示上下文节点的存在与否,而∣C∣|C|C是答案上下文中出现的实体和关系的数量。

答案类型

关系的向量表征被表示为g3(a)g3(a)g3(a),倍表示为:
g3(a)=1∣∣ut(a)∣∣1Wtut(a)g_3(a) = \frac{1}{||u_t(a)||_1}W_t u_t(a)g3(a)=ut(a)11Wtut(a)

其中WtWtWt是类型编码矩阵,ut(a)u_t(a)ut(a)是一个二进制向量,表示答案类型的存在或意义,∣T∣|T|T是类型的数量。

模型训练

对于每一个正确的答案,随机从CqC_qCq中采样kkk个负样本进行训练。使用合叶损失优化,其中间隔阈值设定为mmm

推理

  • 推理的过程取得分最高的作为答案。

  • 针对有些问题有多个答案,和最高分数差训练过程中设置的阈值mmm即为正确的答案。

  • 启发式学习的方法处理候选样本过多的问题。

多任务学习中的问题释义

使用问题释义数据集WIKIANSWERS来概括在问答训练集中不存在的词和问题模式。

实验

消融实验

突出词检测

实验

错误分析

  1. 实体链接错误,导致路径生成错误。
  2. 时间意识问题,在判断的过程中需要对问句中的描述进行时间的对比。
  3. 歧义问题。

Question Answering over Freebase with Multi-Column Convolutional Neural Net论文解析相关推荐

  1. 【论文笔记】Question Answering over Freebase with Multi-Column Convolutional Neural Networks

    一.概要   该文章发于ACL 2015,作者提出了一个基于Freebase,使用multi-column convolutional neural networks(MCCNNs)的自动问答模型,分 ...

  2. Information Extraction over Structured Data: Question Answering with Freebase【论文笔记】

              Information Extraction over Structured Data:Question Answering with Freebase 一.摘要 最近,人们一直在 ...

  3. 卷积神经网络Convolutional Neural Networks深度解析I

    知识的广度来自知识的深度,学习如果不成体系那是多可怕的一件事儿,希望我们在未来的学习道路上坚守初心,不要给自己留下遗憾,以自己喜欢的方式生活,做自己喜欢做的事,宠爱自己,做一个独一无二的自己! 对于文 ...

  4. PullNet: Open Domain Question Answering with Iterative Retrieval on Knowledge Bases and Text 论文笔记

    PullNet: Open Domain Question Answering with Iterative Retrieval on Knowledge Bases and Text 2019年,E ...

  5. ImageNet Classification with Deep Convolutional Neural Networks论文翻译——中英文对照

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 翻译论文汇总:https://github.com/SnailTyan/deep-learning-papers- ...

  6. ImageNet Classification with Deep Convolutional Neural Networks论文翻译——中文版

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 翻译论文汇总:https://github.com/SnailTyan/deep-learning-papers- ...

  7. “Physically-Based Rendering for Indoor Scene Understanding Using Convolutional Neural Networks”论文阅读

    论文地址:http://pbrs.cs.princeton.edu/cvpr2017_synclearn.pdf github地址:https://github.com/yindaz/surface_ ...

  8. Cross-scene Crowd Counting via Deep Convolutional Neural Networks2015论文笔记

    Absrtact 挑战:跨场景人群计数(目标场景无标注): 提出DCNN,由人群密度和人数交替训练: 提出data-driven方法微调CNN模型以适应目标场景: 提出包含108个场景(标注20000 ...

  9. 论文解读:Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Info...

    论文解读:Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Informa ...

最新文章

  1. 2021-02-23关于java的方法区,为什么叫方法区,是否与实际用途相悖?
  2. 基于Android移动终端的微型餐饮管理系统的设计与实现1-简介
  3. MySQL / 基本架构介绍
  4. Java随机数控制范围
  5. Asp.Net Core EndPoint 终结点路由工作原理解读
  6. 2016大数据发展7大趋势
  7. 人工智能,装在罐子里
  8. 是什么让 Python 如此多才多艺?
  9. matlab subplot(figure)如何设置使得图像最终显示出来不一样大小
  10. 恶搞代码——vbs进程
  11. JVM虚拟机详解(一)JVM与JAVA体系统结构
  12. 新能源汽车数据采集模块|电压、电流数据采集|大电压大电流采集|静态电流采集
  13. 如何使用Excel的数据去查询数据库?
  14. ucgui 嵌入式linux,uCGUI如何移植到S3C44B0X
  15. DOS windows PE三者有什么区别
  16. Python第四课:input()函数
  17. 计算机处理器份额,处理器市场份额排名 英特尔X86架构继续领先
  18. Kudu 原理、API使用、代码
  19. Lucene 7.5.0 索引文件之tvxtvd
  20. 【BZOJ1502】[NOI2005]月下柠檬树 Simpson积分

热门文章

  1. Unity虚拟现实(互联网+)
  2. Flutter Widget原理(一)
  3. Mac使用n管理node版本
  4. JAVA 五角星数的算法
  5. 专题篇四:Linux企业级CICD持续集成交付发布(终极实战部署:gitlab++jenkins+web(tomcat)+webbook自动发布)
  6. 如何快速简单使用yolov5+手机摄像头实现物体检测
  7. cat tail 正常,vi 中文乱码
  8. 处理电子邮件的.NET控件MailBee.NET Objects免费下载及使用说明
  9. ps错误提示50「脚本错误-50功能不可用」的解决方法
  10. A33_LED驱动调试