论文解读

  • span 表示
    • A Minimal Span-Based Neural Constituency Parser最小的基于span的神经网络解析器
      • 摘要
      • 介绍
      • 模型
        • chart parsing
        • top-down
      • 后续
    • End-to-end Neural Coreference Resolution端到端神经共指消解
      • 摘要
      • 介绍
      • 任务
      • 模型
  • span 模型
    • A Span Selection Model for Semantic Role Labeling
      • 摘要
      • 介绍
      • 模型
        • span选择问题
      • 网络架构
    • Span Model for Open Information Extraction on Accurate Corpus
      • 摘要
      • 模型
        • 问题定义
        • span候选人选择
        • 模型结构
        • 推理
    • Headword Amplified Multi-span Distantly Supervised Method for Domain Specific Named Entity Recognition
      • 摘要
      • 介绍

span 表示

A Minimal Span-Based Neural Constituency Parser最小的基于span的神经网络解析器

摘要

在这篇论文中我们提出一个基于label和span独立评分用于成分解析的最小神经模型。这个模型不仅仅与经典动态规划技术兼容而且采用了一个新的基于输入递归分解的贪心top-down推理算法。我们证明这两个预测模型和基本评分模型组合都能在PENN TREEBANK和French Treebank达到SOTA

介绍

本文提出了一种最小但非常有效的基于神经网络的成分解析模型。近年来,人们对使用输入句子的递归神经网络(RNN)表示的结构进行解析产生了极大的兴趣(Vinyals等,2015)。尽管有证据表明,线性RNN解码器可以隐式地尊重结构化输出上的一些非平凡格式良好的约束(Graves, 2013),但研究人员一致发现,最佳性能是由明确要求解码器生成格式良好的树结构的系统实现的。
有两种方法可以确保这种结构一致性,常见的是在一个转换系统里将输出编码为一系列操作来递增的构造树。这讲解析问题转化回一个序列对序列的问题,同时很容易迫使解码器只采取保证生成格式良好的输出的操作。但是,基于转换的模型不允许快速的动态程序,并且需要仔细的特征工程来支持精确的基于搜索的推理。此外,具有周期性状态的模型需要复杂的训练程序才能从贪婪解码之外的任何东西中获益。
另一种工作是侧重图表解析,用log-linear或者神经评分潜力参数来参数化一个树形结构的动态程序以实现最大化或者边缘化。这些模型具有很多吸引人的形式属性,包括支持精确推理和结构损失的损失函数。但是,之前的基于图标的方法需要大量的教授级而不仅仅是简单的良好格式潜力,例如,预先指定用于生产输出结构的完整上下文无关语法和使用较弱模型对输出空间进行初始修剪。此外我们还不知道最近有任何基于图表的模型,能取得与最佳基于过度的模型相竞争的结果。
在这篇论文中我们突出一个及其简单的基于图表的神经解析器基于独立label和span的评分,表现这个模型怎么适用于TOP-DOWN的贪心解码过程。我们的目的是保持面向span(而不是面向转化)解析表示的基本算法特性,同时探索哪种神经表示机制可以在多大程度上代替现有基于图表解析器需要的额外结构。在Penn Treebank上,我们的方法比许多基于图表和基于转换的模型表现好,得到了91.79的F1。还在French Treebenk上得到82.23的F1。

模型

1.编码
成分树可以看成一个句子上标记span的合集
提出模型包含两个组件:span label评分(决定输出的标记)和span existence评分(提供结构)
问题核心是span representation
上下文信息很重要,所以采用recurrent neural networks
双向LSTM f i f_{i} fi b i b_{i} bi 表示 f j − f i f_{j}-f_{i} fjfi b i − b j b_{i}-b_{j} bibj
单层前馈函数:label和span评分函数
span (i, j)表示为 s i , j s_{i,j} si,j
2.解码

chart parsing

推理动态程序

top-down

最终输出为一个语法树

后续

改进 《 Constituency Parsing with a Self-Attentive Encoder 》ACL2018
本篇论文将之前A Minimal Span-Based Neural Constituency Parser这篇论文中模型的编码器部分由LSTM替换为了Self-Attentive,来捕捉句子单词内容(content)与位置(position)之间的联系。

End-to-end Neural Coreference Resolution端到端神经共指消解

摘要

我们介绍了第一个端到端共指消解解析模型,并表明它在不使用语法解析器或人工设计的mention检测器的情况下显著优于以前的所有工作。主要想法就是直接考虑文档中的所有sapn作为潜在mention并且学习每个的可能祖先的分布。这个模型计算了span embedding,结合上下文无关边界表示与头部注意力机制。它被训练使得共指簇中的gold antecedent span边界可能性最大,被分解使得潜在的mentions进行激进的剪枝。实验证明SOTA的表现,在ONTONOTES上1.5F1的增长,用五个模型结合增长3.1F1,虽然这是第一个在没有外部资源的情况下训练成功的方法。

介绍

我们展现了第一个端到端SOTA神经共指消解模型,只从给出的gold mentions clusters学习得到的。所有的共指消解模型,包括取得让人印象深刻提高的神经方法,依赖句法分析器,都为了headword特性和作为输入仔细地手工设计mention建议算法。我们发现第一次这些资源是不需要的,而且事实上没有他们性能也能提升,通过训练一个端到端的神经模型,联合学习哪个span是实体mention怎么更好地集合他们。
我们的模型在所有达到最大长度的span空间上推理,直接最优化gold coreference cluster中的antecedent span的边界可能性。它包括了一个span排序模型,决定对每个span哪个之前的span是好的祖先。我们模型的核心是文档中文本的向量嵌入表示,它结合了上下文无关边界表示和一个跨span的头部定位注意力机制。这个注意力机制收到之前系统的分析器派生的头部词汇匹配特性,但不太容易出现级联性错误。在我们的分析里,这些学习到的注意力权重跟传统的头部定义密切相关。
在我们的端到端模型里面对所有的span对进行评分是不切实际的,因为复杂的在文档长度上是四次的。所以我们在一元 mention scores和双变量antecedent scores上考虑模型因素,这两者都是学习到的span嵌入的简单函数。一元提及函数呗用来减小span和祖先的空间,来激进地减少两两计算的数量。
我们的最终方法由于已有的系统。这不只是准确的,而且是相对可解释的。这个模型因素,例如直接表现了缺失的共指链接是由于低提及分数或者一个提及排序模块的低分。头部定位注意力机制也解释了哪个内部词在共指决策中贡献最大。我们利用了这种整体的可解释性来做详细的定量和定性分析,提供对方法优势和劣势的洞察。

任务

我们端到端共指消解的任务是对文档中每个可能的span做出一系列选择。输入是一个文档D包括T个单词和元数据(例如说话者和类型信息)。
N= N ( N + 1 ) 2 \frac{N(N+1)}{2} 2N(N+1)是可能的span数量
任务是为每个span分配祖先 y i y_{i} yi

模型



span表示 两种类型的信息对准确预测共指链接十分中亚:上下文周围的mention span和span的内部结构。我们使用一个双向LSTM来编码每个span内部和外部的词汇信息。我们还包括一个注意力机制,来模拟头部单词。
双向LSTM的输出:

注意力机制,单词向量的加权和:

最终表示

span 模型

A Span Selection Model for Semantic Role Labeling

摘要

我们为SRL问题提出了一个简单且明确的模型。我们的模型直接考虑了所有的参数SPAN并且为每个标签打分。在解码过程中,我们贪婪地选择得分更高的被标记span。我们模型的一个优势是运行我们设计和使用span的特性,这个对BIO标记方法是很困难的。实验结果证明我们的整体模型得到了SOTA,在CoNLL-2005上87.4F1和2012上87.0F1

介绍

SRL是一个浅层语义分析任务,其目标是识别每个谓词的谓词-参数结构。给定一个句子和一个目标谓词,SRL系统能预测出这个谓词的语义参数。每个参数都是一个span,一个包含一个或更多单词的单位。参数span预测的关键是span表示和建模。
一个很受欢迎的模型就是基于BIO标记方案。SOTA方案用的这种方法。用神经网络推断出的特征他们用给每个单词都预测了BIO标记。开头单词和参数span中的单词有B和I标记,参数span外的单词有O标记。在获得高精度的同时,这个方法从预测出的BIO标记重新构建参数span,而不是预测span。
另一种方法是基于被标签的span预测。这种方法给每个span和它的标签打分。一个优点是让我们能设计和使用span级别的特征,这对BIO标记的方法是困难的。但它的表现落后于SOTA的基于BIO神经网络模型。
为了填补这个空白,这篇论文提出了一个简单而且准确的基于span的模型。受到最近语义解析和共指消解基于span的模型启发,我们的模型直接给所有基于神经网络推断的span表示的可能的span打分。在解码时,我们贪婪地选择标记分数最高地span。这个模型参数由优化正确标记span的对数似然来学习的。
我们评价我们基于span模型的表现在CoNLL-2005和2012数据集上。实验结果表明基于span的模型比BiLSTM-CRF模型表现好。除此之外,用上下文单词表示,ELMo,我们的模型得到了SOTA结果。经验性地分析这些结果,我们模型的标签预测能力比基于CRF模型的好。另一个发现是ELMo提高了span边界识别的模型表现。
总得来说,我们的主要贡献是:
1.一个简单的基于span模型得到了SOTA
2.基于span模型优势和缺点的数量性和质量性分析
3.由ELMo得到的表现经验性的分析。

模型

我们用SRL作span选择,我们从每个标签可能的span集中选出一个合适的。这个章节正式了这个问题并且提出了我们span选择模型。

span选择问题

给定一个句子由T个单词组成和一个目标谓词位置指数p,目的是预测一个被标签的span集。每个labeled span<i,j,r>包括词索引i和j和一个语义角色标签r。
一个简单的方法来预测Y是选择最高得分的span(i,j)从每个r的所有可能span中。
注意到一些语义角色没有出现在句子中。为了解决这些标签的缺席,我们定义谓词位置span(p,p)作为一个空集,并且训练一个模型来选择NULLspan在没有对于标签的span时。
例子:

网络架构

span特性表示:

fbase基础特性 双向BILSTM
fspanspan属性 flabel

Span Model for Open Information Extraction on Accurate Corpus

摘要

open IE挑战性是因为数据基础的脆弱 。大部分Open IE系统是在建立的语料库上训练和不准确的训练集上评估的。在这篇论文中,我们首先从测试集和数据集两方面缓解了这个困难。对前者,我们提出一个提升模型来更充分地利用训练集。对后者,我们提出了一个根据一系列语言观察和分析精确重新注释的基准测试集ReOIE6。然后,我们介绍了一个span模型代替之前对n-ary Open IE采用的序列标记方式。我们新提出的模型得到了SOTA在两个基准评估数据集上。

模型

我们的模型叫SpanOIE,包括两个部分。
两个部分:预测模块来找到句子中的谓词span和参数模块来输入句子和谓词span输出参数span

问题定义

为每个Open IE角色标签选择正确的span。我们的模型预测一个y ⊆ \subseteq SPL,S是所有span的集合,P是谓词span,L={A0,A1,A2,A3}是标签集。为每个标签我们的模型会选出分数最高的span。
注意一些标签可能不在给出的句子中。这种情况下,我们定义谓词span为NULL span并且训练一个模型来选择NULL span。

span候选人选择

span模型的缺点:复杂度太高
提出三个限制来约束span候选:最大长度,没有重叠,句法

模型结构

我们的模型工作分为两节管道,有两个模块,一个谓词,一个参数模型其实现方式和BiLSTM网络。
给定一个输入例子包括一个句子S和一个谓词span P我们提取了S中每个单词的向量

推理

在推理阶段,针对跨度选择模型提出了几种有效的译码方法,如利用整数线性规划和动态规划进行结构约束推理。
谓词推理。

Headword Amplified Multi-span Distantly Supervised Method for Domain Specific Named Entity Recognition

distantly supervised methods

摘要

为了解决NER任务,监督学习方法需要得到丰富且干净的标记数据,这非常耗时且浪费时间。相反,远程监督方法需要自动标注数据用词典可以缓解这个要求。不幸地是,词典因为它的限定容量阻碍了NER远程监督方法的效率,特别是在特定领域。在这篇文章中,我们针对词典应用的本文提到了边界检测
词典使用的限制 mention边界识别 ELMo
我们定义远程监督为用基于模糊匹配得到的headword扩展词典。我们使用一个函数来更好地评估匹配的entity mention。我们提出一个基于span的模型,它分类了所有可能的span然后用提出的动态规划算法来推断选择的span。在三个基准数据集上的表现我们的模型优于SOTA远程监督的方法。

介绍

NER是一个从句子中抽取实体提及并且把它们分类成预定义的类型,例如人,地点,疾病,化学品等的任务。这是一个NLP上的重要任务,能有利于下游应用包括关系抽取,事件抽取和共指消解。
监督学习方法使用丰富的干净的标注文本已经表现了他们在一般领域NER任务和基准上高质量的表现能力。但是,得到干净标注文本是劳心劳力和浪费时间的,特别是生物医学等特定的领域。这祖埃拉监督学习的方法在现实世界应用中的使用。
远程监督算法规避了上面的缺点通过根据领域特定词典生成的伪标记。词典是<实体提及,实体类型>对的集合。远程监督方法首先通过词典的精确字符串匹配或者正则表达式找到实体提及,然后给提及分配对应的类型。一个模型可以用有着伪标注的训练语料库训练。最后,远程监督方法减少了标注成本,毋庸置疑地,精度也会降低。
在这篇论文,我们目标在于减少远程监督和监督学习方法之间的差距。我们发现了远程监督方法的两个限制。第一个是词典里的信息不完全能被利用和使用。例如,考虑一个新的疾病叫ROASH并发症,不可能会出现在词典里,所以不会被正确的抽取盒标注如果我们使用表层的匹配。但是,人类可以轻松的认出它是一个即便,因为许多词典里的疾病实体提及都以syndrome结尾。这启发我们用实体提及的headwords作为实体类别的指示器,这提高了伪标注的质量。
第二个限制是大多数的错误都来自于错误边界。大多数的方法(包括监督学习)建模NER问题为一个序列标注任务,用一个流行的模型例如BILSTM-CRF。但是,CRF受到稀疏边界标记的困扰,伪标注只能更稀疏和嘈杂的。除此之外,CRF更关注单词级别的信息但不能利用span级别的信息。一些方法选择在预测实体类别之前fix实体边界。显然,任何不正确的边界会导致不正确的输出,不管随后的分类器多精确。所以,我们提出在预测实体类型后再决定实体边界。因此,这会有更多的信息,例如实体提及的类型和置信分数,这帮助确定更准确的边界。
基于上面两个想法,我们提出一个新的远程监督的模型叫HAMNER对于在特定领域的NER识别。我们首先介绍一个新颖的词典扩展方法基于headword的语义对应。为了考虑扩展实体提及引入的可能噪音,我们也用扩展实体提及的headword和原始实体之间的相似度来表示扩展实体提及的质量。这个扩展的词典被用于生成伪标注。我们训练一个模型来估计一个从句子中给出的span的类型基于它的上下文信息。给定一个句子,HAMNER用训练好的模型来预测所有符合单词最大数量的可能span的类型,用一个动态规划算法选择最合适的实体提及边界和类型,同事一直重叠和虚假实体提及。
这篇论文主要贡献:

  1. 我们概括NER远程监督的想法,用headword的语义匹配扩展的词袋你。我们的扩展基于语言和分布语义学。我们使用扩展的词典来提高伪标注的质量
  2. 我们提出来一个用span信息和上下文信息来预测给定span的类型。我们突出一个动态规划推算算法来选择最可能的实体提及的span
  3. 三个基准数据集上的实验表明HAMNER只使用词典没有人类努力的情况下得到了最好的表现。详细的分析表明我们设计方法的效率。

span based model相关推荐

  1. 论文笔记(SocialGCN: An Efficient Graph Convolutional Network based Model for Social Recommendation)

    一个有效的基于图卷积神经网络的社交推荐模型 原文链接:SocialGCN: An Efficient Graph Convolutional Network based Model for Socia ...

  2. Paper翻译:《A Novel Convolutional Neural Network Based Model for Recognition and Classification of App》

    论文名称:<A Novel Convolutional Neural Network Based Model for Recognition and Classification of Appl ...

  3. python-ABM-mesa库:Agent Based Model 简单教程:可视化与排队论

    python-mesa:Agent Based Model 简单教程 教程链接:https://mesa.readthedocs.io/en/latest/tutorials/intro_tutori ...

  4. 玻尔兹曼分布详细推导、softmax 及 Energy Based Model

    因为想申请 CSDN 博客认证需要一定的粉丝量,而我写了五年博客才 700 多粉丝,本文开启关注才可阅读全文,很抱歉影响您的阅读体验 大多数人应该都是在利用神经网络解分类问题时第一次接触 softma ...

  5. Agent Based Model金融市场建模

    63 1.ABM给复杂系统建模 agent model给系统建模三个方面: agent给经济系统建模: 1.1 市场交易 1.2 技术扩散 1.3 交通系统 2.ABM用于金融市场建模 2.1Sant ...

  6. 论文阅读:《An Online-Calibrated Time Series Based Model for Day-Ahead Natural Gas Demand Forecasting》

    前言   在以往的研究中,建立预测模型需要大量的历史信息.这个过程将需要相当多的时间.计算能力和内存(存储数据).如果将GD(天然气数据)与环境温度的相关性直接嵌入到预报过程中,则预报误差可大大降低. ...

  7. Adopting a physically based shading model

    原文:https://seblagarde.wordpress.com/2011/08/17/hello-world/ With permission of my company : Dontnod ...

  8. 使用ASP.NET实现Model View Presenter(MVP)

    作者:Billy McCafferty 翻译:张善友<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office: ...

  9. A Complete Tutorial on Tree Based Modeling from Scratch (in R Python)

    转载自: http://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-py ...

最新文章

  1. 机器如何读懂人心:Keras实现Self-Attention文本分类
  2. 从LeetCode 679. 24 Game--C++ 解法--二十四点 到穷举24点所有可能性-24点大全
  3. 算法--------旋转图像
  4. 版本更新带来的缓存问题_浏览器缓存原理总结
  5. [笔试面试][code_by_hand]输出第二个字符串在第一个字符串中的连接次序
  6. Discovering Urban Functional Zones Using Latent Activity Trajectories TKDE 2015
  7. 使用python实现人脸检测转载
  8. eladmin代码自动生成_如何让Mybatis自动生成代码
  9. 2019年度年中回顾总结_我的2019年回顾和我的2020年目标(包括数量和收入)
  10. 院士发言:有高校博士后待遇比国际平均水平高出一倍,这不正常!
  11. python logger设置信息取得_shell 脚本中如何获取 python logging 打印的信息?
  12. 非对称加密, 助记词, PIN, WIF
  13. 3299元起!结缘梅奔F1车队,Redmi K50电竞版发布
  14. linux 劫持广告技术,屏蔽运营商广告劫持 - gcudwork的个人空间 - OSCHINA - 中文开源技术交流社区...
  15. 6. JavaScript HTML DOM
  16. LeetCode11 盛最多水的容器
  17. python怎么打星号金字塔_python打印星号金字塔的方法_后端开发
  18. 开源三轴云台EVVGC(simple BGC)分析
  19. Elasticsearch+IK+pinyin自定义分词器
  20. ubuntu mate在树莓派2上的安装

热门文章

  1. 宁做创业狼,不做打工狗!
  2. 【C4D教程】全网最好的C4D常用插件分享!错过就没有了!
  3. 求java Array和及平均数
  4. 点对点传输协议计算机网络,什么是点对点协议(Point-To-Point Protocol)?
  5. 在审计中用到的计算机知识,2019注册会计师考试《审计》第五章知识点:信息技术对审计过程的影响...
  6. 一个很猛的MM被甩以后
  7. 什么是分布式配置中心?
  8. 安装ubuntu20.04, CUDA11.4, cnDNN, tensorflow, pytorch
  9. RCE之文件包含漏洞
  10. 纸牌游戏设计制作(C语言)