Mining Algorithm Roadmap in Scientific Publications
原文链接

文章目录

  • ABSTRACT
  • KEYWORDS
  • 1 INTRODUCTION
    • 标签稀缺
    • 实体
    • 关系
  • 2 RELATED WORKS
  • 3 PRELIMINARIES
  • 4 EXTRACTING COMPARATIVE RELATION
    • 4.1 Candidate Mention Extraction
    • 4.2 Cross-Sentence Relation Extraction
    • 4.3 Weakly Supervised Training Data
  • 5 GENERATING ALGORITHM ROADMAP
  • 6 EXPERIMENT
    • 6.1 Dataset
    • 6.2 Results
    • 6.3 Case Study
  • 7 Conclusion
  • A IMPLEMENTATION DETAILS
    • A.1 Preprocessing
    • A.2 Training

ABSTRACT

科学出版物的数量在不断增加。对一篇科学论文进行长时间的消化对人们可以阅读的论文数量提出了巨大的挑战,这阻碍了人们快速掌握新研究领域的主要活动,尤其是对情报分析师和新手研究人员而言。为了加速这一过程,我们首先在科学出版物中定义了一个新的问题,称为挖掘算法路线图,然后提出了一种新的弱监督方法来构建路线图。算法路线图描述了不同算法之间的进化关系,并概述了正在进行的研究和该领域的动态。它是分析师和研究人员在分析和调查一个研究领域时定位算法后继者和家族的工具。我们首先提出缩写词作为算法的候选词,然后使用表格作为弱监督来提取这些候选词和标签。接下来,我们提出了一种新的方法,称为跨句注意网络比较关系(Cross-sentence Attention NeTwork for cOmparative Relation, CANTOR) 从文本中提取比较算法。最后,我们用时间和频率导出单个算法对的顺序,以构建算法路线图。通过综合实验,该算法在所提任务上显示出优于基线方法的优势。

KEYWORDS

关系抽取,分类学建设, 知识库构建

1 INTRODUCTION

科学出版物的数量在不断增加。根据著名的STM报告[38],仅在2014年发表的期刊文章数量就接近250万篇,而且这一数字仍在逐年增加。消化一篇科学论文需要很长时间,这给研究者能够消化的论文数量带来了巨大的挑战。经验丰富的研究人员可能熟悉识别所需的论文。然而,对于需要浏览论文和快速掌握新研究领域主要活动的情报分析师来说,这个问题变得更加严重。研究新手在寻找与他们的研究相关的论文时可能会有类似的障碍。他们通常需要大量的时间来想出关键词,检索和阅读相关论文,并重复这个过程。

帮助这个过程的一个步骤是分类构建[11,14,32,42],它从一组文档中提取概念,并构建一个树结构来描述不同概念之间的层次关系。分析师和研究人员可以遵循这种概念层次结构来快速识别更多想要的关键字或文档。然而,以往的分类法构建方法大多集中在 isA 关系上。它们或者依赖于利用语言特征提取层次关系的基于模式的方法[14,32],或者依赖于基于聚类的方法[11,42],该方法将概念聚类以induce(诱导)隐含的层次。

在本文中,我们生成了一个名为“算法路线图”的图表,重点关注一种特殊类型的概念——“算法”,以及它的具体形式——“缩写”。给定一个科学语料库,我们挖掘比较算法(在第3节中描述),并构建一个连接挖掘算法的图。例如,在图1中,算法生成对抗网络(GAN) [9]的路线图描述了它在科学文献中的继任者和竞争对手。生成的算法路线图捕捉算法的发展,勾画正在进行的研究,并对一个区域的动态进行建模。它是分析师和研究人员在进行分析和调查时定位算法继任者和家族的工具。

总之,在科学文献中挖掘算法路线图存在三大挑战,分别对应于标签、实体和关系。

标签稀缺

在科学出版物中收集域内算法实体和关系标签是极其昂贵的。现有的数据集或精选的领域内知识库[1,4]相当小,并且随着科学的发展经常过时。此外,一个新发明的算法可能只出现在一篇论文中。这种稀缺性对像[18,19]这样的监督和远程监督实体提取方法或依赖于频率的弱监督短语提取方法[30]提出了挑战。当使用远程监管时,知识库的低覆盖率也会影响关系标签的可用性[22]。

实体

一般的实体识别不会直接将算法实体与其他实体分开。虽然使用缩写作为算法的表示减轻了考虑所有类型的实体的问题,但是除了算法之外几乎没有其他类型存在。此外,缩写作为文本的简称,容易产生歧义。已经研究了词义消歧方法[23]来消除词义的歧义,然而,在缺乏标记数据的情况下,在科学领域中确定缩写的意义仍然是具有挑战性的。

关系

两种比较算法的叙述要么存在于单个句子中,要么分布在句子之间。例如,在图1中,比较关系可以用一句话来描述,例如,“算法A优于算法B…,“,或多句,例如,“算法A…;算法B …”此外,很可能会比较两种以上的算法,或者在一个段落中出现两种以上的缩写。额外的缩写可以表达与比较关系相关的意思。无监督的基于模式的方法,如[14]侧重于isA关系,不适合寻找比较算法。除了[25,37]之外,现有的大多数有监督关系抽取的研究都集中在单句关系抽取上,这些研究集中在一般文档上,而没有针对算法缩写和比较关系的具体叙述。另一方面,这些有监督的方法需要带注释的语料库。

我们提出了一个框架来挖掘科学出版物中的算法路线图,以应对之前提出的挑战。它首先提取具有特定模式的缩写作为算法候选。然后,它利用来自表和文本的弱监督来创建用于比较关系识别和实体类型的训练数据。接下来,应用我们提出的跨句注意网络比较关系(Cross-sentence Attention NeTwork for cOmparative Relation, CANTOR) 的关系抽取方法抽取文本中的比较算法。它利用上下文中的单词和缩写,并联合预测候选类型,以解决路线图构建过程中的歧义。最后,将比较的算法连接成一个带有时间和频率信息的图。

在三个真实数据集上的大量实验证明了我们在寻找比较关系方面的优越性能。我们的CANTOR模型在很大程度上优于监督和非监督基线方法。我们对构建的算法路线图进行案例研究,以进一步可视化构建的有效性。

2 RELATED WORKS

知识库构建是一种已知的获取知识和以结构化格式存储事实的技术。构建的知识库在信息检索、问答、文档分析等下游应用中发挥着重要作用。大多数现有的自动构建的知识库集中于一般领域,要么从维基百科的信息框中提取事实[3,34],要么用特定的语言模式获取知识[5,39]。Taxonomy(分类学)可以看作是一个树形结构的知识图,其中链接的节点具有层次关系。已经提出了许多方法来提取这些层次关系,或者利用语言模式[14]或者隐含地捕捉层次关系的概念的层次聚类[42]。这些方法主要集中在一般领域,用模式或统计来获取公共知识。

许多工作侧重于挖掘科学出版物,例如,[1]为科学出版物提出了一个关键短语和关系提取竞赛,[4]收集了一个用于科学分类构建的数据集,[13]通过动态主题模型研究了科学主题的演变[21]建模隐含主题和模糊关系,一些技术报告[12]手动分析了人工智能等领域的发展。其中一些作品为科学出版物收集数据集,但众所周知,这一过程非常昂贵,收集的数据集通常很小。
词义消歧[23]是一种用于区分歧义词义的技术。他们要么用词义清单来消除词义的歧义,要么通过对单词进行聚类来区分super senses(超义)。受到使用super senses的方法的启发,我们使用类型作为区分缩写的证据。为了利用缩写的约束,我们使用预定义的类型作为缩写的super senses。

另一个与我们相关的工作是关系抽取,它已经引起了社区的极大关注,而大多数工作都集中在新闻和网络数据上[8,29]。最近基于神经网络的方法在关系抽取方面取得了巨大的成功,包括基于CNN的方法[40,41]和基于LSTM的方法[31]。这些方法都把关系放在一句话里考虑。另一方面,大多数关系抽取工作假设实体和关系集是在数据集中给出的,而其他工作则应用远程监督将文本中的实体提及[22,28]链接到知识库实体[19]并获取关系标签。他们的弱点在于,他们要么需要标注的语料库,要么需要覆盖面广的知识库。

除了单句关系抽取方法之外,已有一些跨句关系抽取的研究工作。[26]提出用最小跨度假设为实体构建跨句关系数据。[25]提出使用Graph-LSTM编码提取的依存解析树中的最短路径,其中不同句子的树根链接在一起。[37]提出了一种使用自我注意[36]和bi-affine(双仿射)评分算法来同时预测摘要中所有提及对之间的生物关系的方法。我们的工作在三个关键方面与他们不同。首先,我们利用来自论文的弱监督,而不是使用注释语料库或来自外部知识库的远程监督。其次,我们考虑为缩写歧义和路线图构建键入实体。第三,我们用上下文中的单词和缩写来模拟单句和跨句的比较关系。

3 PRELIMINARIES

本文主要针对科学出版物中的挖掘算法路线图。为了更好地理解我们的论文,我们首先给出了与算法路线图相关的定义,然后简要概述了我们提出的方法。

算法路线图 它是一个有向无环图 G,其中图的每个节点都是缩写形式的算法项。图G中的每个有向边e1→e2表示两个算法节点e1和e2之间的有向进化关系。比如在计算机科学领域,有GAN(生成对抗网络)[9]和DCGAN(深度卷积生成对抗网络)[27]等算法。一个有向边 GANDCGAN 代表“DCGAN”是一个继承者,是从“GAN”演化而来的。

比较关系 它是两种算法之间的关系,这意味着在一些论文中两个术语是相互比较的。例如,具有比较关系的配对(GAN,DCGAN)意味着在一些论文中将“DCGAN”与“GAN”进行比较,但是没有方向信息暗示哪种技术是后继技术。

路线图建设 我们是第一个使用从表格和文本中获得的弱监督来挖掘具有比较关系的算法对的人。此外,我们通过用时间和频率信息导出顺序,将比较的算法连接成有向图G。

4 EXTRACTING COMPARATIVE RELATION

在这一部分,我们提出了一个框架来提取论文中的比较算法对。该框架由三个步骤组成:1) 提取缩写作为算法候选提及;2) 利用表格和文本的弱监督来创建用于比较关系和typing的训练数据;3) 学习预测候选提及对的关系。

4.1 Candidate Mention Extraction

我们使用缩写作为算法候选。使用缩写作为算法候选的直觉在于两个方面:实体和关系标签可用性。

缺乏带注释的语料库和覆盖良好的领域内知识库,一般的实体识别方法[18,19]不适合我们的候选提及提取。由于出现频率低,短语抽取方法也不能满足要求。

我们观察到缩写是算法术语的常用表示。有了统一的形式,就很容易从语料库中收获。更重要的是,使用缩写作为候选词提供了一种从表中收集监督信息的可能性,用于比较关系,我们将在第4.3节中展示。

缩写遵循特定的模式,可能有几种含义。例如,表2显示了算法,如CNN(卷积神经网络),数据集,如MNIST(修改的国家标准和技术研究所数据集),以及度量,如AUC(曲线下面积)。一些缩写的类型可以通过检查缩写后面的信号词来区分。例如,算法缩写后面可以是算法、方法、模型等。在正文中。

我们使用由大写字母、小写字母、数字和连字符组成的正则表达式,从文本中无意识地获取缩写作为算法提及的候选词。在第4.2.5节中,我们提取了一些由信号词识别的缩写类型,为实体类型提供了弱监管。未识别的缩写被随机抽样为其他类型。

4.2 Cross-Sentence Relation Extraction

我们设计了我们的模型来合并单句和跨句信息,并考虑一个段落中的所有缩写。为此,我们的模型由一个带有分段CNN [40]的单句模块和一个跨句模块组成,跨句模块利用自我关注来关注捕获段落级关系信息的所有单词,而缩写关注来关注帮助描述候选对关系的所有缩写。此外,在参与的候选人身上共同完成typing工作,以协助下游路线图的构建。提及对预测集中在用于实体对预测的单句模块和跨句模块上。最后,对两个模块的预测进行插值,同时学习权重和其他参数。

4.2.1输入 单句模块和跨句模块在Rd中都有一系列N个标记嵌入。每个标记的输入嵌入是xi,它是单词嵌入和位置嵌入的concatenation(串联)[40]。

4.2.2单句模块 我们使用PCNN(piecewise convolutional neural networks, 分段卷积神经网络)[40]作为我们的单句关系提取器,这是一个用于短上下文关系提取的性能良好的模型。

PCNN是CNN的变种,在关系抽取中采用分段最大pooling。它将句子分为三个部分:第一个实体之前的部分、两个实体之间的部分和第二个实体之后的部分。因此,每个卷积滤波器qi被分成三个部分(qi1、qi2、qi3)。max-pooling分别在三个段上执行,定义为

其中n是卷积滤波器的数量,而pi等于所有段j上的pij连接,其聚集来自不同部分的信息。非线性层被添加到由所有过滤器p1:r表示的句子关系编码之上,以获得关系预测:

4.2.3跨句模块 我们的跨句模块侧重于寻找段落级的比较关系,其中两个算法提到候选位于句子之间。我们基于最近的Transformer架构[7,36]来构建该模块,因为与LSTM[15]和CNNs相比,它在编码长距离上下文方面具有更好的性能。

Self-Attention 我们采用Transformer [36]对段落中的单词序列进行编码,计算单词的Self-Attention,并在自关注块中使用类似于[37]的卷积层来减轻模型处理局部特征的负担。我们将剩余连接[12]添加到多头注意层和卷积层。Transformer包含Transformer block 的堆叠层,Transformer block 包含其自己的一组参数。Token Embedding X = {x1,…,xN} is fed to 第一层Transformer block,并且第k层block的输出 Ak 通过下式计算

其中,sofrmax() 是一个列规范化函数,dAk 是用于自我关注的第k个转换器块的输入Token Embedding 的维数。具有剩余连接的卷积层卷积跟随自关注层:

我们遵循最近在多个自然语言处理任务中取得巨大成功的BERT [7],在段落的开头添加一个特殊的< CLS >标记,在段落中每个句子的结尾添加一个特殊的 <SEP> 标记。< CLS >的表示用于收集段落中的关系信息。通过Self-Attention层,段落中的所有其他标记都会关注此< CLS >标记。< SEP >是一个代表句子结尾的特殊标记,用于将句子边界信息合并到模型中。

Abbreviation-Attention 缩写关注层计算句子中所有缩写的关注度。当额外的算法也被比较或者与两个候选有相似的关系时,两个候选提及可能有很大的可能性是可比较的。

与自我注意机制不同,缩写注意是根据一个段落中的所有缩写来计算的。将缩写的所有token embedding表示为B,应用带有一组新参数的transformer block。类似于自关注,在第k层输入嵌入Bk的情况下,abbreviation-attention Bk的第k层输出计算如下

类似地,具有剩余连接的卷积层被应用于缩写-注意层的输出:

有了缩写-注意层,句子中的所有缩写都在关注算法候选。选择HBk中候选算法的最终输出HBk,e1和HBk,e2 被选为实体表示,融合段落中的所有缩写信息。

Character Embedding 有些缩写在文本中很少被提及,这可能会导致单词嵌入训练不足。由于缩写通常是由摘要文本创建的,类似的缩写可能意味着重叠的单词序列。为了利用这种直觉,我们使用描述缩写的字符级信息的字符嵌入,并且我们应用字符级卷积层和最大池层来获得字符级缩写表示。

对于具有相应字符嵌入序列C =< c1,c2,…,cn >,我们应用一个卷积核,然后是一个max-pooling层。

Fusion Layer 最后,我们在编码的段落表示HAk、< C LS > 和算法候选表示E之上使用单层来建模它们的交互。候选表示E是通过连接原始单词嵌入Xe1、Xe2、字符嵌入Hc、e1、Hc、e2、关注缩写嵌入HBk、e1、HBk、e2而构建的。最终融合层预测一个实例的最终关系分数。


4.2.4Combined Relation Extraction 预测算法候选对是否被比较形成了多实例学习问题[29,35]。对于每一对,一大堆实例可能包含两个候选对象。实体级预测是对多个提及对实例的聚合。基于不同的假设,提出了不同的加权策略,如最大共享[35]和选择性注意[17]。

我们遵循至少一个假设,其中一个正面例子至少有一个实例暗示了比较关系,并使用最大池来选择在单句和跨句模块中实体对得分最高的实例。

算法候选对(e1,e2)的最终得分是单句模块的聚合预测得分O1(z|S)和跨句模块的O2(z|S)的值。从数据中联合学习可训练权重λ1和λ2,以反映单句和跨句部分的重要性。权重限制为正数,总和为1。

最后,我们使用softmax对分数进行归一化,得到概率分布pz= sofrmax(O(z|S)),关系预测损失被定义为交叉熵损失: L R E = ∑ i = 1 2 y i l o g ( p z , i ) L_{RE}=\sum_{i=1}^2y_ilog(p_{z,i}) LRE=i=12yilog(pz,i) 其中每个 y i ∈ { 0 , 1 } y_i \in \{0,1\} yi{0,1} 表示算法候选对关系对于哪个类(无/有关系)是真的.

4.2.5 Entity Typing 以前的关系提取模块不区分缩写的类型。除了算法之外,几乎没有其他类型存在,尽管使用缩写作为候选算法解决了候选识别的问题。此外,引入缩写可能会增加歧义的机会。例如,“GAN”可以是一种算法(生成对抗网络),也可以是生物学中的一种基因。“CNN” 可以是一个卷积神经网络算法,也可以是一个电视频道(有线新闻网)。

受标注词簇超义类型的词义消歧方法[23]的启发,我们通过关系提取任务联合预测候选缩写的类型,以区分下游路线图构建的缩写。考虑到缩略语的类型有限,我们预先定义了一个固定类型的清单,而不是使用聚类和标注词聚类。

我们在关注缩写后的关注算法候选表示之上使用一个投影矩阵w3来预测候选缩写的类型,分数用softmax函数归一化: p t = s o f t m a x ( W t H B k e ) p_t = softmax(W_tH_{Bke}) pt=softmax(WtHBke)

类型预测损失也应用交叉熵损失: L T P = − ∑ i = 1 T y t , i l o g ( p t , i ) L_{TP} = - \sum_{i=1}^Ty_{t,i}log(p_{t,i}) LTP=i=1Tyt,ilog(pt,i) ,其中有总t类型,每个 y t i ∈ { 0 , 1 } y_{ti}\in \{0,1\} yti{0,1}表示ith类型的正确性。

考虑到比较关系只适用于具有相同类型的候选对象,我们在损失函数中添加了类型约束。对于基本事实中的比较算法候选对e1、e2,类型约束损失被定义为两个预测类型的KL-散度,其中 L T C = D K L ( p t , e 1 , p t , e 2 ) L_{TC}=D_{KL}(p_{t,e1},p_{t,e2}) LTC=DKL(pt,e1,pt,e2).
最终得分是所有损失函数的加权和,权重作为超参数。

4.3 Weakly Supervised Training Data

比较关系的标签很难从现有的数据集和精选的知识库中获得。我们提出了一种弱监督方法,基于我们的观察,在表的同一行或同一列中,提到的缩写通常是比较的,包括比较的算法、数据集或度量等。这给了我们一个不用人力就能创造正面训练范例的机会。

我们首先使用表格解析工具[ 6]从原始pdf文件中提取表格。然后,我们处理解析后的结果,以识别同一行或同一列中的缩写。我们列举并标记了对齐的缩写对,作为具有比较关系的正例。表中的监督给出了各种类型的比较缩写。

我们随机抽取其他非正候选对作为训练中的阴性例子。为了减少大量不相关和无信息的负面例子,我们遵循[26]中的最小跨度策略,并将采样的负面候选对限制为在有限长度的连续句子中显示的共现对。直观地说,大多数比较算法被保留下来,因为作者倾向于在一个简短的段落中连贯地描述比较的算法。

5 GENERATING ALGORITHM ROADMAP

先前的比较关系提取步骤产生了一大组比较的缩写对,每一对对应于算法路线图中的一条无向边。我们的目标是导出边的方向并连接各个对。

进化关系与比较关系有很强的关联性。发布时间是比较算法进化方向的有力指标。我们使用缩写语料库中的第一次出现时间作为近似值。对于那些出现时间相同的对,我们期望通常低频率算法从高频率算法进化而来。

例子。“GAN”和“DCGAN”对是通过比较算法挖掘的。我们定位他们的第一次出场时间,发现"GAN"是2014年第一次出版,"DCGAN"是2015年第一次出版。GAN(2014) → DCGAN(2015)被预测为“DCGAN”是接班人的方向。

当连接单个对时,只保留超过一定概率阈值的候选。此外,除了类型“其他”之外,在不同对中具有不同类型的候选被认为是路线图构建的独立节点。

6 EXPERIMENT

以下部分以这种方式组织,首先,我们描述数据集和实现细节,其次,我们显示不同方法在比较关系提取任务中的支持和手动评估结果,第三,我们执行案例研究以可视化构建的算法路线图。

6.1 Dataset

我们从包括机器学习、自然语言处理和数据库等领域的学术会议上抓取论文。语料库包括1987年至2017年的神经信息处理系统年会(https://nips.cc/)、1974年至2017年的计算语言学协会年会(http://aclweb.org/anthology/)和2008年至2017年的VLDB会议(https://www.vldb.org/pvldb/)。每个数据集的统计数据如表3所示。

从这些数据集中,我们提取算法候选提及,应用弱监督从文本中提取类型,从表中提取比较关系标签,如第4节所述。我们以80%和20%的比率分割训练和测试数据。在训练数据中,10%作为验证数据。其他实施细节包含在附录A中

6.2 Results

在比较关系抽取的任务中,我们对我们的方法和几种基线方法进行了持续评估和手动评估,其中模型预测给定的候选对是否具有可比性。评估的方法可以分为非监督方法,包括基于共现的方法[10],基于词相似度的方法[20],和监督关系提取方法[40]。基于模式的方法[14]由于在我们的任务中召回率低而没有被比较。

来自弱监督表格数据的测试集用于延期评估。由于正面例子的数量有限,评估是苛刻的,并且由于很少的表解析错误,评估是嘈杂的。在人工评估中,对于每种有监督的方法,我们从测试数据中的阳性预测ground truth阳性集合中随机抽取100个例子,并将它们组合成一个统一的人工测试集合。我们让人力标注者来标记这些对,在这里,我们不按照弱监督的标准来区分比较的算法、数据集或度量。下面我们详细介绍评估方法。

PCNN_single :分段CNN模型[40],是目前最先进的单句关系抽取方法之一。PCNN_single仅对候选词对使用单句实例。

PCNN_cross 与PCNN_single相同的PCNN模型,其中也使用了跨语句实例。

Sent _ cooccur 一种类似于同音异义词检测中使用的共现法[10]。Sent_cooccur计算候选对在一句话中的共现频率。使用决定最接近ground-truth试验数据的正负比率的阈值。

Doc_cooccur 类似于Sent_cooccur,用一个文档中的同现频率代替。

Word_similarity 一种基于单词嵌入相似性预测比较关系得分的方法,其中嵌入是用在Gensim7中为每个语料库实现的Skip-Gram模型[20]预处理的。阈值的确定类似于Sent_cooccur。

CANTOR 我们提出的跨句关系抽取方法,它考虑了单句和跨句实例,上下文中的所有缩写,并联合键入候选词。
图3显示了持续评估,表4显示了所有不同方法的手动评估。对于持续评估,我们绘制所有方法的精度-召回率曲线,对于手动评估,我们计算加权宏F1和AUC(ROC曲线下的面积)。AUC描述了排名的正确性,其中F1没有考虑排名。

共现是缩略语比较关系的一个指标,具有较好的召回率,但精度较低。这是因为计算共现会在结果中引入非比较缩写。句子级共现模型比文档级模型具有更好的性能,因为比较的候选词更有可能出现在较短的上下文中。单词相似性模型在两种共现方法之间执行。单词嵌入捕捉类型的上下文,而不是比较关系。另一方面,大量候选词很少被提及,导致嵌入词的训练不足。

有监督的关系抽取方法通常优于无监督的方法。使用单句的关系抽取模型PCNN_single效果很好,但当召回率增加时,其精度会迅速下降。考虑跨句实例的PCNN交叉进一步提高了模型的性能,这表明了跨句实例在寻找比较关系中的重要性。我们的CANTOR方法优于所有这些方法,这意味着更好的跨句比较关系建模。

Ablation Study 我们进行消融研究,以显示不同组件的性能。我们使用神经病学数据集中的手动测试数据来评估组件,该数据由来自阳性预测的随机样本和来自监督方法的正样本收集而成。如表5所示,堆叠自我注意、缩写-注意、typing和组合建模提高了模型性能。

6.3 Case Study

对于每个数据集,我们从整个语料库中用我们训练的CANTOR模型挖掘比较算法,并用第5节描述的方法连接各个对。在图4中,我们展示了从不同数据集构建的部分算法路线图。在每幅图中,每个节点都包含其缩写名称和第一次出现的时间,如第5节在其数据集中所述。需要注意的是,这个时间不一定等于第一次发布时间,因为算法不一定在这次会议上发布。

“GAN”是一种深度生成模型[9],自提出以来被广泛引用。研究人员甚至建立了一个“GAN zoo”(https://github.com/hindupuravinash/the-gan-zoo),以跟踪各种“GAN”的继任者。
在NeurlPS数据集,我们的方法挖掘它的直接后继者,如“DCGAN”、“SteinGAN”、“UnrolledGAN”、“Reg-GAN”和“ALI”。然后我们不断的确定每个接班人的接班人。比如“DCGAN”有“W-DCGAN”、“SteinGAN”、“Improved-GAN”等后继者。将我们挖掘的算法与“GAN
zoo”中的算法进行比较,发现在找到的后继算法中有很好的精确度。我们目前的方法没有区分不同形式的缩写,因此“斯坦根”和“斯坦根”被视为分开的候选词。可以使用最小置信度得分阈值来控制路线图的每个级别,以权衡精确度和召回率。

同样在ACL数据集里,查询“Word2Vec”通常代表一种单词嵌入方法。我们的方法确定了它的直接后继者,如“Glove”、“GCCA”、“NetSize”和“NetSime”而Glove的后继者包括“HLBL”、“SAC”和“vecDCS”等。在VLDB数据集中,查询“MonteDB”是一个数据库管理系统,我们的方法找到了它的直接后继者,如“VectorWise”、“HyperR”、“PostgreSQL”而“MXQuery”有“BDB”、“MapReduce-RDF-3X”等后继者在结果中,“LLVM”是一些数据库管理系统使用的编译器后端。这个错误来自不正确的表解析,该对在训练数据中被当作一个正面的例子。

总的来说,我们的方法挖掘质量好的比较算法,尽管它有潜在的缺点。有些错误来自方向推导,主要是因为时间信息不正确,缺乏实体链接。例如,在ACL数据集中,“LSA维基”实际上是一种基线方法,而不是维基百科上使用潜在语义分析的“Word2Vec”。但这个缩写作为一个整体,最早出现在2015年,导致方向错误。另一方面,算法在数据集中的第一次出现时间不一定是第一次提出该算法,因为算法可以首先出现在其他会议/期刊中,甚至出现在其他领域中。这些会议/期刊中有些不是非开放存取的,这意味着挖掘算法路线图的数据源自然是不完整的。幸运的是,像Arxiv(https://arxiv.org/)这样的开放存取存储库的出现缓解了数据源不完整的问题。

7 Conclusion

我们在科学文献中提出了一个挖掘算法路线图的新任务,并提出了一种弱监督的方法来解决这个问题。我们的方法自动识别候选提及和关系标签,然后联合预测缩写类型,并利用单词和缩写的注意上下文提取句子之间的比较关系,最后将单个对连接成路线图。我们的模型在三个真实数据集上优于基线方法,并且显示了良好的挖掘结果。

我们目前的模型主要关注缩写形式的算法。然而,通过将我们的模型与通用短语挖掘算法[30]、实体链接[19]和具有相应监督信号的通用跨语句关系相结合,这可以扩展到实体和关系的一般形式。我们会把这些方向留给以后的工作。

A IMPLEMENTATION DETAILS

A.1 Preprocessing

使用Linux pdftotext 工具将纸质pdf文件转换为纯文本文件,并删除非ascii字母。对于每个数据集,我们保留一个单词词汇表,其中包含所有缩写和最小频率阈值为5的其他单词。最大段落长度设为160字,考虑的最大连句数设为20。超过阈值的段落被剪掉。

A.2 Training

该模型在pytorch [24]中实现,并在单个GeForce GTX 1080 GPU上进行训练。单词嵌入、字符嵌入和位置嵌入的尺寸分别设置为100、50和10。词嵌入是在每一个科学出版物语料库中预先训练的,并在Gensim中实现了Skip-Gram模型。卷积层的内核大小设置为7。
我们在单句模块中为卷积层使用200个滤波器,并且在每个变换器块中为卷积层使用相同数量的滤波器作为输入维度。我们对变压器块的每个组件应用层归一化[2],并对输入层、分段最大池和Transformer Block采用dropout[33],dropout为0.3。转换块层数设置为1,因为我们没有观察到增加层数的性能增益。我们使用Adam优化器[16],学习率为0.001。在训练中,批次大小被设置为32,对于每个正样本,我们采样5个不同的负样本。在验证和测试中,我们使用所有的例子。纪元的最大数量被设置为16,其中保持具有最佳正类验证F1的结果。

【翻译】Mining Algorithm Roadmap in Scientific Publications相关推荐

  1. How to implement an algorithm from a scientific paper

    转自http://codecapsule.com/2012/01/18/how-to-implement-a-paper/ How to implement an algorithm from a s ...

  2. 中国AI方法影响越来越大,天大等从大量文献中挖掘AI发展规律

    2020-11-05 14:34:46 机器之心发布 作者:姚汝婧.叶迎春.张吉.李书晓.吴偶 如何从学术文献中挖掘规律,甚至溯源文献的研究方法等?来自天津大学.之江实验室和中科院自动化所的研究者借鉴 ...

  3. 计算机考研复试【英文文献翻译】

    前言:   本人为21考生,所报专业为计算机科学与技术,准备面试过程中搜集了一些历年各大高校英语面试容易考到的英文文献片段.提供给各位小伙伴参考练习呀~ 5G网络(5G) NO.1: The 5th ...

  4. 【论文翻译】Machine learning: Trends, perspectives, and prospects

    论文题目:Machine learning: Trends, perspectives, and prospects 论文来源:Machine learning: Trends, perspectiv ...

  5. 计算机考研复试_令人头大的_英文文献翻译

    前言: 本人所考学校往年的英文文献翻译主要涉及:数据挖掘,人工智能,深度学习,5G网络,SQL定义,编译器 本人在半吊子练习过程中,把我读的一些些比较好用来练习的文献摘要和相关知识(仅提供英文)做了汇 ...

  6. 【论文翻译】Machine learning: Trends,perspectives, and prospects

    论文题目:Machine learning: Trends, perspectives, and prospects 论文来源:Machine learning: Trends, perspectiv ...

  7. 每周大数据论文(二)Data Mining with Big Data

    日常声明:论文均来自于谷歌学术或者其他国外付费论文站,博主只是读论文,译论文,分享知识,如有侵权联系我删除,谢谢.同时希望和大家一起学习,有好的论文可以推荐给我,我翻译了放上来,也欢迎大家关注我的读论 ...

  8. 新视野大学英语第三版第三册全书的Word In Use翻译和部分单元的英译汉翻译

    转到博客浏览效果可能不佳(比如序号无法正常显示,可以下载文档) 链接:https://www.lanzous.com/b531026/ 密码:2qfl Word In Use Unit1 1.Most ...

  9. 目标检测--Training Region-based Object Detectors with Online Hard Example Mining

    Training Region-based Object Detectors with Online Hard Example Mining code: https://github.com/abhi ...

最新文章

  1. 建立实体-关系模型3
  2. 黄聪:C#代码生成工具:文本模板初体验 Hello,World!
  3. mac os 和 ubuntu 上测试工具check-0.9.10的安装
  4. 启明云端分享| SSD201 / SSD202D 在IP广播的应用
  5. python3爬虫初探(四)之文件保存
  6. 浅析C#中foreach引用变量
  7. rup 裁剪_裁剪师是什么意思
  8. 如何进行大数据的入门级学习?
  9. 荒野行动android模拟,荒野行动用模拟器玩教程 荒野行动模拟器不支持机型解决方法...
  10. ctfmon是什么启动项_win7启动项没有ctfmon.exe的解决方法
  11. 测度论与概率论笔记6:符号测度
  12. 跳槽最大原因不是为钱,你信吗?
  13. 每日新闻丨2020年芯片产业即迎来大变局;AMD推出64核128线程HEDT平台
  14. 计算机写给未来自己的一段话,写给未来的自己一句话致未来自己的句子简短励志...
  15. jquery和vue分别对input输入框手机号码格式化(344)
  16. 表格头固定而列可滚动的效果
  17. 实现数字手写图片识别(纯代码)
  18. A Game of Thrones(49)
  19. View/ViewGroup的生命周期
  20. matlab石碑提取,罗塞塔石碑-高尔夫代码:Tic Tac T

热门文章

  1. i9-9880h和i7-9750h差距多大
  2. 区块链技术在医疗保健领域的应用展望
  3. IDEA中的facets和artifacts的介绍
  4. 非CS专业计算机科学与技术学习路径
  5. openjudge 25 计算鞍点
  6. 入职前一天被HR提醒骗子公司别来:骗钱的,别来浪费时间!
  7. 深入理解JVM内存分配策略
  8. Vue超实用案例2:使用setInterval实现逐字动态输入
  9. 敢偷用我的WiFi? 看我怎么治你
  10. 正点原子探索者开发板自定义汉字显示取模方式及底层函数