TechWord: Development of a technology lexical database for structuring textual technology information based on natural language processing

TechWord:基于自然语言处理的技术词汇数据库的开发,用于构建文本技术信息

面向标注数据稀缺专利文献的科技实体抽取

原文链接

文章目录

  • Abstract
  • 1 Introduction
  • 2 Background
    • 2.1 Structuring technology lexical information
    • 2.2 Dependency parser
    • 2.3 Bidirectional Encoder Representations from Transformer(BERT)
  • 3 Research framework
    • 3.1 Data collection & perprecessing
    • 3.2 TechWord extraction
    • 3.3 TechSynset construction
  • 4 Case study
    • 4.1 Data collection and preprocessing
    • 4.2 Structuring and extracting TechWords
    • 4.3. TechSynset construction
  • 5 Discussion
    • 5.1. Considering lexical characteristics of technical text documents
    • 5.2. Improving the performance of text mining through TechWord
  • 6 Conclusion

Abstract

基于专利等技术文档的文本挖掘在技术智能研究领域对技术研发规划具有重要意义。此外,WordNet是一种基于英语的词汇数据库,广泛用于文本数据的预处理,如词性还原和同义词搜索等。然而,科技词汇信息是复杂而且特殊的,WordNet分析科技信息的能力在反映科技特征方面受到限制。因此,为了提高科技信息的文本挖掘性能,本研究提出了一种基于科技词与普通词区别的词汇特征设计科技词词汇库的方法。为此,我们定义TechWord(一种技术词汇信息),并构造一个TechSynset (TechWords之间的同义词集)。首先,通过单词之间的依赖关系分析,对描述一项技术的单位单词TechWord进行结构化并识别名词和动词。通过基于词语依存关系的网络中心性指标分析,考察了连通性的重要性。然后,通过synset信息构造一个TechSynset,根据单词嵌入向量计算余弦相似度,搜索适合目标技术领域的同义词。将所提方法应用于实际的技术相关信息分析,我们收集汽车领域技术领域的专利数据,并给出TechWord和TechSynset的结果。本研究改进了基于科技信息的文本挖掘技术,以自动化过程为基础,将科技文档中的 word-to-word 链接信息结构化。

1 Introduction

随着技术发展环境的迅速变化,技术情报在技术管理中的作用日益受到重视。大量的专利数据已经积累起来,并被广泛用作技术情报的合格来源,用于分析技术趋势、战略技术规划等(Abbas, Zhang, & Khan, 2014;Bonino, Ciaramella, & Corno, 2010)。特别是,专利数据库中的文本数据提供了经常用于各种文本挖掘方法的有价值的技术信息。基于文本挖掘的方法增强了以往基于类代码和引用的书目信息分析,这些分析在解释特定技术内容时受到了限制。在技术智能文本挖掘的早期阶段,我们采用基于关键词的分析方法,基于词频逆文档频率(TF-IDF),提取文档中经常出现的主要词(Lee, Yoon, & Park, 2009;Yoon & Park, 2005)。Subject-Action-Object(SAO)分析通过考虑句子中主语和动词小句(动词和宾语)之间的技术特性和句法关系,发展了关键词分析(Moehrle, 2010;Yoon & Kim, 2012b)。SAO结构中,Action和Object(AO)表示问题,Subject(S)代表解决方案,被分析(Wang et al., 2017)。此外,在另一种文本挖掘方法中,主题建模通过考虑单词和文档的分布,显示由关键词列表组成的topic cluster(Jang, Roh, & Yoon, 2017;Kwon, Kim, & Park, 2017)。所有基于文本挖掘的研究都构建了一个词典的词汇来进行分析。因此,结构化词汇信息直接关系到基于专利的文本挖掘的性能和质量。

WordNet是普林斯顿大学认知科学实验室(Miller, 1995)开发的英语词汇数据库系统,其词汇信息被积极地用于文本挖掘过程中。在WordNet中,名词、动词、形容词和副词被分成若干组认知同义词(称为同义词),每组都表达一个不同的概念。该技术被广泛应用于提高文本语义分析的质量。以前的研究通过结合现有领域本体或维基百科等知识源,扩展了语法集的内容及其语义关系(Barbu, 2015;Esuli & Sebastiani, 2006;Suchanek, Kasneci, & Weikum, 2008)。WordNet还根据数据库的层次结构计算单词之间的距离,用于度量语义相似度(Wei, Lu, Chang, Zhou, & Bao, 2015;Wu和Palmer, 1994)。

以往的技术情报研究都是利用WordNet数据库。现有研究大多采用WordNet synset和词汇关系信息对同义词进行预处理,或计算词间的语义相似度(Choi, Yoon, Kim, Lee, & Kim, 2011;Joung & Kim, 2017;Park, Kim, Choi, & Yoon, 2013;Park, Yoon和Kim, 2013年;Wang等人,2019)。此外,通过WordNet中的特定关系信息开发了一种形态学分析方法,其中词名-名-名关系由形态学的维度组成,每个维度的值被生成为hypernyms-hyponyms (Geum & Park, 2016)。然而,由于与技术相关的文本信息具有与一般文本信息不同的异构性,WordNet本身在将文本挖掘应用于技术智能方面存在局限性。WordNet并不涵盖技术相关文档的所有词汇信息。例如,在名词的特定情况下,一个技术概念是以短语的形式表达的,例如一个多词。此外,WordNet还将“实体”组织成一般词汇的最高级名词,包括子层次的“物理实体”和“抽象实体”。当应用于与技术相关的文本信息时,WordNet的层次结构系统是完全不同的。

根据词与词之间关系的特点,一般自然语言处理词与科技词的主要区别可归纳为两点。首先,以名词为主的技术对象以多词而非单词的形式书写,包含描述的层次语义信息。例如,专利文件中经常出现的“系统”一词被写成复合名词,如“控制系统”和“刹车控制系统”,用来描述一个详细的技术对象。在以往对专利文件句子结构的研究中,这一点被定义为分析复杂多词领域术语时的主要问题(Yang & Soo, 2012)。第二个区别是,分句中的名词和动词之间的关系包含重要的信息。分句中的技术功能是通过与描述技术主语或宾语的名词在句法上相关联的动词来表达的。由于这些结构特征,现有的SAO分析研究正在积极开展。随着高精度自然语言处理技术的不断发展,以及基于术语句法特征的描述方法的特点,开发一个系统的框架显得越来越重要。

本研究旨在建构科技资讯的文本结构,作为科技资讯词汇资料库的基础。提出了一种提取作为TechWord命名的单位词汇项的方法,并基于专利数据库的文本数据构建每个TechWord的同义词集作为TechSynset。首先,通过依存句法分析构建文本技术信息,提取语法结构,根据名词短语和基于sao的动词结构派生出基于短语的技术信息。通过计算构建词汇(节点)与依存关系(arcs)之间网络的网络度中心性,将结构化技术相关词汇信息作为一个技术词加以阐述。根据WordNet的synset信息,构造了语义上等价或相似的一组技术词;如果WordNet不涵盖TechWord的synset,则可以通过Transformer (BERT)的双向编码器表示的单词嵌入模型对其进行进一步研究。最后,通过考虑前一步骤产生的词与词之间的关系和同义词集,构建科技词汇的词汇数据库。

本文其余部分的结构如下。第二部分概述了本文的研究背景,回顾了以往对结构技术词汇信息的研究,这是本文的主要研究主题,以及与自然语言处理和BERT模型相关的两种主要方法。第3节提出了一个研究框架来开发TechWord的技术词汇数据库,第4节包括一个汽车领域的案例研究来说明所提出的框架,随后是一个讨论节,关于案例研究的结果进行深入的讨论。最后,第六部分总结了本文的研究贡献、局限性和进一步的研究。

2 Background

2.1 Structuring technology lexical information

基于文本挖掘的技术智能旨在系统地解读复杂而庞大的基于文本的技术信息。正如人类使用的词根据其语法功能、形式和意义被划分为词类(词性)一样,正如词形成词与词之间的关系一样,技术属性被描述为描述技术的词,并通过每个属性之间的关系来表达。结构化词汇信息,形成技术相关的文本数据有助于更系统地解释技术的内容,并提供高层次的见解(Yoon & Park, 2004)。在组织技术信息时,以专利数据库中的摘要和权利要求文件为代表,通过分析标注词性信息的句子中的语法模式,将各种技术属性视为基本概念。

采用属性-函数分析法提取工艺属性(Dewulf, 2011;Verhaegen, D 'hondt, Vertommen, Dewulf, & Duflou, 2009)。属性被定义为“产品是什么或拥有什么”,其属性主要用形容词来表示;功能被描述为“做什么或经历什么”,它的有用行为是基于特定的目的,主要表现在动词中。基于属性-功能分析,对技术预测和战略规划的专利网络进行了分析(Yoon & Kim, 2012a)。SAO分析成为形成技术相关词汇信息的一种广泛使用的方法。基于SAO结构,通过参考连接主体和客体的特定动作词集,提出了专利关键字短语提取框架,将专利分为四种类型:产品、技术、材料和技术属性(Choi, Park, Kang, Lee, & Kim, 2012)。为了确定技术变革的方向,对SAO链进行分析,构建技术形态结构,包括产品、组件(属性)和材料(Guo, Wang, Li, & Zhu, 2016)。此外,通过基于sao的方法对技术机会进行了调查,其中将核心技术属性视为要素、领域和目的/效应(Kim, Park, & Lee, 2019)。此外,基于技术信息类型构建有意义的技术信息关键字集,包括功能、对象、组件和操作方法(Roh, Jeong, & Yoon, 2017)。标签语法规则然后提取这些类型的技术信息。

现有技术信息结构的研究大多通过语法模式使用POS技术分类属性。在SAO方法中,主要的技术关键字视为“subject”或“object”是名词(或名词短语)的基础上,提取“函数”和“操作方法”技术是基于关键词的动词,“属性”和“属性”基于形容词进行了分析。此外,进一步的属性,如组件和材料,是基于与特定动词相关联的相关信息。本研究以名词部分的名词和动词为研究对象,通过分析名词-名词和名词-动词之间的关系来界定技术词汇,构建技术信息。表1总结了现有方法与本研究提出的技术词的比较。

2.2 Dependency parser

依赖解析器是NLP任务之一,其目的是分析句子的语法结构。“head”单词和修改这些head的单词之间的关系被建立为依赖解析结果。解析信息描述了一个句子中与单词(或词元)相关的句法结构,以及单词之间存在的一组相关的有向二元语法关系(Martin & Jurafsky, 2009)。依赖解析句的结果表示为具有依赖关系的有向图(dobj;直接目标,nsubj;名义上的主观,等) 表1所示,在词头和从属词之间。解析后的数据被用作单词或句子嵌入模型(Ma, Huang, Xiang, & Zhou, 2015)的深度学习架构的特征,文档摘要(Moawad & Aref, 2012;Rachabathuni, 2017),以及其他NLP任务和文本挖掘相关模型。在本文中,我们使用了由斯坦福NLP小组开发的CoreNLP工具包的最新版本(3.9.2版)作为依赖解析器(Manning等人,2014年)。CoreNLP是用于自然语言解析的最稳定的开放源代码之一,它最初于2002年底发布,并已进行了更新。CoreNLP是一个在线演示版本(http://corenlp.run/),在本研究中,安装了一个基于java的库,并通过Python (https://stanfordnlp.github.io/CoreNLP/index.html))进行了分析。

此外,技术智能领域采用了依赖解析,尤其是预处理步骤。通过使用依赖解析器开发一个专利摘要器来识别专利权利要求中的词汇链,该摘要器可识别专利类型的特征(Brugmann等人,2015)。通过整合一系列语言处理工具,包括依赖解析(Wanner et al., 2008),开发了一个面向内容的专利文档处理框架。提出了一种基于命题的语义分析方法,通过依赖解析开发专利网络(An, Kim, Mortara, & Lee, 2018)。由于在文本中使用介词连接技术关键字的语法模式存在,技术关键字之间的关系被确定。Yang & Soo(2012)使用句法信息(POS,和依赖树)和语义信息(背景本体)从专利权利要求中提取概念图(Yang & Soo, 2012)。总之,解析后的结果本身提取文本信息,如名词或动词短语,或解释为网络结构以扩展到附加模型。本研究与后者相对应,试图以词汇关系为基础构建文本信息网络。

2.3 Bidirectional Encoder Representations from Transformer(BERT)

单词嵌入是自然语言处理中最有用的技术之一,它将词汇表中的单词或短语映射为数值向量。最近,基于深度学习的单词嵌入模型得到了应用,包括Word2vec (Mikolov, Sutskever, Chen, Corrado, & Dean, 2013)和GloVe (Pennington, Socher, & Manning, 2014)。将嵌入结果用于不同的文本挖掘领域,通过考虑单词或短语的上下文信息来计算单词或短语之间的相似度。在之前的研究中,已经进行了术语矢量化,目的是构建一个TechNet,一个基于语义相关术语(Sarica, Luo, & Wood, 2020)的技术概念语义网络,关键短语提取,并利用用户意见和技术信息发现技术机会(Roh, Jeong, Jang, & Yoon, 2019)。在专利文件中,TechNet通过NLP对文本进行预处理,通过嵌入学习模型对其进行向量化,并没有反映表达该技术词汇的句法特征。

BERT是谷歌引入的一种最先进的语言表示模型,旨在通过联合对所有层的上下文进行条件处理,预先训练无标签文本的深层双向表示,如图2所示(Devlin, Chang, Lee, & Toutanova, 2018)。BERT是对包含维基百科和图书语料库(Zhu et al., 2015)等大量未标注数据的模型进行预处理后,将学习转移到有特定任务的标注数据的模型(BERT等,2015)。语言模型的预训练是提高许多NLP任务性能的有效途径(Dai & Le, 2015;Radford, Narasimhan, Salimans, & Sutskever, 2018)。BERT模型是一种微调方法,其中目标函数最小化特定于任务的参数,并通过学习下游任务对预先训练好的参数进行微调。而先前的ELMo和OpenAI GPT模型在训练前使用相同的目标函数进行训练,BERT以一种新的方式学习了训练前的语言表征,表现优于先前的模型。在使用Situations with Adversarial Generations(SWAG)数据集评估基础常识推理的实验中,BERT模型的表现分别比ELMo和GloVe系统高出27.1%和33.6%。

3 Research framework

我们提出了一个基于自然语言处理的与技术相关的词法数据库框架来构建文本技术信息。一种复杂的句法结构被认为是技术关系,将名词短语或动词与技术主体、客体或行为连接起来。 整个框架由三个步骤组成,在这三个步骤中,数据被收集和处理,TechWord被提取,TechSynset被构造。首先,在数据收集和预处理步骤中,从专利数据库中收集的基于文本的书目信息中提取依存关系;TechWord是基于依存关系,以名词短语和主、动词等分句为中心,通过分析语法依赖关系,并通过网络程度中心性评分来描述技术的关键字。最后,为了定义同义词集TechSynset,利用WordNet数据库中的同义词集信息,计算每个TechWord的词嵌入向量的余弦相似度。图3说明了基于数据流的过程。在本研究中,分析代码由python实现,结果数据以json格式存储,表示为数据流程图中的数据存储。

3.1 Data collection & perprecessing

在本研究中,我们分析了专利文献领域中基于文本的摘要和权利要求。由于本研究提出了一种技术管理和智能的方法,专利数据,这是一个巨大的和高质量的精细化技术信息的集合,被用作分析数据。图4所示为专利收集及预处理过程。在收集与待分析技术相关的专利文档后,从专利摘要和权利要求书中提取文本信息。在句子标记中,将所有文档分解成句子,分析每个句子的依赖关系解析。专利文档中的权利要求有很长的句子,这可能会导致依赖关系分析中的崩溃问题。为了解决这一问题,运用Yang和Soo(2012)提出的权利要求句拆分过程,将句子分成子句。然后定义目标令牌,其中包括过渡句(comprising,including,等等)、连接词(wherein,等等)、列表项(“(a)”)。“(i)”等),结合权利要求书的写作风格,使用标点符号“;”。在此之后,为特定的目标令牌定义基于启发式的拆分手册,并使用语法信息将其分成子句。语法上完整的句子是依赖分析的输入,不排除停止词和标点符号。对于句子中的每个单词,通过依赖解析提取中心词和与中心词相关联的依赖关系类型。NLP使用了Python包的NLTK (https://www.nltk.org/)和CoreNLP依赖解析器。

3.2 TechWord extraction

根据上一节导出的依存关系信息,从名词短语和SAO结构中提取TechWord候选词,通过中心性指数将每个词之间的联系关系解释为一个网络,评价TechWord候选词的重要性。首先,将TechWord候选词分为名词和动词两种类型,通过依存关系信息的语法模式提取,如表2所示。从技术树的角度,名词短语词的结构是基于层次概念的。通过标记为“复合”和“形容词修饰(amod)”的复合词和形容词修饰语的依存关系类型,提取出多词短语和名词短语形式的科技词候选词。动词类型提取基于SAO结构,其中主语和宾语以提取的名词短语的形式连接。在这种情况下,依存关系链的规则定义有四种类型:主动和被动类型、子句和修饰式类型。


在主动形式中,“主语+动词+宾语”通过连接“主语+动词”来识别,在主语关系的名词形式(nsubj)中连接“主语+动词”,而“动词+宾语”则连接到nsubj和定向宾语(dobj)中的识别动词。活动形式也可以表达的形式修改acl”的短语,站的形容词的条款修改一个名义上的acl关系是修饰名词和相关条款,修改的名词,和“dobj”,这意味着一个名词短语动词的(宾格)对象,其次是相同的动词“acl”。在被动形式的情况下,词汇信息是通过将基于被动的依赖信息转换为主动表示来构建的。也就是说,词汇信息是通过将被动形式的主语转化为宾语,并将“by”后面的名词短语转化为主语来构建的。条款类型的圣结构定义的被动形式是依赖关系链连接的“nsubjpass名义主题(被动),”“nmod(名义修饰符)”和“(通过),”分别代表:一个名词短语是被动句的语法问题,另一个名词或名词词组的名义家属功能对应一个属性,和任何案件”“元素作为一个单独的语法词。被动修改短语的最后一种形式是通过“nmod + case (by) + acl”的依赖关系链定义的。图5显示了每种TechWord类型的示例。

在下一步中,通过将节点解释为单词,将边解释为基于依赖的连接,通过节点中心性来评估TechWord候选节点的重要性。由于名词短语和SAO结构都表示为词与词之间的依存关系,因此每个候选TechWord都可以用一个网络图来表示。在本研究中,我们分析度中心性的度内中心性和度外中心性,以反映表示词头方向和依存词方向的有向网络特征。虽然在网络节点的中心性指标中,存在着度、PageRank、介数、贴近度等多种指标。

节点中心性分析评估节点中表达的主要技术词,从词对词连接所代表的网络观点对它们进行解释(Choi等人,2011;Park, Kim等人,2013;杨,黄,苏,2018)。SAO结构中的high in-degree对象节点被解释为在各个领域中更有用的技术,这意味着它是提高性能的重要技术指标,如表3所示。此外,名词节点的高out- degree被认为是对相关技术领域已有的和/或通用的技术,用来作为实现技术问题的解决方案。AO关系中节点间连接中的第三种高in-out度被描述为一种广泛使用的功能(动作对象),意思是一种重要的技术目的。网络图上关联度节点的高中心性用来描述在名词短语层次结构中形成底层结构的技术的高级概念。名词短语中具有高外倾度的名词词是用来解释所分析技术的关键子技术的概念。通过将SAO分别划分为与主题相关的动作(SA)和与对象相关的动作(AO),对一个动词类型进行分析,来评估代表主要功能的动词节点。

3.3 TechSynset construction

在处理文本数据时,词汇表中同义词的预处理是命令式处理过程之一,因为单词的稀疏性对文本挖掘的最终结果有至关重要的影响。


由于这个原因,我们构造了一个TechSynset,它构成了TechWord的同义词集。根据WordNet中已有的synset信息,根据科技词的词嵌入向量计算科技词之间的上下文相似度,如图6所示。首先,使用Python包“nltk.corpus”中的“wn”模块,从WordNet检索TechWord中每个单词的同义词信息。创建每个TechWord可以拥有的TechWord和synset列表之间的矩阵。采用BERT (Devlin et al., 2018),并行地获得每个TechWord的词嵌入向量。我们计算定义为synset的TechWord对之间嵌入向量的余弦相似度,以检验WordNet检索到的synset信息是否适用于技术领域。特别是,由于科技信息的名词信息往往是由多词组成的,因此有必要通过组合词来扩展同义词集。摘要科技词的名词词组联是利用每一个词的同义词集信息替换每一个词,进行一对一和一对多比较,从而形成一个科技词名词词组联。此时,多词的数量限制在由最多四个词组成,占总数的90%以上,这是从以下的案例研究的分析数据。

4 Case study

4.1 Data collection and preprocessing

汽车领域是技术对象层次结构及其所体现的相关技术功能的广泛而复杂的领域之一。因此,汽车领域的技术特征适合于以下分析,旨在将技术相关信息整合到一个结构框架中。本研究收集了在美国专利商标局(USPTO)注册的专利,以分析基于英语的词汇信息。国际专利分类(IPC)编码的专利数据库、专利的IPC代码汽车、B60(车辆)是来自最近的五年,紧随其后的是专利搜索查询“ICH= B60 AND AD >= 20140701”在Wisdomain.com,专利收集和分析解决方案。最后,我们收集了2014年7月至2019年6月的五年期间的34,823项专利数据。

专利文档中的抽象字段用于以下分析。根据拆分规则将专利文档中的所有句子拆分为句子单元。每个子句都成为依赖项解析的输入。然后通过coreNLP分析依存句法信息,提取句子/单词 id、词典、词性及其关系,如表4所示。

4.2 Structuring and extracting TechWords

根据以名词标记的中心词周围的依赖关系对TechWord候选词进行组织,如表5所示。依赖词澄清了中心词的技术概念。例如,将“ability”引申为“mold ability”、“emergency stop ability”等,体现了“ability”的技术内容和目标。最终的数据框架包括从中心词到从属词的顺序词汇信息,限制在三个词以内。从731,640条词汇数据中提取了54708个名词类型的科技词,其中独特的中心词1666个。

考虑到词依存网络内部的关系,我们采用网络分析方法对科技词的重要性进行评价。利用节点的方向信息计算节点间的入度和出度中心度。在程度中心性高的名词中,它被广泛地用作各种从属词的中心词,可以被理解为体现目标技术的汽车领域的基本形式。最高程度中心性词的上级概念按以下顺序导出:系统、单元、设备、装配、部分、要素、模块、部件、信息和设备。我们确定派生词表中的技术概念可以被解释为体现汽车技术的技术基础。而向外度中心性高的技术候选词则可以被理解为目标技术的子部件或功能对象。向外度中心性高的词汇,在汽车技术领域被重视,包括车辆,动力,控制,空气,马达,侧,电池,目标,驱动器,车轮,座椅,燃料和轮胎。但在vehicle这个词中心性值0.1可以被解释为离群值,与第二高的值0.04相差了两倍以上,可归类为相关技术领域的代表性词。图7显示了度内和度外中心性最高的单词列表。

表6和表7显示程度较高的词汇表(包括程度内中心性和程度外中心性)显示了与之相关的词汇的层次结果。度集中度最高的前三个词centrality-system、units和devices—在其他与技术智能相关的文本挖掘中通常被归类为stop word。在本研究中,我们将这些词定义为技术方面的通用概念的高级层次,并在此基础上,将汽车技术的概念体现在它们的依存词中。汽车技术领域的主要基础技术是由控制系统、制动系统、车辆系统、管理系统等组成的一个系统。在这三种情况中,“控制”一词出现的频率最高,可以理解为汽车领域中最重要的子技术。由于外度较高的词汇可以被理解为扮演角色,如技术功能、主要部分等,因此它们的结构是基于名词类词汇信息的。高外度名词词汇中的权力、控制、空气等主要技术词是通过基于频率的多词形式构成的。动力被推断为汽车领域中常见的部件或子技术,可以与供应、源、传输等概念联系起来。


通过SAO结构分析TechWord候选词的动词类型,其中一个短语或句子包含动词(动作)和相关名词(主语或宾语),如表8所示。通过 分析过程,从与汽车领域相关的专利句子中提取出了82,135个独特的SAO结构,包括2334个独特动词。TechWord的名词类型是前一步的结果,用于基于相同的主语和宾语的头名词将单个名词扩展为短语信息。例如,从US1001545中提取了8个SAO结构,标题为“车辆控制系统”。技术词汇“捕捉”的动词类型被解释为“camera”的技术功能,它通过SAO结构针对“图像数据”。获得了其他技术关系和功能,如“包括”、“检测”、“确定”、“沟通”、“过程”和“控制”。此外,将“system”(S) -“include”(A) -“camera”(O)的SAO结构扩展到“control system”(扩展S) -“include”(A) -“camera”(O),获得了基于层次结构的主语和宾语单一名词的词汇信息。

对SAO关系进行了网络中心性分析,以确定动词类型的TechWord候选词在网络中的重要程度。通过考虑整个文档数据库中的每句话,从汽车领域的整个技术水平的观点来解释结果。每个动词词的in-degree和out-degree中心性的计算方法与名词相同,如表9所示。表达包含关系的动词型词,包括“include”、“have”和“comprise”在in-degree中心数和out-degree中心数均居前位。即专利文件的特征,通过明确发明主题事项的构成要件来表述权利范围。“Configure”显示出高的向外度中心性,而向内度中心性很低。“configure”的意思是安排某物或改变计算机或其他设备的控制,这可能意味着该词聚焦于将成为安排或改变的目标的其他对象。

4.3. TechSynset construction

在本节中,构建TechSynset以提供TechWords之间具有相同和相似含义的词汇信息。首先,从WordNet DB中提取每个TechWord的名词和动词类型的同义词集(称为synset)信息。通过synset创建TechWord的布尔矩阵,以指示每个TechWord包含哪些synset,如表10所示。为此,我们使用了来自“nltk”的WordNet模块。在Python包中,它提供了synset ID(例如:例如,car.n.01)、连接词(e.g., car)、POS (e.g., n;名词),数字(例如01)用一个点表示。如果一对同步id具有具有相同单词和POS的不同数字,这表明解释一组单词的同义词以相同的方式拼写,但具有不同的含义。我们从9,501行TechWords和14,423列的synset id中得到一个矩阵。相关同义词集包含7,593个(6,737个名词和856个动词)独特词汇信息单位,平均每个词有1.91个同义词。名词中,“point”、“head”和动词“clear”所包含的句法成分最多,分别为19和16。

但是,WordNet中的同义词集是从一般词汇信息的角度构建的,缺乏对特定技术领域的考虑。因此,我们使用TechWord的BERT模型,基于词嵌入向量搜索上下文相似的词。BERT模型是一种基于上下文的词嵌入模型,它以单个句子作为输入数据。在本文中,假设单个专利共享相同的上下文,将单个专利文件中的所有句子串联作为输入数据。采用预先训练的全词mask模型,应用24层、1024-隐藏、16头、340 M的超参数,构建单词向量(https://github.com/google-research/bert, https://mccormic kml.com/2019/05/14/BERT-word-embeddings-tutorial/)。隐态在四维空间中描述:张量,包括层数(12层);批号(1句);单词/标记数(每个句子的单词数);和隐藏单元(768个功能)。通过使用最后一层的输出,我们为每个单词获得了一个768维的向量。据此,我们得到了812319个基于上下文的单词向量,其中唯一词汇量为3848个,即211份专利文献中平均出现一个单词。“vehicle”是使用频率最高的单词,有20,300个实例,其次是“one”(11,885)、“first”(10,931)和“system”(10,352)。

在WordNet中,“word”和“synset ID”之间的关系由一对多关系表示,考虑到单个单词的多重含义。与WordNet相同的是,将100多个专利文献中出现的同一拼写词表达的所有词向量聚类,并考虑多义性选择每个聚类的代表词向量。由于单词向量是767维表示的高维数据,我们通过主成分分析(PCA)降维后进行k-means聚类,这是一种通用的高维聚类方法。k-means聚类中,聚类数量定义为只有当指数大于0.5时,剪影指数(silhouette index,一种解释和验证数据簇内一致性的方法)在1 - 5范围内的最高值。定义最终代表向量为同一词内向量聚类中所有向量对中相似性值最高的向量。代表性向量定义为与向量聚类中所有向量对的相似性值最高的向量。在附加向量运算的情况下,向量值的变形可能会对后面的语义分析产生负面影响。因此,在每个聚类中提取一个保持原始值的向量作为代表,不需要进行进一步的向量计算。

为了定义TechSynset,我们从word- To -word网络中提取唯一词作为主要词,然后计算2788个词对之间的余弦相似度,如表11所示。基于bert的模型的结果平均为0.3137,标准差为0.0817,近似正态分布,如图8所示。TechSynset被定义为一对语义相似且余弦相似度高于阈值的词。当相似性阈值调整在0.6 - 0.9范围内时,阈值大于0.6时共得到8969对词对,大于0.7时共得到1223对词对,大于0.8时共得到174对词对,大于0.9时共得到3对词对。一组相似度高于阈值的词对可以定义为TechSynset。TechSynset以0.8阈值导出的174对词对中,有55对词对,不包括具有相同synset ID的词(manner.n。01)出现在WordNet中。该结果是基于thesaurus.com(一个免费的在线同义词词典)的结果进行验证的,它的准确率为74.54%,也就是说,55个词对中的41个词对。对41对正确的同义词对,得出TechWord、WordNet和TechNet的语义相似度分别为0.826、0.275和0.601,TechSynset的值明显较
高。

5 Discussion

本研究提出了一种考虑反映技术描述词汇特征的词汇信息之间关系的技术词汇,并定义了语义相似词的技术词汇集。在本节中,我们的发现的验证和启示将从以下两个方面进行阐述。首先,我们将结果与现有的反映TechWord和TechSynset中词汇特征表达技术的词汇进行比较,并讨论其隐含意义,这是本研究的核心结果。其次,与现有方法相比,通过TechWord创建的词汇表提高了文本挖掘的性能。

5.1. Considering lexical characteristics of technical text documents

我们将研究结果与通用词汇目标数据库WordNet进行了比较,验证了技术相关词汇特征的反映。我们将本文根据技术词汇的特点开发的TechWord结果与现有的WordNet结果进行了比较。从单字到复合词,比较科技相关词的覆盖范围。基于本研究构建的词汇数据表,对每个单词进行检查,以检查WordNet是否包含相应的synset信息。WordNet的synset数据库共排除1494个单词,占6278个词汇表的24%。其中,在专利文件中被使用10次以上的词汇有171个,这些词汇包括与特定部件和功能相关的词汇,包括“安全气囊”、“座椅靠背”、“动力总成”、“蒸发器”、“升降门”、“背光车”等,以及“ECU”、“SOC”、“HVAC”等缩写词。从层次描述所表达的名词的角度来考虑技术词汇特征,确定技术主体,采用短语与其他名词或形容词相连接的形式。除了覆盖WordNet未包含的单词之外,我们还克服了无法解释这些结构含义的限制。从动词的角度来看,与技术相关的文档对于表达技术的目的和功能是很重要的。这体现在名词和动词之间的关系上,WordNet没有考虑到这一点。在本研究中,我们通过SAO结构来构建这个结构。

此外,为了验证本文提出的构建TechSynset的过程,我们还与已有的相关研究进行了对比。在本研究中,我们提出了一种新的方法,通过一个基于BERT的最先进的语言模型来计算科技词之间的相似度。通过使用它的hypernym树结构,已经开发了使用基于wordnet的同义词集之间语义相似度的各种度量,这些结构存储在Python包“nltk”中,比如“wn”。path_similarity”、“wn。wup_similarity”、“wn.lch_similarity”。然而,由于这些指标依赖于WordNet的结构,这个过程的值会有很大的变化。例如,如果在WordNet中存储一对同义词集之间的hypernym、hyponym等关系信息,那么相似度就很高;否则,它可能非常低。此外,已有的一些研究通过词向量化对语义相似度进行分析,从传统的共现方法到高级语言学习模型,如word2vec。以往的方法大多表现为与上下文无关的静态嵌入,而利用向量本身利用余弦相似度时存在困难。另一方面,BERT通过使用不同的向量来反映每个句子的上下文,动态地学习相同的单词(Torres, Gutierrez, & Bucheli, 2019)。TechNet是一个大型的技术相关数据综合语义网络,它是通过余弦相似度将基于word2vector的向量词关联起来的(Sarica et al., 2020)。我们将本研究得到的techsynset与基于WordNet的路径相似度和基于WordNet的TechNet (http://www.tech-net.org/)函数之间的“关联项”的相似度进行比较,如表12所示。我们随机选择了7对单词,并考虑了常见词汇、与汽车有关的词汇和具有特殊问题的词汇。“unit”与“element”在TechSynset、TechNet和WordNet中的相似度分别为0.726、0.563和0.091。汽车“引擎盖”和“引擎盖”的其中一个零件的相似性分别为0.736、0.436和0.067,这是一个相当大的差异。总的来说,基于bert的相似度值更好地反映了相似词之间的相似度。然而,在基于语言模型的情况下,“成人”和“婴儿”这对相反语言的词对相似度也很高,存在一定的局限性。

5.2. Improving the performance of text mining through TechWord

在现有的文本挖掘研究中,由于分析时间和容量等限制,并不是对语料库中的所有词都进行了分析,而是只选择了出现频率最高的词进行分析(Jang et al., 2017;Yoon & Park, 2004)。基于频率选择前20%的案例作为比较目标,这是现有研究的一般方法(Roh et al., 2017)。与现有的文本挖掘相比,我们分析了每个专利文献所选择的分析词的覆盖范围以及是否选择了主要词。对于第4节中收集的34,823个专利公司进行分析,我们分析每个文档可分析的字数,以及选择的可分析字数的TF-IDF值的平均值。在选择一个词汇表中设置专利语料库应用在这项研究中,共有4633个独特的单词被选为频繁的单词的前20%基于现有的研究方法,和13356个单词选为TechWords建议在这项研究中,提取基于名词短语和SAO结构。TechWord并没有选择一个固定比例和数字的词汇词典,而是将其扩展为基于句子中用作中心词的名词的名词短语,以及SAO结构中与之相关的动词和名词。这个由techword创建的词典的特点是扩展成对技术文档的文本分析有意义的词汇表。在两个词汇表比较中,现有方法在一个专利文献(摘要)中纳入分析的平均词汇数为10.69514,TechWord为19.99463,如表13所示。本研究提出的通过TechWord派生的词汇覆盖率较高,这可能是受TechWord定义的词汇数量较高的影响。除平均字数外,TechWord还显示出较低的方差,证实单个专利文档的分析字数分布更为均匀。

利用TF-IDF这一文本挖掘最基本的主要方法,对已有的方法和本文提出的技术词进行了比较。TF-IDF分析结果作为每个文档中每个单词的重要指标值。在这项研究中,比较的语料库,词的TF-IDF平均值j在词汇列表中,词的j似乎对于文档伊迪,分析了基于TF−IDFij派生j在文档中每个单词我如方程(1)所示。平均TF-IDF语料库级别的值作为评价指标的重要性在这项研究代表了多少单词信息包含在词汇列表分析代表一个文档。也就是说,语料库级别平均TF-IDF值越高,文档中用于分析的词的重要性就越高,这与文本挖掘的性能有关。经分析,本研究提出的TechWord比传统方法高出3.76倍,如表13所示。综上所述,通过TechWord生成的词汇表提高了文本挖掘的性能。

6 Conclusion

本研究针对现有WordNet数据库在科技情报文本分析方面的局限性,提出了一种构造科技相关术语和设计词汇数据库的新方法。摘要文档和权利要求文档是预处理步骤专利的基于文本的数据字段,使用它们构建依存分析的语法信息。从网络的角度解释词语之间的依存关系,构建网络度中心性高的词汇作为主要技术词。科技词的名词类型通过修饰语短语的关系来考虑,动词则通过反映名词与主语、宾语的关系来考虑技术信息的特征。从WordNet中导入Synset信息以配置TechSynset (TechWords之间的同义词集)。为了构造WordNet不包含的TechSynset,我们通过BERT模型推导出TechWords的词向量,然后通过计算向量之间的相似度对TechSynset进行扩展。

从理论和实践两方面来看,本研究做出了以下贡献。首先,作为学术贡献,我们从技术相关文档的文本挖掘角度对词汇信息结构进行了研究。通过对专利文本的语法结构分析,系统地导出了技术词汇。通过现有的WordNet DB和最新的词嵌入模型,我们得到了TechSynset的相似词集。开发一种构建技术词汇的新方法将为技术相关信息(如专利)的文本分析提供实际意义。在文本挖掘过程中定义词汇时,可以采用基于TechWord的结构化方法定义词汇信息,并可以基于TechSynset对同义词进行预处理。由于TechWord考虑单词的结构和关系,而TechSynset通过单词嵌入技术反映文档的上下文,因此可以期望反映该技术应用领域的不同含义。

然而,本研究有几个局限性。本研究在定义科技词时并没有涵盖所有词性,而是从主要用于科技相关文档分析的名词和动词的角度提取科技词。也就是说,对其他词性的额外修饰,如副词、介词和连词,需要连接起来。此外,在分析与技术相关的文档信息时,我们没有处理现有WordNet中包含的所有词汇信息,如单词之间的关系。需要进一步的研究来开发一种分析词与词之间关系信息的方法。

【翻译】TechWord: Development of a technology lexical database for structuring textual technology ...相关推荐

  1. The development history and future trend of optical fiber communication technology

    The development history and future trend of optical fiber communication technology name:Puaoran (蒲傲然 ...

  2. 【论文翻译】HCL2000—A Handwritten Chinese Character Database

    HCL2000-一个大型的手写汉字识别的数据集 [摘要] 本文提出了一种大规模离线手写汉字数据库-HCL2000,供研究界使用.该数据库包含3,755个经常使用的简体中文字符,由1,000名不同的受试 ...

  3. 分布式事务2PC论文翻译(Concurrency Control and Recovery in Database Systems )

    作者:Philip A. Bernstein, Vassos Hadzilacos, Nathan Goodman. 1987 原文:Concurrency Control and Recovery ...

  4. Internet History, Technology, and Security(week5)——Technology: Internets and Packets

    前言: 之前都在学习Internet的历史,从这周开始,进入到了Internet技术的学习. Layer1: Link Introduction / The Link Layer 80年代之前,主流网 ...

  5. 五道口宅男 - Category: Android

    http://hujiaweibujidao.github.io/blog/categories/android/ 2015 Android SwipeRefreshLayout Example Ju ...

  6. # Research report about the development of photoelectric imaging guidance technology and its applica

    电子科技大学 格拉斯哥学院 2017级 董一飞, 同组人员:王泓钧 1.Introduction Missile weapons with precision guidance as the main ...

  7. Research report about the development of photoelectric imaging guidance technology and its applicati

    电子科技大学 格拉斯哥学院 2017级 ,王泓钧 同组人员:董一飞 1.Introduction Missile weapons with precision guidance as the main ...

  8. 【翻译】Bing-CF-IDF+:语义驱动的新闻推荐系统

    本文由 林鸿钊@funco 翻译,仅作为交流学习之用,诚向各方大佬请教. 翻译不易,感谢支持,转载也请注明出处,不胜感激. 翻译:Bing-CF-IDF+:语义驱动的新闻推荐系统 原文:Bing-CF ...

  9. 成绩单课程翻译参考总表

    生物物理学 Biophysics 真空冷冻干燥技术 Vacuum Freezing & Drying Technology 16位微机 16 Digit Microcomputer ALGOL ...

最新文章

  1. NBT:利用细胞甘油三酯存储提高链霉菌中聚酮类化合物的效价
  2. webstorm的使用技巧——1
  3. 百度地图 osm地图 leaflet echarts webapck的组合使用时的踩坑记录
  4. wifi rssi 计算 距离_PPT|交通未来第3期 基于实时WIFI蓝牙检测数据的交通目标定位及出行模式甄别技术...
  5. linux 命令 记忆方法,linux 记忆命令心得
  6. python迷宫最短路径_python实现最短路径的实例方法
  7. Spark IDEA 编程环境配置
  8. 新浪uc2010官方下载
  9. 大脚导入配置选择哪个文件_IntelliJ IDEA详细图解最常用的配置,新人必备
  10. 小型论坛php,PHP练手:一个小型论坛(带后台)_PHP教程
  11. 小甲鱼c语言-P21-指针
  12. 筒仓计算表格_封闭筒仓挑战开放网络
  13. 观点 | 未来的货币,是可编程的电子货币
  14. JavaScript 语法树与代码转化实践
  15. mysql8(解压包)安装配置教程
  16. 大数据时代,女性做数据分析师有没有优势?
  17. linux下的遥控器软件,Linux系统下遥控器的配置与使用方法
  18. 【STL】C++ STL之array详解
  19. 厂房规划物流仿真之sketchUP(SU)
  20. 调整计算机启动顺序,电脑双系统如何修改第一启动项???

热门文章

  1. 基于simulink的拓展卡尔曼滤波估计路面附着系数识别EKF,内含道夫轮胎模型
  2. 专业成绩第一,获得首届校长奖学金!
  3. Flutter开发桌面应用,Google准备了三年!蓄势待发!
  4. 财务报表分析存在问题的对策分析
  5. 华硕B550M主板新装CentOS无网络
  6. 315m无线遥控模块 PT2262、PT2272
  7. 清华大学计算机学院张院士,清华大学张钹院士访问计算机学院
  8. mamp mysql启动失败_MAMP PRO mysql无法启动
  9. SPSS详细操作:样本均数间的多重比较
  10. chatgpt赋能python:Python中的连接符:介绍与应用