CSDN话题挑战赛第2期
参赛话题:学习笔记

通过语义知识的获取和分析来理解短文本

理解短文本对于很多应用来说是至关重要的,但是也面临者很多挑战。首先,短文本并不总是遵循书面语言的语法规则。因此,从词性(part-of-speech)标注到依赖性解释,传统的自然语言处理工具不在容易被应用。第二,短文本中通常没有包含足够多的统计信息来支持最先进的(state-of-the-art)文本挖掘方法,例如主题模型。第三,短文本中包含有更多模糊(ambiguous)嘈杂的信息,并且短文本生成量是巨大的(in an enormous volume),这进一步增加了处理他们的难度。我们认为为了更好的理解短文本,语义知识是必须的。在这项研究工作中,我们利用知名知识库中提供的语义知识,以及自动的从网页语料库中获取的语义知识,构建了一个理解短文本的原型系统。我们的知识密集型方法打破了传统的任务处理方法,例如文本分词,词性标注,以及概念标签,因为我们在所有这些任务中都关注语义。我们对真实数据进行的全面的评估,结果表明,语义知识对于短文本理解来说是不可或缺的,我们的知识密集型方法在发现短文本语义方面既有效又高效。

关键词术语:短文本理解,文本分词,词形标注,概念标签,语义知识

一、简介

信息量剧增凸显了让机器更好的理解自然语言文本的重要性。在本片论文中,我们聚焦的是短文本,它指的是上下文有限的短文本。在许多应用程序中,如网页搜索和微博服务等,都需要处理大量的短文本。显而易见的,更好地理解短文本将带来巨大的价值。

文本理解的一个重要任务就是从文本中发现隐藏的语义。研究者们在这一领域已经作出了很多努力。例如:命名实体识别(NER)[1][2]定位文本中指定的实体,并将它们分类到预定义的类别中,如人员、组织、位置等。主题模型[3][4]尝试去识别“潜在话题”,这些主题被表示为文本中单词的概率分布。实体链接[5][6][7][8]着重于检索以整个知识库的概率分布表示的“显式主题”。然而,分类、“潜在话题”和“显性话题”与人类的心理世界仍存在语义差距。正如心理学家格雷戈里·墨菲在他广受好评的书中所述[9]:概念是将我们的精神世界粘合在一起的粘合剂。因此,我们将短文本理解定义为检测短文本中提到的概念。如图一所示,演示了典型的短文本分析策略是由三步组成,1:文本分词-将一篇短文分割成术语表中包含的术语集合(例如,“预定加州迪士尼酒店”可以被分词成“预定 加州 迪士尼酒店”);2:词性标注-确定术语的词性并识别实体(例如,“迪士尼乐园”和“加利福尼亚”被认为是实体,“预定”是动词,”酒店”是主题);3:实体主题标签-推断每个实体的主题(例如,“迪士尼乐园”和“加州”分别指主题 公园和国家)总的来说,使用这种策略,从短文本“book disneyland hotel california”中检测出三个实体,即图1中的主题公园、酒店和国家。

虽然对于短文本理解的这三步看上去比较简单,但挑战仍然很多,必须采用新的方法来应对这些挑战。在下面,我们用几个例子来说明这种需求。

挑战一(模棱两可的分词)

“巴黎四月的歌词”和“四月在巴黎的假期”.

一个术语及其子术语都可以包含在词汇表中,从而为一个短文本提供多个可能的分段。然而,有效的分词应该保持语义连贯。例如,两种细分可以是”巴黎四月的歌词”以及”四月的巴黎歌词”。然而,前者依据语义似乎是一个更好的细分,“歌词”与歌曲(“四月的巴黎”)比月份(“四月“)或者城市(“巴黎“)在语义上更为相关。广泛采用的最长覆盖法,寻找词汇表中包含的最长术语。它忽略了语义连贯的要求,因而有时会导致不正确的切分。例如:“四月在巴黎度假”的,最长覆盖方法将其分割为{度假 四月在巴黎},这显然是一个不连贯的分割。

挑战二(短文本中包含噪声)

“纽约城”、“纽约 以及“大苹果”

为了通过考虑语义连贯性找到给定文本的最佳分词,我们首先需要提取所有候选词。通过在整个词汇表上构建哈希索引,可以轻松高效地完成此任务。然而,短文本通常是非正式的(informal),容易出错(error-prone),充满缩写(full of abbreviations)、昵称(nicknames)、拼写错误(misspellings),例如,“纽约市”通常缩写为“nyc”,称为“大苹果”。这就要求词汇表尽可能包含有关缩写和昵称的信息。同时,还需要提取近似术语来处理短文本中的拼写错误。

挑战三(不确定的词性)

“pink songs“可以指歌手(实体)的歌曲,与”pink shoes“粉色的鞋

我们用词汇类型(即POS标记)和语义类型(即属性、概念和实例)标记术语。我们将在第3.1.2节中解释为什么我们考虑这些类型以及它们如何有助于理解短文。一个术语可以属于多种类型,其在短文本中的最佳类型取决于上下文语义。例如,”pink”在”pink songs”中指的是一位著名的歌手因此需要标签为实体,然而在”pink shoes”中是作为形容词描述鞋子的颜色。传统的POS标记根据语言规则[10][11][12][13]或者是从标记的语料库中学习到的词汇和词序的分布概率[14][15][16][17]确定词汇词性。然而,这种表面特征不适用于短文本,因为短文本并不总是遵守书面语言的句法规则。以”pink 歌曲”为例,由于“pink”作为形容词的概率和形容词在名词前面的概率都比较高,传统的POS标记器会将“pink songs”中的“pink”错误地标记为形容词。POS 标记的另一个局限是它不能区分语义类型,但语义类型对于理解短文本非常重要,这将在3.1.2节中讨论。

挑战四(不确定的实体)

“read harry potter ” 这里harry potter指的是实体(书)、“watch harry potter ” 这里harry potter指的是实体(电影)、“age harry potter” 这里harry potter指的是实体(角色)。

一个实体(如“哈利波特”)可以属于多个概念(如书、电影、角色等)。我们可以直接从现有的知识库中检索实例和概念之间的一对多映射。然而,当上下文变化时,实体可能代表不同的概念。一些方法[18][19][20]尝试基于相似或相关的实体去消除实体的歧义性,但我们从短文本中检索到的实体数量通常是有限的,这使得这些方法不再适用于短文本的实体歧义消解。我们观察到,其他术语,如动词、形容词和属性,也可以帮助实例消除歧义。例如,“哈利波特”是“读哈利波特”中的一本书,是“看哈利波特”中的一部电影,是“哈利波特时代”中的一个角色。人类可以成功地在一个特定的短文本中为一个实体识别出最合适的概念,因为我们知道各种类型的术语之间的语义相关性。然而,对于机器来说,在没有这些知识的情况下消除实体的歧义是非常重要的。

挑战五(庞大的生成量)

与文档相比,短文本的生成量巨大。例如:谷歌,作为2014年使用最广泛的web搜索引擎,每天收到超过30亿的搜索查询。Twitter也在2012年报告称,它吸引了1亿多用户,他们每天发布3.4亿条推文。因此,一个可行的短文本分析框架应该能够实时处理短文本。然而,一个简短的文本可以有几十个可能的片段,一个术语可以用多种类型标记,一个实体可以引用数百万个概念。因此,要消除这些歧义并对短文本进行最佳的语义解释是非常耗时的。

贡献:在这项工作中,我们认为语义知识对于短文本理解是不可或缺的,这反过来又有利于许多需要处理大量短文本的现实应用程序。依据以上的讨论,应对短文本分析的挑战,需要三种类型的知识。1:一个全面的词汇表(词典),2:实体和概念之间的映射,3:术语之间的语义一致性。我们将分别在3.1.1节、3.1.3节和4.1.1节描述如何获取这些知识。基于获得的知识,我们提出了知识密集型的方法来有效和高效地理解短文本,这将在4.2节中描述。总的来说,我们在这项工作中的贡献有三个方面:

1.我们观察到短文本中歧义的普遍存在以及传统处理方法的局限性;

2.通过从网络语料库和已有知识库中获取语义知识,引入基于词汇-语义分析的知识密集型方法,提高了短文本理解的准确性;

3.我们提高了我们的方法的效率,以促进在线实时短文本理解。

本文的其余部分组织如下:在第二部分,我们对文本处理的文献中的相关工作进行简要的总结;然后介绍了本文中使用的一些符号,并在第三节中对短文本分析问题进行了正式的界定。我们的方法和实验分别在第4节和第5节中进行了描述,然后在第6节中对未来的工作进行了简要的总结和讨论。

二、相关工作

在这一部分,我们主要在三个方面讨论相关工作:文本分词,POS标签,语义标签

文本分词: 我们把文本分词看作是将文本分割成一系列术语。统计方法,例如N-gram模型[21][22][23],计算在训练语料库中作为相邻词同时出现的频率。当频率超过预定义的阈值(threshold)时,相对应的相邻词可以看成一个术语。基于词典的方法[18][19][20]通过检查术语是否存在或在预定义词汇表中出现的频率来提取术语.现有的文本分词方法最明显的缺点是只考虑表面特征,而忽略了文本分词中语义连贯的要求。这可能会导致挑战1中描述的错误分词。为此,我们建议在进行文本分词时利用上下文语义。

词性标注: 词性标注决定了文本中词汇的词性类型(即词性标注)基于规则的POS标记器试图根据大量手工制作[10][11]或者自动学习[12][13]的语言规则将POS标记分配给未知或模糊的单词.统计POS标记器通过从语料库自动构建统计模型并根据学习到的统计信息标记未标记的文本,避免了构建标记规则的成本。主流统计POS标记器采用著名的马尔可夫模型[14][15][16][17],这个模型是通过学习词汇概率(p(tag|word)) 以及顺序概率(P()),从标记语料库中提取,并通过搜索标记序列来最大化词汇和顺序概率的组合来标记一个新句子。注意,基于规则的POS标记和统计POS标记都依赖于文本结构正确的假设,然而,对于短文本并不总是如此。更重要的是,现有的方法只考虑词汇特征,而忽略了词汇语义。这可能会导致错误,如挑战3所示。我们的工作试图构建一个标记器,它同时考虑词法特征和用于类型检测的底层语义。

语义标签: 语义标记指从自然语言文本中发现隐藏的语义。命名实体识别( NER )定位文本中的命名实体,并使用基于语言语法的技术和统计模型(如CRF[1]和HMM[2])将它们分类到预定义的类别(例如,人员、组织、位置等)。主题模型[3]试图识别“潜在主题”,这些主题表示为单词上的概率分布,基于文本和单词之间可观察到的统计关系。实体链接[5][6][7][8]使用现有的知识库,并专注于检索“明确的主题”,表示为整个知识库的概率分布。尽管已有的语义标注工作取得了较高的准确性,但仍存在一定的局限性。首先,类别、“潜在主题”和“显性主题”不同于人类可以理解的概念。其次,短文本并不总是遵循书面语言的语法,但这是主流NER工具不可或缺的功能。第三,短文本不包含足够的内容来支持统计模型,如主题模型。

与我们最相关的工作由宋等人完成[19]和Kim等人[20],它们也将语义表示为概念,采用贝叶斯推理机制对实例和短文本进行概念化,消除了基于同构实例的实例歧义。Kim等人[20]使用概率主题模型(即LDA)捕获实例之间的语义相关性,并基于相关实例消除实例歧义。在这项工作中,我们观察到其他术语,如动词、形容词和属性,也可以帮助实例消歧。因此,我们将词性识别纳入到短文本理解框架中,并基于各种词性的上下文信息进行实例消歧。

三、问题陈述

在本节中,我们简要介绍一些概念和符号,如表1所示。然后对短文本理解问题进行了形式化的界定,并对本文的框架进行了概述。

3.1 初步概念

3.1.1 词汇、术语和分词

定义1(词汇) 词汇表是(某一种语言的)单词和短语的集合
我们从在线词典YourDictionary下载英语动词和形容词列表,并从著名的知识库probase获取属性、概念和实例的集合。总之,它们构成了我们的词汇。为了处理短文本中包含的噪音,我们进一步扩展了词汇表,加入了实例的缩写和昵称。这些信息可以从网络语料库或现有的知识库中获取。特别是,我们从维基百科的重定向链接、消歧链接以及维基百科文章之间的超文本和超链接中构建了一个同义词列表。例如,从“nyc”和“new york city”之间的重定向信息中,我们知道“nyc”是缩写纽约市的命名;同样,通过“大苹果”的消歧环节,我们得到“大苹果”是“纽约市”的别名。

定义2(术语) 术语是词汇表中的一个条目。我们将一个术语表示为单词序列,并将|t|表示为术语t的长度(单词数)。示例术语有“hotel”、“california” 和“hotel california”等

定义3(分词) 短文本的分词p是一个术语p的序列,例如:1.术语不能重叠;2.在短文本中,每一个非停用词都应该用一个术语来覆盖。

例如,“vacation april in paris”可能的分词是{vacation april paris},在原文中,只有停用词“in”被忽略。对于“纽约时报广场”,虽然“纽约时报”和“时代广场”都是我们的词汇表中的术语,但根据我们的限制,{纽约时报 时报广场}是无效的,因为这两个术语相互重叠。

3.1.2 类型与术语类型

定义4(类型) 类型表示术语在文本中所起的词汇或语义作用。

词汇类型包括动词和形容词。我们在这项工作中考虑词法类型有两个原因。首先,动词和形容词可以帮助消除实例歧义,如挑战4中所讨论的。其次,短文本理解的一个重要应用是计算短文本之间的语义相似度,而词汇类型的错误检测会导致在计算语义相似度时出现错误。考虑下面的例子,“watch”在“watch free movie”中是动词,而在“watch omega”中是概念。这两个短文本在语义上是不一样的,前者是关于看一部免费电影,而后者是搜索一个著名的手表品牌“omega”。然而,如果我们不把词汇类型和“观看免费电影”中的“观看”标签作为一个实例或一个概念,就会导致这两个短文本之间错误的高度相似。

“观看免费电影”vs“手表omega”

语义类型包括属性、概念和实例。POS 标记只区分了词汇类型,忽略了语义类型之间的差异,这也会导致在计算短文本之间的语义相似度时出现错误。在下面的例子中,“人口”既可以是概念国家的一个属性,也可以是概念地理统计的一个实例。第一组短文本都是关于一个国家的地理统计(即概念相同,属性不同),第二组短文本分别是关于一个国家和一种动物的统计信息(即属性相同,概念不同)。这导致了第一对比第二对更高的语义相似性。我们可以看到,概念和实例比属性对短文本的语义贡献更大,这验证了区分语义类型的必要性。

中国的人口 vs 中国的气候;中国的人口 vs 熊猫的种群

定义5(术语类型) 类型化术语指的是特定类型的术语

一个术语可以用多个类型进行标记,因此可以映射到多个类型化术语,我们将一个术语的可能类型化术语集表示为T,它可以直接从词汇表中获得。例如,我们观察到“book”一词出现在我们的词汇表的动词表、概念表和实例表中,因此“book”可能的类型化术语为(动词预订,实体书,)

3.1.3 知识库与概念聚类向量
定义6 (知识库) 知识库存储实例和概念之间的映射。一些现有的知识库还将每个概念与属性关联起来。

在本工作中,我们使用Probase[25]作为我们的知识库。Probase 是一个由概念(如国家)、实例(如中国)和属性(如人口)组成的巨大语义网络。它主要关注两种类型的关系,即实例和概念之间的isA关系(例如china isA country)和属性和概念之间的isAttributeOf关系(例如population isAttributeOf country)。我们使用Probase有两个原因。首先,与Freebase、WordNet、DBPedia 等知识库相比,Probase 对概念的广泛覆盖使其更能代表人类的精神世界。Probase中的知识是自动从16.8亿个网页的语料库中获取的,它包含270万个概念和1600万个实例,这导致实例和概念之间的映射超过2070万个。其次,不同于传统知识库简单地将知识非黑即白,Probase 量化了许多对认知很重要的度量,如流行度和典型性。

受欢迎程度衡量的是当人们看到“苹果”这个词时,他们想到公司这个概念的可能性有多大;

典型性衡量的是,当人们想到ceo这个概念时,“史蒂夫·乔布斯”在脑海中出现的可能性有多大。

我们可以直接从Probase获得实例的语义(即概念)。然而,Probase的一些概念实际上是相似的。例如,“apple”可以属于概念公司、it公司、大公司、软件公司等。

为了在短文本“price apple”中找到“apple”最合适的语义,必须对所有这些概念一一进行核对和删除,这显然是在浪费时间。

为了以更紧凑的方式表示语义并加快实例消歧的过程,我们使用K-Medoids[26]算法对Probase中包含的类似概念进行聚类。我们的直觉是,如果两个概念共享许多实例,那么它们彼此是相似的。读者可以参考[27]获得关于概念聚类的更多详细信息。

定义7(概念聚类向量) 我们将类型化术语的语义表示为概念集群向量,其中Ci表示概念聚类,Wi表示式(1)中定义的权值。

在Eq.(1)中,我们区分了三种情况:1)动词、形容词和属性在Probase中没有同义词,因此我们专门将它们的概念聚类向量定义为空;2)对于一个概念,只有该概念所属的概念簇的权重为1,其他所有概念簇的权重为0;3)对于一个实例,我们从Probase中检索它的概念,并用包含概念的权重之和对每个概念簇进行加权。更正式的 wi = ,其中P为Probase获取的流行度得分。

3.2 问题定义和框架描述

定义8(短文本理解) 给定用自然语言编写的短文本s,我们生成s的语义解释,表示为一个类型化术语序列{s},每个实例的语义都被标记为第1个概念集群。

如图一所示,短文本“book Disneyland hotel california ”的语义解释为{book预订、disneyland 实体公园 hotel概念酒店 california 实体加利福尼亚州} 我们将短文本理解任务分为三个子任务,分别对应于第一部分中提到的三个步骤:

1)文本分词——给定一个短文本,找出语义上最连贯的分词;

2)词性检测——对每个术语,检测其最佳词性;

3)概念标注——对每个歧义实例,根据上下文对其概念集群进行重新排序。

图2说明了我们理解短文本的框架。在离线部分,我们对整个词汇建立索引,并从网络语料库和现有知识库中获取知识。然后,我们预先计算词与词之间的语义一致性,用于在线短文本理解。在在线部分,我们执行文本分割、类型检测和概念标记,并为给定的短文本生成语义一致的解释。

四、方法论

4.1离线处理

理解短文本的前提(prerequisite)是了解词与词之间的语义关联性。在这一节中,我们将描述如何构建共现网络6并量化语义一致性。在此之后,我们引入了索引策略,以允许对词汇表进行近似术语提取,以及确定实例歧义的方法。
4.1.1 构造共线网络

我们构建了一个共现网络来模拟语义关联。共现网络可以视为一个间接图,其中节点是类型化术语,边权w表示类型化术语x和y之间的语义相关度。我们观察到:

不同类型的术语出现在不同的上下文中。例如,“watch”作为动词看与概念电影同时出现,“watch”作为实例手表与“buy”和“price”同时出现。因此,应构建类型化术语之间的共现网络而不是术语之间的共现网络;

两个类型化术语在一个句子中出现的频率越高、距离越近,语义相关度越高;

与几乎所有其他术语同时出现的常见术语(如“项目”和“对象”)在语义关联建模中是没有意义的,因此相应的边权值应该被惩罚(减小)。

在此基础上,我们构建了如下共现网络:1)从网络语料库中扫描每一个不同的句子,使用Stanford POS标记器获取词性标记。对于标记为动词或形容词的单词,我们推导出它们的词干,得到动词和形容词的集合。

对于名词短语,我们在词汇表中检查它们,并通过最小化主题多样性来集体确定它们的类型(属性、概念、实例)。我们的直觉是,一个句子中提到的主题的数量通常是有限的。例如,“人口”可以是国家的一个属性,也可以是地理数据的一个实例。假设从一个句子中解析出的名词短语集合是{“china”,“population”},那么“population”应该被标记为一个属性,以限制句子的主题仅仅是国家。使用这种方法,我们可以获得一组属性、概念和实例。以“Outlook.com是微软的免费个人邮件”为例。分析这句话后,我们得到的类型化术语集合是{outlook, free, personal, email, microsoft}。2)给定从一个句子派生的类型化术语集,我们在每对类型化术语之间添加一条共现边。为了估计边权值,我们首先用下面的公式计算两个类型化项同时出现的频率。
在这里,ns是句子s在web语料库中出现的次数,而dist是句子中类型术语x和y之间的距离(即两者之间的类型术语的数量),e被用来惩罚远距离共现。然后,我们将句子之间的频率聚合在一起,并用修改过的tf-idf公式对每条边进行加权。

乘号左侧一项:用来估计人们在看到x时想到输入项y的概率;

乘号右侧一项:N是共现网络中包含的类型化术语的总数,Nnei(y)是y拔的共现邻居的数量。因此,这个公式的idf部分会惩罚与几乎所有其他类型项同时出现的类型项。

上面的方法有一些明显的缺点。首先,类型化术语的数量非常大。回想一下,Probase为我们的词汇表贡献了270万个概念和1600万个实例。这将增加存储成本,影响网络上的计算效率。第二,在考虑语义连贯的情况下,概念层面的共现对短文篇理解更有帮助。因此,我们通过将实例映射到概念集群来压缩原来的共现网络。因此,压缩共现网络中的节点是动词、形容词、属性和概念集群,边缘权重从原始网络中聚合。这样,我们在很大程度上减小了共现网络的规模。在剩下的工作中,我们使用压缩网络来估计语义一致性。
4.1.2 评分语义一致性

我们定义了亲和度评分(Affinity Score, AS)来衡量类词之间的语义一致性。在这项工作中,我们考虑了两种类型的连贯:相似和相关(共现)。我们认为,如果两个类型化术语在语义上相似,或者它们经常在网络上同时出现,那么它们就是连贯的。因此,类词x和y之间的Affinity Score可计算为:
取相似性和相关性的最大值

式(5)中,Ssim(x,y)为类型化术语x和y之间的语义相似度,可直接计算为两者概念聚类向量之间的余弦相似度。

Sco(x, y)度量类型术语x和y之间的语义相关性。我们将类型术语x的共现概念聚类向量表示为Cco,可从压缩共现网络中检索到,将类型术语y的概念聚类向量表示为yC。我们观察到,这两个概念聚类向量之间的重叠越大,类型化术语x和y之间的相关性越强。

4.1.3 近似术语提取索引词汇

近似术语提取的目的是定位文本中与预定义词汇表中包含的术语相似的子字符串。为了量化两个字符串之间的相似度,提出了许多相似函数,包括基于标记的相似函数(如jaccard系数)和基于字符的相似函数(如编辑距离)。由于短文本中常见的拼写错误,我们使用编辑距离作为我们的相似函数,以促进近似术语提取。

最近有一些关于近似术语提取的研究。本文采用并扩展了基于try的方法[28],考虑到该方法与NGPP[29]、faierie[30]等方法相比索引大小更小,对于较大的编辑距离阈值也更有效.具体来说,给定一个编辑距离阈值t,我们将每个项平均分成t + 1段。pigeonhole原理保证,如果一个子串与一个关于t的项相似,那么它至少包含该项的一个分段。我们在整个词汇表上构建一个基于段的反向索引x,其中的条目是段,每个段都与包含该段的术语的反向列表相关联。给定一个简短的文本,我们采用[28]中提出的搜索-扩展算法来寻找所有可能的术语。换句话说,我们首先枚举一个短文本的每个子字符串,并使用trie结构检查它是否与一个段匹配。通过这种方式,我们得到了包含在短文本中的一组片段。然后,对于每个段和相应的子串,我们将子串扩展为一个更长的子串,类似于倒排列表中的项。

现有的基于try的框架最显著的限制是它使用一个特定的编辑距离阈值t。然而,我们的词汇表包含大量的缩写和需要不同编辑距离阈值的多词实例。例如,为了识别拼写错误的多词实例,我们有时需要至少2的大编辑距离阈值。但当我们将相同的编辑距离阈值应用于缩写时,就会导致错误(例如,“nyc”和“ntu”会被视为相似)。为此,我们扩展了基于trie的框架,以允许同时使用各种编辑距离阈值。问题是如何确定t对不同项的值。可以预期,t取决于期限的长度。换句话说,一个术语越长,拼写错误的可能性就越大,出现的错误就越多。因此,我们从搜索引擎和微博网站收集了一个大规模的短文本数据集,并邀请同事标记拼写错误的术语及其编辑距离。我们观察到编辑距离和术语长度之间的近似步进分布,然后将其作为确定不同术语的编辑距离阈值的指导原则。

4.1.4 确定实例是否有歧义性

概念标记的重点是实例消歧,因此确定实例是否有歧义是很重要的。处理明确的实例是浪费时间,有时会导致过度过滤。确定实例歧义的一个直接方法是检查它所属的概念(或概念集群)的数量。然而,这种方法的准确性在很大程度上依赖于知识库中概念空间的粒度。粗粒度的知识库会遗漏一些模糊的实例,而细粒度的知识库可能会导致假阳性(即,明确的实例被错误地识别为模糊的)。在这项工作中,我们采用了一个细粒度的知识库Probase,它覆盖了270万个概念和5000个概念集群。我们介绍了一种通过分析概念簇之间的各种相关性来减少实例歧义判断中的假阳性的方法。

歧义是一个主观的概念。我们进行了一项用户研究,以了解人类如何确定实例歧义。我们为注释者提供了一组实例以及他们的前10个概念集群,并请他们标记这些实例是否有歧义。根据用户研究结果,我们得到了三个有用的发现:1)所有注释者都认为“dog”等实例是明确的,尽管它们属于多个概念集群。这些概念集群(例如,捕食者,动物,生物等)实际上构成了一个层次,我们在这个作品中表示为一种意义,如图3所示

2)一些注释者将“谷歌”等实例标记为明确的,尽管它们属于多种含义。这些含义(如搜索引擎和公司)实际上是高度相关的,因为它们有很大比例的共同实例。
3)所有注释者都将“apple”等实例标记为模糊的,因为它们属于多个不相关的含义(如fruit和company)。在此基础上,我们引入了三种歧义级别,并通过分析概念簇之间的层次关系和重叠关系,提出了确定歧义级别的方法。

级别0指的是大多数人认为是明确的实例。这些例子只包含一种意思,例如“dog”(动物)和“california”(州);

级别1指的是模糊和不模糊都有意义的实例。这些例子通常包含不止一个意思,但所有这些意思都在某种程度上相关,如“谷歌”(公司和搜索引擎)和“nike”(品牌和公司);

级别2指的是大多数人认为不明确的实例。这些例子包含两个或两个以上不相关的含义,如“apple”(水果和公司)和“jaguar”(动物和公司)。

在这项工作中,我们只关注于消除属于歧义级别2的实例的歧义。我们确定实例歧义的方法如下。在给定的实例中,我们首先通过在概念簇之间构建层次结构来识别感官。我们注意到概念集群A可以被视为概念集群B的子集群。1.A中包含的大多数实例也属于B;或者2.A中包含的大多数流行实例也属于B。Probase 目前有一个三角形问题,即有时传递性失效或术语ta和tc之间的联系缺失,尽管ta是tb的一个实例,tb又是tc的一个实例。尽管如此,我们仍然可以假设构建层次结构的概念集群应该共享大多数流行实例,尽管公共实例的总数很小。为了表述上述两种情况,我们定义了一个Hierarchy Score来表示概念聚类a作为概念聚类B的子类的概率。
其中p为实例e属于概念聚类A的概率,该聚类A可以由存储在Probase中的典型性评分p聚合而成。在计算了实例中每对概念簇之间的层次分数后,我们使用Graph Cut算法将层次分数高的概念簇分组为一种意义。

在现实世界中,许多感官是相似的或相关的,或它们共享大量的实例,如公司和品牌,品牌和产品,肉和动物等。我们使用图切算法将这些感官聚类在一起。在这里,两个概念(sa和sb)之间的相似度或相关度被定义为它们的概念簇之间的最大相似度或相关度,这又被定义为共同实例的加权比例。更正式,
其中W为概念集群C中实例的权向量,每个W都是由存储在Probase中的典型性评分p聚合而来。
最后,根据sense检测和sense聚类的结果确定歧义级别,如下图所示:
其中|S|为sense检测后的sense个数,|SC|为sense聚类后的sense簇个数。
4.2 线上处理

在短文本的在线处理中,基本上有三个任务,即文本分词、词性检测和概念标注。我们将在本节中详细描述。

4.2.1 文本分词

我们可以使用4.1.3节中描述的基于try的框架从短文本中识别所有可能的术语。但真正的问题是如何从这组项中获得一个连贯的分割。我们使用图4中的两个例子来说明我们的文本分割方法。显然,{四月巴黎歌词}是一个更好的分割“四月巴黎歌词”比{四月巴黎歌词},因为“歌词”在语义上更接近歌曲,而不是月份或城市。同样,由于“vacation”、“april”和“paris”之间的一致性高于“vacation”和“april in paris”之间的一致性,{vacation april paris}是“vacation april in paris”更好的分词。

我们把一篇短文分成一系列的术语。我们给出以下启发式来确定有效的分割。

除停用词外,每个词都属于且仅属于一个术语;

术语是连贯的(即,术语相互加强)

我们使用一个图表来表示候选术语及其关系。在这项工作中,我们在候选术语之间定义了两种类型的关系:

互斥——包含同一个词的候选术语是互斥的。例如图4中的“april in paris”和“april”是互斥的,因为它们不能在最终的分割中共存

相互强化——相关的候选术语相互强化。例如,在图4中,“四月在巴黎”和“歌词”因为语义相关而相互强化。

基于这两种类型的关系,我们构建了一个无向图(TG,如图4所示),其中每个节点都是一个候选项。我们将每个节点与一个权重相关联,该权重表示它对短文本中除停用词以外的单词的覆盖范围。当两个候选项不互斥时,我们在它们之间添加一条边,并设置边权值以反映相互强化的强度如下:

其中,ε> 0是一个小的正权重,{}是术语x的类型化术语集,是术语y的类型化术语集,S是公式(5)中定义的类型化术语x和y之间的亲和度得分。由于一个术语可能映射到多个类型术语,我们将两个候选术语之间的边权定义为它们对应的类型术语之间的最大亲和值。当两项不相关时,将边权设置为略大于0(以保证蒙特卡罗算法的可行性)。

现在,寻找最佳分词的问题转化为在原始TG中寻找子图的问题,使得子图:1.是一个完整的图(团)-所选的术语不相互排斥;2.全文覆盖,不包括停用词;3.子图的平均边权值最大—我们选择平均边权而不是总边权作为子图的度量,因为后者通常倾向于更短的项(即子图中更多的节点和边),这与广泛使用的最长覆盖算法的直觉是矛盾的。

假设每对节点之间存在一条边,只要对应项不互斥,我们可以得到以下定理:

定理1:找到一个拥有100%文字覆盖率的小团体(clique)相当于从TG中检索一个最大的小团体。

证明:如果检索到的团G不是原TG的最大团,那么我们可以找到另一个节点v,使在G中插入v和相应的边后,得到的子图仍然是一个团。由于TG的特殊结构,v与g中的其他节点不互斥,也就是说,它们不覆盖同一个词。因此,在G中添加v将使总单词覆盖率大于100%,这显然是不可能的。

现在我们需要从原始TG中找到一个平均边权值最大的最大团。然而,这是np困难的。朴素的蛮力算法枚举每一个可能的节点子集,检查得到的子图是否为最大团,计算其平均边权,最后找到权值最大的子图。

因此,Brute Force算法的时间复杂度为O,其中nv为项数。尽管在短文本的情况下nv不是太大,但Brute Force算法仍然太耗时,无法支持即时处理。在这项工作中,我们提出了一种随机算法,以更有效地获得近似解,如算法1和算法2所述。

算法1的运行过程如下:首先随机选取一条边e,其概率与其权值成正比。

换句话说,边权值越大,被选中的概率越高。在选择一条边之后,它将删除所有与所选节点u或v不连接(即互斥)的节点。同时,它将删除所有链接到被删除节点的边。重复这个过程,直到没有边可以被选中。得到的子图G显然是原TG的一个极大团。最后,它对G进行计算,并给它分配一个表示平均边权值的分数。为了提高上述算法的准确率,我们重复k次,并选择得分最高的最大团作为最终的分割。

在算法1中,while循环最多重复ne次,因为每次算法都从TG中删除至少一条边。这里,ne是 TG 中的总边数。类似地,每个while循环中的for循环最多重复nv次。因此,该随机化算法的时间复杂度为O。我们在第5节中的实验结果验证了该随机化算法的有效性和效率。

4.2.2 词性检测

回想一下,我们可以直接从词汇表中获取术语的类型化术语集合。例如,术语“watch”出现在我们词汇表的实例表、概念表和动词表中,因此“watch”的类型化术语是{watch c, watch e, watch v}.类似地,“free”和“movie”的类型化术语集合分别为{free adj,free v}和{movie c,movie e},如图5所示。对于从短文本派生的每个术语,类型检测从可能的类型化术语集中确定最佳类型化术语。在“watch free movie”的情况下,“watch”、“free”和“movie”的最佳输入术语分别是watch v、free adj和movie c。

链模型。回想一下,传统的词性标注方法只考虑词性特征。它们大多采用马尔科夫模型[14],[15],[16],[17],学习词汇概率(P(标签|词))和顺序概率(P(tagi|tagi-1,…,tagi-n)),并通过搜索标签序列来标记一个新句子,该标签序列最大化了词汇和顺序概率的组合。然而,这些表面特征不足以确定短文本中的术语类型。正如我们在挑战3中讨论的那样,使用传统的POS标记器,“pink songs”中的“pink”会被错误地识别为形容词,因为“pink”作为形容词的概率和形容词在名词前的概率都比较高。然而,“pink”实际上是一个著名的歌手,因此应该被标记为一个实例,考虑到概念歌曲比形容词“pink”在语义上更接近概念歌手的事实。此外,序列特征(P(tagi|tagi-1,…,tagi-n))在短文本中失败。换句话说,一个术语的类型并不一定只取决于前面的术语的类型。因此,需要发明更好的方法来提高词性检测的准确性。

我们的直觉是,尽管词汇特征不足以确定来自短文本的术语类型,但通过考虑与周围上下文的语义关系,可以大大减少错误。我们认为,类型检测的首选结果是一个类型术语序列,其中每个类型术语在考虑传统词汇特征时具有较高的先验得分,且短文本中的类型术语之间具有语义上的一致性。

更正式地,我们定义了单例评分(SS)来衡量考虑词汇特征的类型词的正确性。为了简化实现,我们直接基于传统POS标记的结果计算单例得分。具体地说,我们首先使用开源的POS标记器- stanford tagger来获得短文本的POS标记结果。然后我们通过比较术语的类型和POS标记来为术语分配单例分数。具体来说,类型与POS标记一致的术语将比类型与POS标记不同的术语获得略高的单例得分。由于传统的POS标记方法不能区分属性、概念和实例,所以我们将它们都视为名词。这保证了类型和POS标记的可比性。

在Eq.(12)中,x.r和pos(x)分别为类型化术语x的类型和pos标记。
基于表示类型词词汇特征的单例评分和描述类型词之间语义一致性的亲和评分,我们将类型检测问题构建为一个图模型——链模型。图5a示出了链模型的一个例子。

我们借用一阶双语语法的思想,并考虑相邻类型术语之间的主题连贯,即前一个和后一个。具体来说,我们构建了一个链式图,其中节点是从原始短文本中检索的类型术语,在从相邻术语映射的每对类型术语之间添加边,通过将亲和得分与相应的单例得分相乘计算类型术语x和y之间的边权重。

其中,Ssg(x)为式(12)中定义的类型化术语x的单例得分,S(x;y)为式(5)中定义的类型术语x和y之间的亲和度得分。

现在,词性检测的问题转化为寻找类型化术语的最佳序列,使结果子图的总权重最大化。也就是说,给定一个项序列{t1,…, tl}从原始短文本派生,我们需要找到一个对应的类型化术语序列{t1,…, tl},最大化:

在“观看免费的电影”中,链模型检测到的最佳类型词序列为{观看e,免费的adj,电影c},如图5a所示。
成对模型。事实上,在短文本中最相关的术语可能并不总是相邻的。因此,如果我们只考虑连续术语之间的语义关系,就像Chain模型那样,就会导致错误。在图5a中“观看免费电影”的情况下,链模型错误地将“观看”识别为实例,因为“观看”是我们知识库中概念产品的一个实例,形容词“免费”与概念产品出现的概率比较高。然而,当考虑到“watch”和“movie”之间的关系时,“watch”应该被标记为动词。Pairwise模型能够捕捉到这种交叉项关系。更具体地说,Pairwise模型在从每对术语映射的类型术语之间添加边,而不仅仅是相邻的术语。在图5b中,除了“观看”和“免费”以及“免费”和“电影”之间的边界外,“观看”和“电影”之间的非相邻术语也存在边界。

与链模型的假设一样,类型化术语的最佳序列应该是语义一致的。需要注意的一点是,尽管在Pairwise模型中考虑了交叉术语关系,但并不要求一个类型化术语与每个其他类型化术语相关。相反,我们假设它应该与至少一个其他类型化术语在语义上一致。因此,Pairwise模型的目标是找到最好的类型项序列,以保证得到的子图的最大生成树(MST)具有最大的权值。在图5b中,只要观看v与电影c之间、免费的adj与电影c之间的边的总权重最大,{观看v,免费的adj,电影c}可以成功地识别为“观看免费电影”的最佳类型项序列,而不管观看v与免费adj之间的关系如何。

我们在原型系统中采用了Pairwise模型作为词性检测的方法。但我们在实验中给出了两种模型的准确性,以验证Pairwise模型优于链式模型。

4.2.3 概念标签

概念标注中最重要的任务是实例消歧,即消除模糊实例背后不恰当的语义的过程。我们通过基于短文本中的上下文信息(即剩余的术语)对目标实例的概念集群重新排序来完成这一任务,以便最合适的概念集群的排名更高,而不正确的概念集群的排名更低。

我们的直觉是,只有当一个概念集群是该实例的公共语义,并且同时获得了周围上下文的支持时,它才适合该实例。以“老鹰乐队的《加州旅馆》”为例。

虽然动物和乐队都是“老鹰”的常用语义,但只有乐队与概念歌曲在语义上是一致的(即经常共现),因此可以保留为“老鹰”的最终语义。

我们以前提到过,一个术语在短文本中并不一定与其他所有术语都相关。如果使用不相关的术语来消除目标实例的歧义,它的大多数概念集群将获得很少的支持,这将导致过度过滤。因此,我们决定只使用最相关的术语来帮助消除歧义。在Chain模型和Pairwise模型中,我们得到了类型词的最佳序列以及其中的加权边,因此通过比较与目标实例相连的边的权重可以直接检索到最相关的词。

基于上述直觉,我们使用加权投票方法对实例消歧过程建模。假设目标模糊实例为x,其概念簇向量为xC,用于消除歧义的最相关的类型化术语是y.然后是x的消歧概念聚类向量x中每个概念聚类的重要性

再次,自我投票Vself()表示从Probase获得概念聚类的原始权重C,即V,上下文投票V表示Ci作为上下文y同现邻居的概率。也就是说,自投票V可以通过式(1)计算,上下文投票V是Ci在y的共现概念聚类向量中的权重,可以直接从4.1.1节描述的压缩共现网络中检索。

在“hotel california eagles”的例子中,“eagles”的原始概念聚类向量为((animal,0.2379), (band,0.1277), (bird,0.1101), (celebrity,0.0463)…),上下文术语“hotel california”的共现概念聚类向量为(singer,0.0237), (band,0.0181), (celebrity,0.0137), (album,0.0132)…使用加权投票消歧后,“老鹰”(归一化后)的最终概念聚类向量为((乐队,0.4562),(名人,0.1583),(动物,0.1317),(歌手,0.0911)…)

五 实验

我们在真实世界的数据集上进行了全面的实验,以评估我们的框架在短文本理解方面的性能。所有算法都是用c#实现的,所有实验都在2.90 GHz Intel Xeon E5-2690 CPU和192gb内存的服务器上进行。

5.1 基准
本研究最显著的贡献之一是,我们构建了一个基于不同类型上下文信息的短文本理解通用框架,该框架能够识别最佳分词、进行词性检测并明确消除实例歧义。因此,我们手动选择了11个模糊的术语(例如,““april in paris” (pdf) ”和““hotel california” (pdf) ”有模糊的分割;“watch”、“book”、“pink”、“blue”、“orange”、“population”和“birthday”有类型歧义;“apple”和“fox”的实例歧义),并从一天的查询日志中随机选择包含其中一个术语的1100个查询(每个术语100个查询),以检查我们消除歧义框架的性能。此外,为了检查我们的系统在一般查询上的性能,我们不加限制地随机抽样了另外400个查询。基于这些查询,我们构建了三个测试数据集:

1.包含歧义术语的歧义查询;2.通用—通用查询;3.查询数据集中的所有查询。

为了验证我们的框架对其他短文本的可泛化性,我们使用Twitter的API随机抽样了1500条tweet。我们对推文数据集进行预处理,删除了一些推文特定的特性,如@username, hashtags, url等。我们将每个数据集分为5个不相关的部分,并邀请了15个同事对它们进行标记(每个部分3个同事)。最终的标签是基于多数投票。

5.2 有效性

5.2.1 文本分词的有效性

文本分割的一个前提是找到候选词。为了应对短文本中的噪声,我们构建了一个包含术语及其缩略语和昵称的大规模词汇表。此外,我们采用并扩展了基于try的方法[28],允许在不同编辑距离约束下进行近似术语提取。我们比较了我们的方法(即Trie with Varying edit distance, Triv)与“trie-based” (pdf) 方法(即Trie)和精确匹配方法(即exact)在精度、召回率和f1-measure方面的性能。从表2中我们可以看到,近似词项提取比精确匹配从短文本中获得更多的词项,但代价是引入略多的提取误差。triiev 允许根据文本长度设置不同的编辑距离阈值,通过减少由短术语、缩写等引起的提取错误,提高了Trie的精度。总的来说,TrieV在两个数据集中都达到了最高的f1-measure(算法的综合评价指标,也是精确率(Presicion)和召回率(Recall)的加权调和平均)。注意,所有这些术语提取方法在查询数据集中的性能始终优于在tweet数据集中的性能。这主要是因为推文通常比查询更加非正式和嘈杂。

给定从短文本中提取的候选词集,我们在候选词之间构造一个词图(TG),并通过寻找TG中平均边权最大的最大团进行分割。我们提出了一种随机化算法,以减少原始蛮力算法的时间成本。因此,我们比较了Longest Cover、MaxCBF (maximclique by Brute Force)和MaxCMC (maximclique by Monte Carlo)三种文本分割模型的精度。从表3的结果中我们可以看出,在传统的长度等表面特征之外,通过考虑上下文语义,最大团方法的文本分割比最长覆盖算法获得了更好的性能。此外,为提高效率而设计的随机化算法也达到了与蛮力搜索相当的精度。我们还可以观察到,对于模糊查询(在“ambig”数据集中为7.5%),我们的方法在最长覆盖方法上的精度改进要比一般查询(在“general”数据集中为1.8%)大得多,这与我们的预期一致。

5.2.2 词性检测的有效性

在这一部分中,我们将比较我们的类型检测方法(即链模型和成对模型)与广泛使用的非商业POS标记- stanford Tagger。由于传统的POS标记没有区分属性、概念和实例,我们需要首先解决这个问题,以便进行合理的比较。我们考虑两种情况:1)如果识别的术语包含多个单词或其POS标记为名词,则分别在知识库中检查该术语作为属性、概念和实例的出现频率,选择出现频率最高的类型作为其标签;2)否则,我们根据其POS标签对术语进行标记。

表4展示了Stanford Tagger (ST)、Chain模型(CM)和Pairwise模型(PM)对类型检测的精度。我们用四种精度来衡量这些模型的有效性:

1.词汇层面:正确的词汇(即动词和形容词)术语类型对的百分比

2.语义层面: 正确的语义(即属性、概念和实例)术语类型对的百分比;

3.术语层面:正确的术语类型对的百分比;

4.文本层面:术语类型对全部正确的短文本的百分比
三个查询数据集(即“ambig”、“general”和“all”)中的词汇级、语义级和术语级精度的结果在文本级精度方面说明了类似的趋势。因此,我们只在文本层面呈现差异。对于其他三个级别的精度,我们给出了“所有”查询数据集的结果。从表4中我们可以看到,Pairwise Model在各种精度度量上的表现都优于Chain Model,这反过来又在查询数据集和tweet数据集上提供了比Stanford Tagger更好的精度。然而,在查询数据集中精度的提高略大于在tweet数据集中。这主要是因为tweet比关键字查询更具语法结构,使得传统的POS标记更加可靠。有趣的是,链模型和成对模型的词汇级精度也比传统的POS标记器大。由于Stanford Tagger只注意词汇特征,它会错误地将“pink songs”中的“pink”识别为形容词,实际上是歌手的一个实例。而链模型和成对模型则考虑了上下文语义,可以解决上述问题。链式模型的局限性是只考虑相邻术语之间的语义关系,无法与成对模型进行比较。值得注意的是,Pairwise模型对Stanford Tagger的精确度提高在模糊查询(“ambig”数据集中为12.3%)比一般查询(“general”数据集中为7.5%)要大得多,这进一步验证了我们的方法在减少类型检测中的模糊性方面的优越性。
回想一下,我们使用单例评分来合并链模型和成对模型中传统POS标记的结果。当类型化项的类型与POS标记一致时,我们将其单例得分赋为1+θ,否则赋为1。换句话说,变量u表示词法特征对类型检测结果的影响量。图8描述了θ为0 ~ 1时,术语和短文本的类型检测精度变化情况。我们可以看到,当结合上下文语义和词汇特征来估计最佳类型(从θ=0到θ=0.1)时,类型检测的精度显著提高。然而,随着词汇特征在链模型和成对模型中的作用越来越重要,其精度略有下降(从θ=0.2到θ=1)。最值得注意的是,当θ=0(即只考虑语义特征)时,使用Chain Model和Pairwise Model进行类型检测的精度要大于表4所示的stanford Parser。这证明了语境语义比词汇特征更能决定短文本中术语的类型。

5.2.3 短文本理解的有效性

我们的工作中最显著的贡献之一是,我们提出了一个可以识别最佳分段、进行类型检测并基于各种类型的上下文信息消除实例歧义的通用框架。因此,在本部分中,我们从整体上考察了短文篇理解的有效性。更具体地说,我们将我们的框架的性能与当前最先进的从短文本中挖掘语义的方法进行比较,即[19]在基于相似实例的查询中执行实例消歧,[20]在基于相关实例的查询中执行实例消歧,[18]在基于相似和相关实例的tweet中执行实例消歧。与之前一样,我们同时考虑术语级和文本级精度来衡量短文本理解的有效性。我们在三个查询数据集中(即“ambig”、“general”和“all”)仅在文本级别显示结果。对于术语级精度,我们给出了在“所有”查询数据集中获得的结果。从表5中我们可以看到,我们的方法比目前最先进的方法性能好得多,因为它可以利用各种上下文信息进行实例消歧。请注意,对于模糊查询(在“ambig”数据集中为38.1%),我们的框架对现有最先进方法的精确度改进仅略高于一般查询(在“general”数据集中为35.3%),因为许多一般查询也包含模糊实例。我们观察到,来自“一般”查询数据集的517个实例中有329个(63.6%)是不明确的。另一个有趣的发现是,我们的框架在查询数据集中(36.4%)比在tweet数据集中(12%)提高了更大的精确度。这可以从两个方面解释:第一,tweet通常比关键字查询长,为实例消歧提供更多的上下文信息;其次,[18]基于相似实例和相关实例消除实例歧义。这两个特性有助于使用[18]对短文本的语义解释比使用[19]或[20]获得的更准确,这反过来导致在tweet数据集中精度的提高小于查询数据集。总体而言,我们的框架在两个数据集(查询数据集89.0%,推文数据集89.4%)上都实现了较高的短文本理解精度,验证了其有效性和鲁棒性。

在第4.1.4节中,我们描述了如何根据实例的语义(即概念集群)来确定实例是否有歧义。具体来说,我们将概念簇分组为词义(即概念簇的层次结构),将相似或相关的词义分组为词义簇,然后根据词义簇的数量确定实例歧义水平。为了检验这种方法的性能,我们随机抽样了900个实例(每个歧义级别有300个),并请同事用三个选项为其歧义标记:“歧义的”、“明确的”和“很难说”。我们观察到,对于大多数实例,我们的算法与人工注释人员一致(82.2%一致),而不一致主要发生在歧义级别1的实例中(41%不一致)。在式(8)中,我们使用参数a将两个可以表示两个概念簇之间层次关系的条件,即常见实例和常见流行实例的百分比结合起来。图7a展示了a的选择对歧义检测精度的影响。我们可以看到,公共流行实例的百分比(即¼0)比公共实例的百分比(即¼1)更有助于估计层次关系。这主要是由于Probase中的三角形问题。我们在这项工作中确定实例歧义有两个原因。首先,在进行实例消歧时,显然可以通过跳过无歧义的实例来减少理解短文本的时间成本。其次,消除无歧义实例有时会导致过度过滤,进而影响短文本理解的准确性,如图7b所示。

5.3 有效性

我们知道,短文本理解通常被视为在线任务或许多其他文本挖掘应用程序(如分类和聚类)的底层步骤。这些应用程序通常需要同时处理数百万个短文本,这使得短文本理解的效率非常关键。因此,我们检查我们的框架的时间需求,以验证其效率,如图8a所示。我们可以看到,我们的框架可以在几百毫秒内有效地解释一个简短的文本,并且时间需求随着文本长度的增加而线性增加。注意,处理tweet所需的时间通常比处理相同长度的查询所需的时间短。一种可能的解释是,推文中的很大一部分单词是不需要处理的停用词,而查询中的单词大多是关键词。在第4.2.1节中,我们描述了一种随机算法(MaxCMC),以减少文本分割时的蛮力算法(MaxCBF)的时间成本。我们在图8b中描述了这两种方法进行文本分词所需的平均时间。推文文本分词的平均时间需求始终大于查询,因为推文平均包含的单词比查询多。

六、结论

在这项工作中,我们提出了一个通用的框架,以有效和高效地理解短文本。更具体地说,我们将短文本理解任务分为三个子任务:文本分割、类型检测和概念标注。我们将文本分割问题表述为一个加权的最大团问题,并提出了一种随机逼近算法,以保持准确性和提高效率。我们引入了结合词汇和语义特征的链模型和成对模型来进行类型检测。它们比标记基准上的传统POS标记器获得更好的精度。当检测到歧义时,我们使用加权投票算法来确定最合适的语义。实验结果表明,我们提出的框架在短文本理解领域优于现有的最先进的方法。作为未来的工作,我们将尝试分析并将时空特征的影响纳入我们的短文本理解框架中。

Understand Short Texts by Harvesting and Analyzing Semantic Knowledge(阅读笔记)相关推荐

  1. Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation阅读笔记

    Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Appr ...

  2. Learning to Predict Context-adaptiveConvolution for Semantic Segmentation阅读笔记

    作者里面有个大牛李洪生 李鸿升 - 知乎 (zhihu.com) 单位的话有港中文大学,商汤科技,深圳计算机视觉和模式识别研究院等等 摘要: 长距离的上下文信息对于实现高质量的语义分割是必不可少的.之 ...

  3. A Personality traits and job candidate screening via analyzing facial videos 阅读笔记

    A Personality traits and job candidate screening via analyzing facial videos 前言 这篇文章看起来对个性的提取的话,只提取了 ...

  4. PseudoSeg: Designing Pseudo Labels for Semantic Segmentation阅读笔记

    原文链接:https://arxiv.org/abs/2010.09713  PseudoSeg比较少见地采用了将pixel-level label和image-level label结合在一起的设定 ...

  5. 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

    论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...

  6. 【论文阅读笔记】语义三维重建CVPR2011:Semantic Structure from Motion

    前文回顾 [论文阅读笔记]Past, Present, and Future of Simultaneous Localization and Mapping [论文阅读笔记]语义SLAM语义映射模型 ...

  7. 《Semantic Object Parsing with Graph LSTM》--论文阅读笔记

    Semantic Object Parsing with Graph LSTM原文 GraphSage代码阅读笔记(TensorFlow版)目录 摘要 1.介绍 2 Related Work 3 Th ...

  8. Topic Modeling of Short Texts: A Pseudo-Document View

    PTM认为大量的短文本是从数量少得多但大小正常的潜在文档中产生的,这些潜在文档被称为伪文档. 通过学习伪文档而不是短文本的主题分布,PTM具有固定数量的参数,并在训练语料相对不足时获得避免过拟合的能力 ...

  9. FCN全连接卷积网络(3)--Fully Convolutional Networks for Semantic Segmentation阅读(摘要部分)

    1.摘要 1.1逐句理解一下: Convolutional networks are powerful visual models that yield hierarchies of features ...

最新文章

  1. VS2010在工具栏上创建查找组合框,即:CMFCToolBar中加入CMFCToolBarComboBoxButton
  2. android的数据存储方式有哪几种方式,Android存储数据的5种方式
  3. 登录屏幕上不要显示上次登录的用户名 图文教程[server 2003/2008]
  4. How to expand Azure VM OS Disk
  5. 计算机科学与技术创新实验班是什么意思,计算机科学与技术系成立2010级创新实验班(图)...
  6. 深入理解java虚拟机gc_java底层:GC相关——深入理解java虚拟机
  7. 零基础学python数据分析_Python学习指南:使用Python学习数据分析
  8. 微信小程序项目实战之豆瓣天气
  9. 《Linux内核分析》 第八节 进程的切换和系统的一般执行过程
  10. ClamAV学习【6】—— cli_load函数浏览
  11. Java基础SQL优化---面试题【一】
  12. 数字化转型的衡量指标
  13. DSP你都不知道是啥,还好意思说自己学过嵌入式?
  14. 软件测试平台的作用以及会包含哪些功能?
  15. 实现微信打开网页时,获取当前微信用户信息(Java)(基于snsapi_userinfo方式)
  16. 单片机跑操作系统,到底有几种选择?
  17. Android系统Audio框架介绍
  18. 今日头条2018校招编程题
  19. 计算机科学——计算机导论
  20. 接口技术实验三、响铃程序

热门文章

  1. python画等边三角形及彩蟒
  2. 【数据结构 | C语言】Dijkstra算法(迪杰斯特拉算法)
  3. 对学校的希望和寄语_对母校的寄语
  4. CAD2021机械版怎么永久关闭栅格
  5. 五行顺口溜_五行纳音口诀,五行相生相克歌诀
  6. 【大数据哔哔集20210112】Sorry,Hbase的LSM Tree真的可以为所欲为!
  7. javascript深拷贝函数封装
  8. 【Web】Web-API(No.62)DOM案例(一)随机更改盒子透明度
  9. html5图片文字环绕效果,HTML5实现Word中文字全环绕图片效果
  10. 【QQBot】基于 go-cqhttp + nonebot2 搭建的QQ机器人