BERT的新草料！Google预训练史诗级增强！

点击 机器学习算法与Python学习 ，选择加星标

精彩内容不迷路

新智元报道，来源：Google AI

预训练的经验来说，数据越多，效果越好！Google最近在NAACL 2021上发了一篇文章，可以从知识图谱中自动生成文本数据，再也不怕语料不够用了！

大型预训练自然语言处理(NLP)模型，如 BERT、 RoBERTa、 GPT-3、 T5和 REALM，充分利用了来自 Web 的巨型自然语言语料库，对特定任务的标注数据进行微调，获得一个效果特别好的预训练，并在某些NLP任务中甚至超过了人类的表现。

然而，自然语言文本本身只代表了有限的知识范围，事实(facts)可能以多种不同的方式包含在长句子这种非结构化数据中。

此外，文本中存在的非事实信息和有害的内容可能最终会导致模型的偏差(bias)。

除了非结构化的文本之外，获取信息的另一种来源是知识图谱，它是一种结构化数据。

知识图谱包含的数据通常都是事实性的，信息也通常是从可信的语料中提取的，后处理过滤和人工编辑可以确保不合适和错误的信息被删除掉。

因此，如果一个模型能够同时把它们结合起来，就能提高准确率，减少有害信息。但现实的矛盾是，知识图谱和文本之间存在不同的结构形式，导致它们很难与现有的语言模型中的语料库整合。

基于这个想法，Google提出一个新模型(Knowledge Enhanced Language Model, KELM)，已经被NAACL 2021接受。

这篇文章主要探索了如何将知识图谱转换为自然语言的句子来增强现有的预训练语料，使其能够在不改变结构的情况下融入语言模型的预训练。

文中使用的数据集主要是公开的英文知识图谱Wikidata KG，模型能够将其转换为自然语言文本，以创建一个合成语料库。

之前有相关工作提出一种基于检索的语言模型 REALM，Google为这个语言模型提供了更强的能力，并利用合成后语料库将自然语言语料库和知识图谱集成到预训练中。

语料库目前已发布在GitHub上，每一行包括一个三元组，和一个句子，如下是测试集中的一个例子：

Niklaus Troxler occupation Graphic designer, date of birth 01 May 1947 Niklaus Troxler (born May 1, 1947) is a Swiss graphic designer.

将知识图谱转换为自然语言文本

知识图谱包括以结构化格式明确表示的事实信息，通常以[主题实体subject，关系relation，客体实体subject]三元组的形式出现，例如，[10x10 photobooks，inception，2012]。

一组相关的三元组称为实体子图。基于前面三元组示例的实体子图的一个示例是{[10x10 photobooks，instance of，非营利组织] ，[10x10 photobooks，inception，2012]} ，如下图所示，KG 可以看作是互连的实体子图。

将子图转换为自然语言文本是 NLP 中的标准任务，称为数据到文本生成（data-to-text generation）。

虽然在诸如 WebNLG 等基准数据集的数据到文本生成方面取得了重大进展，但将整个 KG 转换为自然文本还有其他挑战。大型的实体和关系比小型基准数据集更加庞大和多样化。

此外，基准数据集由预定义的子图组成，可以形成流畅的有意义的句子。对于整个 KG，也需要创建这样的实体子图的分段。

为了将 Wikidata KG 文本转换为合成的自然的、流畅的语句，Google还开发了一个名为Text from KG Generator(TEKGEN)的语言化管道，它由以下几个部分组成: 一个大型启发式构造的、能够自动对齐 Wikipedia 和 Wikidata KG 三元组的训练语料库，一个将 KG 三元组转换为文本的文本到文本生成器(T5) ，一个生成三元组组合语言的实体子图创建器，以及一个消除低质量输出的后处理过滤器。

输出结果是一个包含整个 Wikidata KG 作为自然文本的语料库，我们称之为知识增强语言模型语料库。它由大约18M 个句子组成，包含约45M 个三元组和约 1500个关系。

结合知识图和自然语言文本的语言模型前训练我们的评估表明，知识图语言化是一种有效的方法来融合知识图与自然语言文本。通过增强REALM 的检索库能够有效地生成文本，该检索库仅包括维基百科的文本。

为了评估动词化的有效性，文中使用 KELM 语料库(即动词化三元组)增强了 REALM 检索语料库，并比较了它与不使用动词化的串联三元组增强语料库的检索性能，并使用每种数据增强技术对两个流行的开放领域问题回答数据集(自然问题和 Web 问题)进行精确度测量。

使用连接的三元组增强的 REALM 可以提高准确性，还可以增加一些潜在的、没有在文本中表示的知识信息。

增强了动词化的三元组，使得知识图谱与自然语言文本语料库的整合更加顺畅，也会获得更高的准确率。

除此之外，研究团队还在一个名为 LAMA 的知识探测器上观察到了同样的趋势，该知识探测器使用填充空白问题查询模型。

这篇论文使用 KELM 模型提供了一个公开可用的知识图谱语料库作为自然文本。作者发现，知识图谱语言化可以用来整合知识图谱和自然文本语料库，以克服它们之间的结构差异。

这对于知识密集型任务(例如回答问题)具有实际应用，而提供事实知识是必不可少的。此外，该语料库还可以应用于大语言模型的预训练，可以减少不良信息，提高真实性。

这项工作能够鼓励将结构化知识源整合到大型语言模型的预训练中取得进一步的进展。


如果对你有帮助。
请不吝点赞，点在看，谢谢

BERT的新草料！Google预训练史诗级增强！相关推荐

Bert模型-自然语言处理中的预训练技术发展史
为什么Bert最近很火? 其实Bert并没有重大的理论或者模型创新,创新并不算大.主要原因是效果太好了,刷新了很多NLP任务的最好性能,有些任务还被刷爆了.另外一点是Bert具备广泛的通用性,绝大部分 ...
超越谷歌BERT！依图推出预训练语言理解模型ConvBERT，入选NeurIPS 2020
机器之心发布机器之心编辑部在本文中,本土独角兽依图科技提出了一个小而美的方案--ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的 ...
超越谷歌BERT！依图推出预训练语言理解模型ConvBERT
来源|机器之心在本文中,本土独角兽依图科技提出了一个小而美的方案--ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的精度.相比费钱 ...
AMBERT！超越BERT！多粒度token预训练语言模型
AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION 1. 之前的BERT还存在什么问题? 归纳:即BERT中的to ...
是时候“抛弃”谷歌 BERT 模型了！新型预训练语言模型问世
作者 | XLNet Team 译者 | 孙薇责编 | Jane 出品 | AI科技大本营(ID: rgznai100) 近日,XLNet 团队发布了新型预训练语言模型 XLNet,这个新模型在各项 ...
【NLP】从WE、ELMo、GPT到Bert模型—自然语言处理中的预训练技术发展史
Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角 ...
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
本文可以任意转载,转载时请标明作者和出处. 张俊林 2018-11-11 (如果图片浏览有问题可以转至:知乎版本) Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高 ...
BERT论文翻译：用于语言理解的深度双向Transformer的预训练
Jacob Devlin Ming-Wei Chang Kenton Lee kristina Toutanova Google AI Language {jacobdevlin, mingweich ...
【预训练视觉-语言模型文献阅读文献阅读】最新BERT模型——UNITER: UNiversal Image-TExt Representation Learning
[预训练视觉-语言模型文献阅读文献阅读]最新BERT模型--UNITER: UNiversal Image-TExt Representation Learning 文章目录 [预训练视觉-语言模型文 ...

BERT的新草料！Google预训练史诗级增强！

预训练的经验来说，数据越多，效果越好！Google最近在NAACL 2021上发了一篇文章，可以从知识图谱中自动生成文本数据，再也不怕语料不够用了！

BERT的新草料！Google预训练史诗级增强！相关推荐

最新文章

热门文章