本文转自机器之心

ERNIE Github 项目地址:https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE

近年来,无监督文本的深度神经网络预训练模型大幅提升了各个 NLP 任务的效果。早期的工作聚焦于上下文无关的词向量建模,而之后提出的 Cove,ELMo,GPT 等模型,构建了语句级的语义表示。Google 近期提出的 BERT 模型,通过预测屏蔽的词,利用 Transformer 的多层 self-attention 双向建模能力,取得了更好的效果。

无论是稍早提出的 Cove、Elmo、GPT, 还是能力更强的 BERT 模型,其建模对象主要聚焦在原始语言信号上,较少利用语义知识单元建模。这个问题在中文方面尤为明显,例如,BERT 在处理中文语言时,通过预测汉字进行建模,模型很难学出更大语义单元的完整语义表示。例如,对于乒 [mask] 球,清明上 [mask] 图,[mask] 颜六色这些词,BERT 模型通过字的搭配,很容易推测出掩码的字信息,但没有显式地对语义概念单元 (如乒乓球、清明上河图) 以及其对应的语义关系进行建模。

设想如果能够让模型学习到海量文本中蕴含的潜在知识,势必会进一步提升各个 NLP 任务效果。因此百度提出了基于知识增强的 ERNIE 模型。ERNIE 模型通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系。具体来说,ERNIE 模型通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力。

举个例子:

  • Learned by BERT :哈 [mask] 滨是 [mask] 龙江的省会,[mask] 际冰 [mask] 文化名城。

  • Learned by ERNIE:[mask] [mask] [mask] 是黑龙江的省会,国际 [mask] [mask] 文化名城。

在 BERT 模型中,通过『哈』与『滨』的局部共现,即可判断出『尔』字,模型没有学习与『哈尔滨』相关的知识。而 ERNIE 通过学习词与实体的表达,使模型能够建模出『哈尔滨』与『黑龙江』的关系,学到『哈尔滨』是『黑龙江』的省会以及『哈尔滨』是个冰雪城市。

ERNIE 模型本身保持基于字特征输入建模,使得模型在应用时不需要依赖其他信息,具备更强的通用性和可扩展性。相对词特征输入模型,字特征可建模字的组合语义,例如建模红色,绿色,蓝色等表示颜色的词语时,通过相同字的语义组合学到词之间的语义关系。

此外,ERNIE 的训练语料引入了多源数据知识。除了百科类文章建模,还对新闻资讯类、论坛对话类数据进行学习,这里重点介绍下论坛对话建模。对于对话数据的学习是语义表示的重要途径,往往相同回复对应的 Query 语义相似。基于该假设,ERINE 采用 DLM(Dialogue Language Model)建模 Query-Response 对话结构,将对话 Pair 对作为输入,引入 Dialogue Embedding 标识对话的角色,利用 Dialogue Response Loss 学习对话的隐式关系,通过该方法建模进一步提升模型语义表示能力。

ERNIE 对实体概念知识的学习以及训练语料的扩展,增强了模型语义表示能力。为验证 ERNIE 的知识学习能力,研究者利用几道有趣的填空题对模型进行了考察。实验将段落中的实体知识去掉,让模型推理其答案。

可以看到 ERNIE 在基于上下文知识推理能力上表现的更加出色。

对于知识推理能力,ERNIE 在自然语言推断任务上做了进一步实验。XNLI 由 Facebook 和纽约大学的研究者联合构建,旨在评测模型多语言的句子理解能力。目标是判断两个句子的关系(矛盾、中立、蕴含)。ERNIE 与 Google 公布的 BERT 进行了比较:

实验表明,ERNIE 模型相较于 BERT,在语言推断效果上更胜一筹。

多个公开的中文数据集上的进一步效果验证显示,相较 BERT,ERNIE 模型均取得了更好的效果:

1. 语义相似度任务 LCQMC

LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同。

2. 情感分析任务 ChnSentiCorp

ChnSentiCorp 是中文情感分析数据集,其目标是判断一段话的情感态度。

3. 命名实体识别任务 MSRA-NER

MSRA-NER 数据集由微软亚研院发布,其目标是命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名等。

4. 检索式问答匹配任务 NLPCC-DBQA

NLPCC-DBQA 是由国际自然语言处理和中文计算会议 NLPCC 于 2016 年举办的评测任务,其目标是选择能够回答问题的答案。

研究团队表示,此次技术突破将被应用于多种产品和场景,进一步提升用户体验。未来百度将在基于知识融合的预训练模型上进一步深入研究。例如使用句法分析或利用其他任务的弱监督信号进行建模。此外,百度也会将该思路推广到其他语言,在其他语言上进一步验证。

百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

推荐阅读

Python高级技巧:lazy property

20 个超棒的数据科学 Python 库

华为突遭谷歌釜底抽薪!官方安卓不再支持华为手机

喜欢就点击“在看”吧!

百度ERNIE,中文任务全面超越BERT相关推荐

  1. 中文任务全面超越BERT:百度正式发布NLP预训练模型ERNIE(附项目地址)

    来源:机器之心 本文约1700字,建议阅读7分钟. 百度提出知识增强的语义表示模型ERNIE,并发布了基于PaddlePaddle的开源代码与模型. [ 导读 ]近日,百度提出知识增强的语义表示模型 ...

  2. 百度ERNIE 2.0发布!16项中英文任务表现超越BERT和XLNet

    整理 | 夕颜出品 | AI科技大本营(ID:rgznai100) 导读:2019 年 3 月,百度正式发布 NLP 模型 ERNIE,其在中文任务中全面超越 BERT 一度引发业界广泛关注和探讨.今 ...

  3. 百度NLP前沿探讨:从BERT到ERNIE有多远

    点击上方 蓝字 关注我们 自然语言处理(Natural Language Processing,NLP)是人工智能.计算机科学.信息工程的交叉领域,涉及统计学.语言学等知识.语言是人类思维的证明,故自 ...

  4. 自然语言最强总结!百度NLP前沿探讨:从BERT到ERNIE有多远

    自然语言处理(Natural Language Processing,NLP)是人工智能.计算机科学.信息工程的交叉领域,涉及统计学.语言学等知识.语言是人类思维的证明,故自然语言处理是人工智能技术的 ...

  5. 做人类语言谜题的破壁人:百度ERNIE 2.0的突破与创造

    这两天AI圈有一个广受关注的新闻,百度发布了持续学习的语义理解框架ERNIE 2.0,这个模型在1.0版本中文任务中全面超越BERT的基础上,英文任务取得了全新突破,在共计16个中英文任务上超越了BE ...

  6. 百度ERNIE登顶GLUE榜单,得分首破90大关

    出品 |  AI科技大本营(ID:rgznai100) 12月10日,百度ERNIE在自然语言处理领域权威数据集GLUE中登顶榜首,以9个任务平均得分首次突破90大关刷新该榜单历史,其表现超越微软MT ...

  7. 详细介绍百度ERNIE 2.0:A Continual Pre-Training Framework for Language Understanding

    系列阅读: 详细介绍百度ERNIE1.0:Enhanced Representation through Knowledge Integration 详细介绍百度ERNIE 2.0:A Continu ...

  8. 『清华ERNIE』 与 『百度ERNIE』 的爱恨情仇

    『清华ERNIE』 与 『百度ERNIE』 的爱恨情仇 FesianXu 20210219 at Baidu intern 前言 最近笔者在查看ERNIE论文的时候,发生了一件很乌龙的事情,本来笔者要 ...

  9. 【Pytorch基础教程36】基于Ernie预训练模型和Bert的新闻分类

    文章目录 一.新闻分类任务 1.1 中文数据集 1.2 数据特点 1.3 跑起代码 二. 预训练语言模型ERNIE 2.1 ERNIE模型结构 2.2 bert模型结构 三.项目代码 1. bert模 ...

最新文章

  1. 【最新刷榜】层次化视觉Transformer来啦!性能大幅优于DeiT、ViT和EfficientNet
  2. Spark-Java算子
  3. 在Centos7安装mysql
  4. Docker Compose安装Registry后配置WebUI与客户端
  5. 【.NET进程通信】初探.NET中进程间通信的简单的实现
  6. TokenInsight:反映区块链行业整体表现的 TI 指数较昨日同期上涨9.79%
  7. 1074: [SCOI2007]折纸origami - BZOJ
  8. 强核问世:NVIDIA发布A100 80GB GPU,为AI超级计算带来全球最强GPU
  9. python 图形库介绍_python 图形数据库
  10. iview 级联选择组件_iView Cascader级联选择器
  11. C#实现对即插U盘文件的自动拷贝
  12. 区块链在保险业的应用
  13. Ubuntu linux ls 看到目录文件夹绿色高亮问题
  14. android 调出键盘表情_Android高仿微信表情输入与键盘输入详解
  15. ACM上一些常见问题解答
  16. 最新KEIL-MDK安装详细教程(包括对Compiler 5的安装)
  17. 32位linux上装64位java,在32位Windows XP的VMWare里安装64位Ubuntu Linux/JDK1.6
  18. android手机号码恢复,安卓手机怎么找回通讯录联系人_安卓手机恢复手机通讯录教程_3DM手游...
  19. adb在小米电视上安装QQ 并使用遥控器操控部分功能
  20. 1658页!又一份神级的Java手册面世

热门文章

  1. C++报错signal SIGSEGV, Segmentation fault
  2. 持续贡献开源力量,棱镜七彩加入openKylin
  3. PHP爬虫音乐,PHP 爬虫———爬取网易云音乐歌单
  4. 【ubuntu 1604搭建pppoev6服务器】
  5. 安装jieba库方法
  6. 180107 逆向-Xman移动安全冬令营选拔赛
  7. swift3.0中@escaping 和 @noescape 的含义
  8. 当下流行的web用户界面设计趋势
  9. [原创]大部调整的IT遐想
  10. gta5nat严格怎么办_如何解决在游玩 GTA 在线模式时出现的 NAT 类型为“严格”(Strict)的错误...