百度ERNIE,中文任务全面超越BERT
本文转自机器之心
ERNIE Github 项目地址:https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE
近年来,无监督文本的深度神经网络预训练模型大幅提升了各个 NLP 任务的效果。早期的工作聚焦于上下文无关的词向量建模,而之后提出的 Cove,ELMo,GPT 等模型,构建了语句级的语义表示。Google 近期提出的 BERT 模型,通过预测屏蔽的词,利用 Transformer 的多层 self-attention 双向建模能力,取得了更好的效果。
无论是稍早提出的 Cove、Elmo、GPT, 还是能力更强的 BERT 模型,其建模对象主要聚焦在原始语言信号上,较少利用语义知识单元建模。这个问题在中文方面尤为明显,例如,BERT 在处理中文语言时,通过预测汉字进行建模,模型很难学出更大语义单元的完整语义表示。例如,对于乒 [mask] 球,清明上 [mask] 图,[mask] 颜六色这些词,BERT 模型通过字的搭配,很容易推测出掩码的字信息,但没有显式地对语义概念单元 (如乒乓球、清明上河图) 以及其对应的语义关系进行建模。
设想如果能够让模型学习到海量文本中蕴含的潜在知识,势必会进一步提升各个 NLP 任务效果。因此百度提出了基于知识增强的 ERNIE 模型。ERNIE 模型通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系。具体来说,ERNIE 模型通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力。
举个例子:
Learned by BERT :哈 [mask] 滨是 [mask] 龙江的省会,[mask] 际冰 [mask] 文化名城。
Learned by ERNIE:[mask] [mask] [mask] 是黑龙江的省会,国际 [mask] [mask] 文化名城。
在 BERT 模型中,通过『哈』与『滨』的局部共现,即可判断出『尔』字,模型没有学习与『哈尔滨』相关的知识。而 ERNIE 通过学习词与实体的表达,使模型能够建模出『哈尔滨』与『黑龙江』的关系,学到『哈尔滨』是『黑龙江』的省会以及『哈尔滨』是个冰雪城市。
ERNIE 模型本身保持基于字特征输入建模,使得模型在应用时不需要依赖其他信息,具备更强的通用性和可扩展性。相对词特征输入模型,字特征可建模字的组合语义,例如建模红色,绿色,蓝色等表示颜色的词语时,通过相同字的语义组合学到词之间的语义关系。
此外,ERNIE 的训练语料引入了多源数据知识。除了百科类文章建模,还对新闻资讯类、论坛对话类数据进行学习,这里重点介绍下论坛对话建模。对于对话数据的学习是语义表示的重要途径,往往相同回复对应的 Query 语义相似。基于该假设,ERINE 采用 DLM(Dialogue Language Model)建模 Query-Response 对话结构,将对话 Pair 对作为输入,引入 Dialogue Embedding 标识对话的角色,利用 Dialogue Response Loss 学习对话的隐式关系,通过该方法建模进一步提升模型语义表示能力。
ERNIE 对实体概念知识的学习以及训练语料的扩展,增强了模型语义表示能力。为验证 ERNIE 的知识学习能力,研究者利用几道有趣的填空题对模型进行了考察。实验将段落中的实体知识去掉,让模型推理其答案。
可以看到 ERNIE 在基于上下文知识推理能力上表现的更加出色。
对于知识推理能力,ERNIE 在自然语言推断任务上做了进一步实验。XNLI 由 Facebook 和纽约大学的研究者联合构建,旨在评测模型多语言的句子理解能力。目标是判断两个句子的关系(矛盾、中立、蕴含)。ERNIE 与 Google 公布的 BERT 进行了比较:
实验表明,ERNIE 模型相较于 BERT,在语言推断效果上更胜一筹。
多个公开的中文数据集上的进一步效果验证显示,相较 BERT,ERNIE 模型均取得了更好的效果:
1. 语义相似度任务 LCQMC
LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同。
2. 情感分析任务 ChnSentiCorp
ChnSentiCorp 是中文情感分析数据集,其目标是判断一段话的情感态度。
3. 命名实体识别任务 MSRA-NER
MSRA-NER 数据集由微软亚研院发布,其目标是命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名等。
4. 检索式问答匹配任务 NLPCC-DBQA
NLPCC-DBQA 是由国际自然语言处理和中文计算会议 NLPCC 于 2016 年举办的评测任务,其目标是选择能够回答问题的答案。
研究团队表示,此次技术突破将被应用于多种产品和场景,进一步提升用户体验。未来百度将在基于知识融合的预训练模型上进一步深入研究。例如使用句法分析或利用其他任务的弱监督信号进行建模。此外,百度也会将该思路推广到其他语言,在其他语言上进一步验证。
百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。
推荐阅读
Python高级技巧:lazy property
20 个超棒的数据科学 Python 库
华为突遭谷歌釜底抽薪!官方安卓不再支持华为手机
喜欢就点击“在看”吧!
百度ERNIE,中文任务全面超越BERT相关推荐
- 中文任务全面超越BERT:百度正式发布NLP预训练模型ERNIE(附项目地址)
来源:机器之心 本文约1700字,建议阅读7分钟. 百度提出知识增强的语义表示模型ERNIE,并发布了基于PaddlePaddle的开源代码与模型. [ 导读 ]近日,百度提出知识增强的语义表示模型 ...
- 百度ERNIE 2.0发布!16项中英文任务表现超越BERT和XLNet
整理 | 夕颜出品 | AI科技大本营(ID:rgznai100) 导读:2019 年 3 月,百度正式发布 NLP 模型 ERNIE,其在中文任务中全面超越 BERT 一度引发业界广泛关注和探讨.今 ...
- 百度NLP前沿探讨:从BERT到ERNIE有多远
点击上方 蓝字 关注我们 自然语言处理(Natural Language Processing,NLP)是人工智能.计算机科学.信息工程的交叉领域,涉及统计学.语言学等知识.语言是人类思维的证明,故自 ...
- 自然语言最强总结!百度NLP前沿探讨:从BERT到ERNIE有多远
自然语言处理(Natural Language Processing,NLP)是人工智能.计算机科学.信息工程的交叉领域,涉及统计学.语言学等知识.语言是人类思维的证明,故自然语言处理是人工智能技术的 ...
- 做人类语言谜题的破壁人:百度ERNIE 2.0的突破与创造
这两天AI圈有一个广受关注的新闻,百度发布了持续学习的语义理解框架ERNIE 2.0,这个模型在1.0版本中文任务中全面超越BERT的基础上,英文任务取得了全新突破,在共计16个中英文任务上超越了BE ...
- 百度ERNIE登顶GLUE榜单,得分首破90大关
出品 | AI科技大本营(ID:rgznai100) 12月10日,百度ERNIE在自然语言处理领域权威数据集GLUE中登顶榜首,以9个任务平均得分首次突破90大关刷新该榜单历史,其表现超越微软MT ...
- 详细介绍百度ERNIE 2.0:A Continual Pre-Training Framework for Language Understanding
系列阅读: 详细介绍百度ERNIE1.0:Enhanced Representation through Knowledge Integration 详细介绍百度ERNIE 2.0:A Continu ...
- 『清华ERNIE』 与 『百度ERNIE』 的爱恨情仇
『清华ERNIE』 与 『百度ERNIE』 的爱恨情仇 FesianXu 20210219 at Baidu intern 前言 最近笔者在查看ERNIE论文的时候,发生了一件很乌龙的事情,本来笔者要 ...
- 【Pytorch基础教程36】基于Ernie预训练模型和Bert的新闻分类
文章目录 一.新闻分类任务 1.1 中文数据集 1.2 数据特点 1.3 跑起代码 二. 预训练语言模型ERNIE 2.1 ERNIE模型结构 2.2 bert模型结构 三.项目代码 1. bert模 ...
最新文章
- 【最新刷榜】层次化视觉Transformer来啦!性能大幅优于DeiT、ViT和EfficientNet
- Spark-Java算子
- 在Centos7安装mysql
- Docker Compose安装Registry后配置WebUI与客户端
- 【.NET进程通信】初探.NET中进程间通信的简单的实现
- TokenInsight:反映区块链行业整体表现的 TI 指数较昨日同期上涨9.79%
- 1074: [SCOI2007]折纸origami - BZOJ
- 强核问世:NVIDIA发布A100 80GB GPU,为AI超级计算带来全球最强GPU
- python 图形库介绍_python 图形数据库
- iview 级联选择组件_iView Cascader级联选择器
- C#实现对即插U盘文件的自动拷贝
- 区块链在保险业的应用
- Ubuntu linux ls 看到目录文件夹绿色高亮问题
- android 调出键盘表情_Android高仿微信表情输入与键盘输入详解
- ACM上一些常见问题解答
- 最新KEIL-MDK安装详细教程(包括对Compiler 5的安装)
- 32位linux上装64位java,在32位Windows XP的VMWare里安装64位Ubuntu Linux/JDK1.6
- android手机号码恢复,安卓手机怎么找回通讯录联系人_安卓手机恢复手机通讯录教程_3DM手游...
- adb在小米电视上安装QQ 并使用遥控器操控部分功能
- 1658页!又一份神级的Java手册面世
热门文章
- C++报错signal SIGSEGV, Segmentation fault
- 持续贡献开源力量,棱镜七彩加入openKylin
- PHP爬虫音乐,PHP 爬虫———爬取网易云音乐歌单
- 【ubuntu 1604搭建pppoev6服务器】
- 安装jieba库方法
- 180107 逆向-Xman移动安全冬令营选拔赛
- swift3.0中@escaping 和 @noescape 的含义
- 当下流行的web用户界面设计趋势
- [原创]大部调整的IT遐想
- gta5nat严格怎么办_如何解决在游玩 GTA 在线模式时出现的 NAT 类型为“严格”(Strict)的错误...