BERT有什么局限性?

从XLNet论文中,提到了BERT的两个缺点,分别如下:

  • BERT在第一个预训练阶段,假设句子中多个单词被Mask掉,这些被Mask掉的单词之间没有任何关系,是条件独立的,然而有时候这些单词之间是有关系的,比如”New York is a city”,假设我们Mask住”New”和”York”两个词,那么给定”is a city”的条件下”New”和”York”并不独立,因为”New York”是一个实体,看到”New”则后面出现”York”的概率要比看到”Old”后面出现”York”概率要大得多。

    • 但是需要注意的是,这个问题并不是什么大问题,甚至可以说对最后的结果并没有多大的影响,因为本身BERT预训练的语料就是海量的(动辄几十个G),所以如果训练数据足够大,其实不靠当前这个例子,靠其它例子,也能弥补被Mask单词直接的相互关系问题,因为总有其它例子能够学会这些单词的相互依赖关系。
  • BERT的在预训练时会出现特殊的[MASK],但是它在下游的fine-tune中不会出现,这就造成了预训练和微调之间的不匹配,微调不出现[MASK]这个标记,模型好像就没有了着力点、不知从哪入手。所以只将80%的替换为[mask],但这也只是缓解、不能解决
  • 相较于传统语言模型,Bert的每批次训练数据中只有 15% 的标记被预测,这导致模型需要更多的训练步骤来收敛。

  • 另外还有一个缺点,是BERT在分词后做[MASK]会产生的一个问题,为了解决OOV的问题,我们通常会把一个词切分成更细粒度的WordPiece。BERT在Pretraining的时候是随机Mask这些WordPiece的,这就可能出现只Mask一个词的一部分的情况

例如:

probability这个词被切分成”pro”、”#babi”和”#lity”3个WordPiece。有可能出现的一种随机Mask是把”#babi” Mask住,但是”pro”和”#lity”没有被Mask。这样的预测任务就变得容易了,因为在”pro”和”#lity”之间基本上只能是”#babi”了。这样它只需要记住一些词(WordPiece的序列)就可以完成这个任务,而不是根据上下文的语义关系来预测出来的。类似的中文的词”模型”也可能被Mask部分(其实用”琵琶”的例子可能更好,因为这两个字只能一起出现而不能单独出现),这也会让预测变得容易。

为了解决这个问题,很自然的想法就是词作为一个整体要么都Mask要么都不Mask,这就是所谓的Whole Word Masking。这是一个很简单的想法,对于BERT的代码修改也非常少,只是修改一些Mask的那段代码。

参考链接:

BERT模型的若干问题整理记录 & 思考

BERT---容易被忽视的细节

BERT(二)——BERT 缺陷相关推荐

  1. 【BERT】BERT模型压缩技术概览

    由于BERT参数众多,模型庞大,推理速度较慢,在一些实时性要求较高.计算资源受限的场景,其应用会受到限制.因此,讨论如何在不过多的损失BERT性能的条件下,对BERT进行模型压缩,是一个非常有现实意义 ...

  2. BERT!BERT!BERT!

    从ELMO说起的预训练语言模型 我们先来看一张图: 从图中可以看到,ELMO其实是NLP模型发展的一个转折点,从ELMO开始,Pre-training+finetune的模式开始崭露头角并逐渐流行起来 ...

  3. 自然语言处理NLP之BERT、BERT是什么、智能问答、阅读理解、分词、词性标注、数据增强、文本分类、BERT的知识表示本质

    自然语言处理NLP之BERT.BERT是什么.智能问答.阅读理解.分词.词性标注.数据增强.文本分类.BERT的知识表示本质 目录

  4. NLP之BERT:BERT的简介(背景、改进点、创新点、简介、意义、原理、优缺点、总结与评价)、模型结构、训练过程(MLM、NSP任务的概述)之详细攻略

    NLP之BERT:BERT的简介(背景.改进点.创新点.简介.意义.原理.优缺点.总结与评价).模型结构.训练过程(MLM.NSP任务的概述)之详细攻略 目录 BERT的论文 BERT的概述 BERT ...

  5. Multidex记录二:缺陷解决

    个人博客地址 http://dandanlove.com/ Multidex记录一:介绍和使用 Multidex记录二:缺陷&解决 Multidex记录三:源码解析 记录Multidex缺陷& ...

  6. [Python人工智能] 三十二.Bert模型 (1)Keras-bert基本用法及预训练模型

    从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章结合文本挖掘介绍微博情感分类知识,包括数据预处理.机器学习和深度学习的情感分类.这篇文章将开启新的内容--Bert ...

  7. 【BERT-多标签文本分类实战】之二——BERT的地位与名词术语解释

    ·请参考本系列目录:[BERT-多标签文本分类实战]之一--实战项目总览 ·下载本实战项目资源:>=点击此处=< [注]本篇将从宏观上介绍bert的产生和在众多模型中的地位,以及与bert ...

  8. 梳理 BERT和BERT变种

    [BERT]2018-10-11 预训练任务:(1) MLM 带掩码的语言模型 (2) NSP 下一句子预测 [XLNet]2019-6-19 [SpanBERT]2019-7-24 [RoBERTa ...

  9. 系统学习NLP(二十九)--BERT

    补充一份细节的理解:https://zhuanlan.zhihu.com/p/74090249 输入嵌入:https://www.cnblogs.com/d0main/p/10447853.html ...

  10. 智源青年科学家杨植麟:为什么预处理模型XLNet比BERT、RoBERTa更加优越

    在2020年2月11日下午的"智源论坛Live | 青年科学家线上报告会"中,智源青年科学家.Recurrent AI联合创始人杨植麟做了题为<Latest Advances ...

最新文章

  1. Oracle10g 回收站及彻底删除table : drop table xx purge
  2. Python处理多行文本问题--一个简单方法读取多行fasta文件
  3. Spring Cloud:使用Ribbon实现负载均衡详解(下)
  4. Soa和Wcf(转)
  5. 七年级上册数学计算机教学视频,七年级上册数学教学视频免费
  6. PowerBI 秒级实时大屏展示方案 全面助力双十一
  7. URL编解码、Big Endian和Little Endian
  8. (收藏)《博客园精华集》分类索引
  9. 局域网电脑Sql2008 R2无法连接到localhost 解决方案
  10. 计算机组成原理学习四笔记一
  11. opencv中的merge函数
  12. 数据集标签_数据分享 | LiDAR点云数据汇总
  13. Python中将字典保存为文件并读取
  14. Linux 脚本开机自启的几种方法
  15. TypeScript 中括号用法笔记
  16. Summary——CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark
  17. 街霸 隆(Ryu)升龙拳(Syoryuken)动画(四)制作过程中几个版本动画比较一下
  18. java极光推送如何设置别名_Android 极光推送设置别名
  19. 富士通论坛2014:人本创新,应用为王
  20. 2021最新 什么是虚拟专用服务器技术?

热门文章

  1. java常微分方程数值解,SymPy / SciPy:求解具有不同变量的常微分方程组
  2. python计算互信息_互信息公式及概述
  3. 李彦宏被泼水 !!!
  4. Latex 博客模板-基于电子科技大学学位论文latex模板
  5. 说一下vue响应式原理?可不只有proxy
  6. 纯CSS实现3D正方体动画效果
  7. 不知名菜鸟的day11
  8. [STM32F4]STM32F407 ADC采集+DMA传输
  9. 与Flash Player斗智斗勇的全过程
  10. win7注册表无法修改计算机名称,win7注册表拒绝访问和修改的原因及解决方法