论文:https://arxiv.org/pdf/1810.04805.pdf

1、每个序列的第一个标签为[CLS]、句子中间用[SEP]来分割

用A、B 来表示前后两个句子

Masked LM(Mask方法预测单词)

双向的上下文学习方法存在每个单词间接“看到自己”的问题,所以Bert随机屏蔽一定比例(15%)的输入标记,然后预测那些被屏蔽的标记。虽然MASK机制解决了单词简介“看到自己”的问题,但缺点是在预训练和微调之间造成了不匹配,因为 [MASK] 令牌在微调期间不会出现。

为了缓解这种情况,Bert并不总是用实际的 [MASK] 标记替换“掩码”词。 训练数据生成器随机选择 15% 的标记位置进行预测。 如果选择第 i 个令牌,我们将用 (1) 80%  [MASK] 令牌 (2) 10% 的随机令牌 (3) 10% 未更改的第 i 个令牌替换第 i 个令牌

Next Sentence Prediction(预测下一个句子)

为了训练一个理解句子关系的模型,Bert预训练了一个二值化的下一句预测任务,该任务可以从任何单语语料库中轻松生成。 具体来说,当为每个预训练示例选择句子 A 和 B 时,50%  B 是 A 之后的实际下一个句子(标记为 IsNext),50% 它是来自语料库的随机句子(标记为 作为 NotNext)

如图 1 所示,C 用于下一句预测 (NSP)

bert 论文阅读笔记相关推荐

  1. 对抗训练-smart 论文阅读笔记

    对抗训练-smart 论文阅读笔记 SMART: Robust and Efficient Fine-Tuning for Pre-trained NaturalLanguage Models thr ...

  2. 虚假新闻检测的论文阅读笔记——sigir2021:User Preference-aware Fake News Detection

    文章目录 1.虚假新闻检测的相关简介 2.本篇论文引言 3.模型介绍 3.1.内生偏好编码器 3.2.外生内容编码器 3.3.二者信息融合 4.实验 4.1.各模型的实验结果 4.2.消融实验 5.结 ...

  3. [论文阅读笔记36]CASREL代码运行记录

    <[论文阅读笔记33]CASREL:基于标注与bert的实体与关系抽取>https://blog.csdn.net/ld326/article/details/116465089 总的来说 ...

  4. [论文阅读笔记53]2021深度神经方法的关系三元组抽取综述

    1. 题目 Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive Survey Tapas Nayak†, N ...

  5. PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记

    PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记 一.Abstract 二.引言 三.相 ...

  6. Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记

    Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...

  7. 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

    论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...

  8. DnCNN论文阅读笔记【MATLAB】

    DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...

  9. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

最新文章

  1. 微软python在线学习_微软再推免费在线 Python 教程,面向数据科学和机器学习初学者...
  2. A. Balanced Substring
  3. 复制字符串 _strdup _wcsdup _mbsdup
  4. 春运买不到票?程序员喊你来GitHub看牛哄哄的抢票神器
  5. 惠普、华三、华为、戴尔、联想服务器维保查询地址汇总
  6. OpenSolaris系列文章之----投影仪设置
  7. matlab cholesky分解函数,matlab中矩阵LDLT分解与Cholesky分解
  8. OpenKG开源系列|开源知识图谱融合工具OpenEA (南京大学)
  9. 《C语言及程序设计》实践项目——输出小星星
  10. [建筑设计].TLF-SOFT-SOFTPLAN.V13.33.bin Flaresim
  11. windows-sys9 :windows 系统官方下载网址
  12. “云脉文档管理”微信小程序提供高效的办公体验
  13. Python批量获取手机号码归属地(图文展示)
  14. ue4光追降噪_【RTX ON!】可能是最详细的UE4实时光追测评
  15. 为什要使用BindService?为了调用服务中的方法
  16. FPGA简单全加器设计
  17. 嵌入式系统知识和接口技术总结
  18. 使用Numpy创建纯色图片
  19. “加密上海·喜玛拉雅Web3.0数字艺术大展”落幕,AIGC和数字艺术衍生品是最大赢家?...
  20. 2022-2028全球复杂的可编程逻辑器件行业调研及趋势分析报告

热门文章

  1. 最新出炉!《看漫画学Python 第2版》电子书火爆来袭,300页全新版PDF开放下载,零基础小白入门首选!
  2. CSS栅格布局(Grid)
  3. 小小的世界,大大的我们
  4. 【平面设计】Pro/E3.0 软件安装教程
  5. 【Prism系列】Prism中的命令
  6. 如何评估借款人的还款意愿?
  7. 远程连接服务器 Network error:Connection refused
  8. Spring AOP IOC 实现原理,面试问到如何回答
  9. 面试官问你:你有什么想问的,你这么回答会给你加分
  10. Oracle在Windows系统中出现的ORA-27100: shared memory realm already exists 的奇怪现象