Mask大致分为两种

Padding Mask:在NLP任务中,由于句子长度不一致,经常会进行padding操作,在sequence中加入零向量。这部分padding不应该起作用,但是在Attention的计算中用到了softmax等操作,即便0向量也会参与计算(e^0=1),因此需要手动将这部分信息mask才行。padding mask主要包含两种:
key mask:在计算score之后,且softmax之前进行,将值设为很小的数字(如-e^12),这样经过的softmax之后值几乎为0
query mask:在softmax之后进行,因此对应元素设置为0即可。
Future(blinding) Mask:例如在翻译的任务中(“我喜欢机器学习”),在翻译喜欢的时候,我们只知道“我喜欢”,而后面的“机器学习”并不知道,也就是不能提前利用Future的信息,因此需要将Future的信息Mask掉。Future Mask主要用在Decoder中,只有Decoder中才会有future 信息。Future Mask的实现也比较简单,首先建立一个对应的下三角形矩阵,之后根据这个矩阵过滤即可,因为下三角对应的之前的信息。

————————————————
版权声明:本文为CSDN博主「我叫龙翔天翼」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_40901056/article/details/97514718

Attention Mask相关推荐

  1. 超细粒度分析XLNet中神奇的Attention Mask

    ©PaperWeekly 原创 · 作者|海晨威 学校|同济大学硕士生 研究方向|自然语言处理 BERT 后时代,XLNet 在 20 个任务上超越 BERT,引起不小的关注.最重要的改进是 XLNe ...

  2. GLAMD: Global and Local Attention Mask Distillation for Object Detectors

    全局-局部 注意力的mask蒸馏 传统KD关注fore,而忽视的backg,关注全局,忽略local.本文GLAMD,提取了全局+局部,将future map 分为 几个 patch,并对global ...

  3. 【MHA】之 Attention Mask (with back forward trace) / Causal Mask (with back trace)

    文章目录 1. Attention Mask or Causal Mask 2. Causal Mask (with n_backtrce) 3. Attention Mask with backst ...

  4. 生成模型的中Attention Mask说明

    生成模型中的Attention Mask说明 最近在做文本生成任务,例如诗歌生成,问题生成,摘要生成等,使用了Bart模型,CPT模型,mt5模型,t5模型等.生成模型是基于Seq-to-Seq(En ...

  5. 超细粒度分析 XLNet 中神奇的 Attention Mask

    BERT后时代,XLNet 在20个任务上超越BERT,引起不小的关注.最重要的改进是 XLNet 实现了不在输入中加[Mask] 标志,同样可以利用上下文信息,解决了BERT预训练和微调不一致的问题 ...

  6. Attention mask理解

    Transformer的矩阵维度分析和Mask详解 Transformer 中self-attention以及mask操作的原理以及代码解析

  7. attention seq2seq transformer bert 学习总结 _20201107

    https://blog.csdn.net/weixin_44388679/article/details/102575223 Seq2Seq原理详解 一文读懂BERT(原理篇) 2018年的10月1 ...

  8. “Attention is All You Need 翻译

    <p><img src="output_0_0.png" alt="png"></p> "Attention is ...

  9. 神经网络注意力机制--Attention in Neural Networks

    Attention in Neural Networks and How to Use It http://akosiorek.github.io/ml/2017/10/14/visual-atten ...

最新文章

  1. 前端解决跨域问题的8种方案(最新最全)
  2. jQuery的自定义动画
  3. android串口补位,Rust多线程中的消息传递机制
  4. SSH-keygen参数说明
  5. leetcode 567. 字符串的排列(滑动窗口)
  6. 将结构体写入文件_将COCO检测结果写入json文件
  7. iOS根据经纬度获得地理名称
  8. JavaScript 之 截取字符串函数
  9. 数据结构—线索二叉树
  10. LR接口测试---Java Vuser之增删改查
  11. C语言练习题~分数求和
  12. 区块链之门 | Reach on Conflux 2021 黑客松开赛
  13. The Last Non-zero Digit
  14. android 小屏模式吗,宅在家又嫌手机屏幕小?教你如何玩转投屏
  15. php url 减号,PHP编码转换减号(连接符)无法转换问题
  16. python打印日志方法的使用
  17. 设置组件为圆角的方法
  18. Mac中编译、安装VTK
  19. JAVA毕设项目汽车售后服务管理系统(java+VUE+Mybatis+Maven+Mysql)
  20. SDNUOJ 1058 人名查询 (练习map的用法)

热门文章

  1. 有一个数列,其前三项分别为1、2、3,从第四项开始,每项均为其相邻的前三项之和的1/2,问:该数列从第几项开始,其数值超过1200。
  2. 数星星 ← 树状数组
  3. Ethercat-IghMaster 1.5.2调试笔记
  4. java软件工程师面试宝典之简历准备(一本辟邪剑谱交给你)
  5. 什么是“网络空间安全”?这个行业就业方面如何?
  6. 擦除Mac上所有内容和设置的最快方法
  7. node-sass安装报错及其解决方案
  8. vpython_vpython_vpython安装_vpython教程 - 云+社区 - 腾讯云
  9. 命令计算机组装机器人,一种计算机组装机器人的制作方法
  10. idea突然打不开了【已解决】