Attention Mask
Mask大致分为两种
Padding Mask:在NLP任务中,由于句子长度不一致,经常会进行padding操作,在sequence中加入零向量。这部分padding不应该起作用,但是在Attention的计算中用到了softmax等操作,即便0向量也会参与计算(e^0=1),因此需要手动将这部分信息mask才行。padding mask主要包含两种:
key mask:在计算score之后,且softmax之前进行,将值设为很小的数字(如-e^12),这样经过的softmax之后值几乎为0
query mask:在softmax之后进行,因此对应元素设置为0即可。
Future(blinding) Mask:例如在翻译的任务中(“我喜欢机器学习”),在翻译喜欢的时候,我们只知道“我喜欢”,而后面的“机器学习”并不知道,也就是不能提前利用Future的信息,因此需要将Future的信息Mask掉。Future Mask主要用在Decoder中,只有Decoder中才会有future 信息。Future Mask的实现也比较简单,首先建立一个对应的下三角形矩阵,之后根据这个矩阵过滤即可,因为下三角对应的之前的信息。
————————————————
版权声明:本文为CSDN博主「我叫龙翔天翼」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_40901056/article/details/97514718
Attention Mask相关推荐
- 超细粒度分析XLNet中神奇的Attention Mask
©PaperWeekly 原创 · 作者|海晨威 学校|同济大学硕士生 研究方向|自然语言处理 BERT 后时代,XLNet 在 20 个任务上超越 BERT,引起不小的关注.最重要的改进是 XLNe ...
- GLAMD: Global and Local Attention Mask Distillation for Object Detectors
全局-局部 注意力的mask蒸馏 传统KD关注fore,而忽视的backg,关注全局,忽略local.本文GLAMD,提取了全局+局部,将future map 分为 几个 patch,并对global ...
- 【MHA】之 Attention Mask (with back forward trace) / Causal Mask (with back trace)
文章目录 1. Attention Mask or Causal Mask 2. Causal Mask (with n_backtrce) 3. Attention Mask with backst ...
- 生成模型的中Attention Mask说明
生成模型中的Attention Mask说明 最近在做文本生成任务,例如诗歌生成,问题生成,摘要生成等,使用了Bart模型,CPT模型,mt5模型,t5模型等.生成模型是基于Seq-to-Seq(En ...
- 超细粒度分析 XLNet 中神奇的 Attention Mask
BERT后时代,XLNet 在20个任务上超越BERT,引起不小的关注.最重要的改进是 XLNet 实现了不在输入中加[Mask] 标志,同样可以利用上下文信息,解决了BERT预训练和微调不一致的问题 ...
- Attention mask理解
Transformer的矩阵维度分析和Mask详解 Transformer 中self-attention以及mask操作的原理以及代码解析
- attention seq2seq transformer bert 学习总结 _20201107
https://blog.csdn.net/weixin_44388679/article/details/102575223 Seq2Seq原理详解 一文读懂BERT(原理篇) 2018年的10月1 ...
- “Attention is All You Need 翻译
<p><img src="output_0_0.png" alt="png"></p> "Attention is ...
- 神经网络注意力机制--Attention in Neural Networks
Attention in Neural Networks and How to Use It http://akosiorek.github.io/ml/2017/10/14/visual-atten ...
最新文章
- 前端解决跨域问题的8种方案(最新最全)
- jQuery的自定义动画
- android串口补位,Rust多线程中的消息传递机制
- SSH-keygen参数说明
- leetcode 567. 字符串的排列(滑动窗口)
- 将结构体写入文件_将COCO检测结果写入json文件
- iOS根据经纬度获得地理名称
- JavaScript 之 截取字符串函数
- 数据结构—线索二叉树
- LR接口测试---Java Vuser之增删改查
- C语言练习题~分数求和
- 区块链之门 | Reach on Conflux 2021 黑客松开赛
- The Last Non-zero Digit
- android 小屏模式吗,宅在家又嫌手机屏幕小?教你如何玩转投屏
- php url 减号,PHP编码转换减号(连接符)无法转换问题
- python打印日志方法的使用
- 设置组件为圆角的方法
- Mac中编译、安装VTK
- JAVA毕设项目汽车售后服务管理系统(java+VUE+Mybatis+Maven+Mysql)
- SDNUOJ 1058 人名查询 (练习map的用法)
热门文章
- 有一个数列,其前三项分别为1、2、3,从第四项开始,每项均为其相邻的前三项之和的1/2,问:该数列从第几项开始,其数值超过1200。
- 数星星 ← 树状数组
- Ethercat-IghMaster 1.5.2调试笔记
- java软件工程师面试宝典之简历准备(一本辟邪剑谱交给你)
- 什么是“网络空间安全”?这个行业就业方面如何?
- 擦除Mac上所有内容和设置的最快方法
- node-sass安装报错及其解决方案
- vpython_vpython_vpython安装_vpython教程 - 云+社区 - 腾讯云
- 命令计算机组装机器人,一种计算机组装机器人的制作方法
- idea突然打不开了【已解决】