关于d2l中multy-head-Attention代码实现的理解

2022/10/19:读了Transformer的原文,发现/num_of_head的实现没有问题

代码实现链接:https://zh-v2.d2l.ai/chapter_attention-mechanisms/multihead-attention.html

贴入其他评论区大佬整理的维度分析:

对encoder的多头注意力机制部分代码的理解:

难度主要来自为了做并行计算而对输入矩阵进行的各种维度变换。

这边多头注意力在transpose_qkv那边做的交换维度的操作主要目的是将计算中可并行的多个head“化作batch_size”和batch_size那个维度放在一起,使输入attention的维度变成(batch_sizehead,num_of_QKV,num_of_hiddens),放入d2l.DotProductAttention(dropout)(缩放点积注意力的实现)中去计算。点积注意力计算过程中是没有参数需要学习,所以可以将多个head需要做的计算当作数量为head的多个batch拆出来和原来的beath拼在一起计算,使得batch数量从原batch_size->batch_sizehead

关于d2l中multy-head-Attention代码实现的理解相关推荐

  1. 微信开发中消息回复的代码_消息中的消息

    微信开发中消息回复的代码 Ste·ga·no·graph·y / stegəˈnägrəfi / (noun): the practice of concealing messages or info ...

  2. tensorflow中的seq2seq的代码详解

    seq2seq模型详解中我们给出了seq2seq模型的介绍,这篇文章介绍tensorflow中seq 2seq的代码,方便日后工作中的调用.本文介绍的代码是版本1.2.1的代码,在1.0版本后,ten ...

  3. spring中这些能升华代码的技巧,可能会让你爱不释手

    前言 最近越来越多的读者认可我的文章,还是件挺让人高兴的事情.有些读者私信我说希望后面多分享spring方面的文章,这样能够在实际工作中派上用场.正好我对spring源码有过一定的研究,并结合我这几年 ...

  4. python中的object是什么意思_Python object类中的特殊方法代码讲解

    python版本:3.8class object: """ The most base type """ # del obj.xxx或del ...

  5. 从文本中提取知识图谱代码比较好的,代码对齐,可以使用的

    从文本中提取知识图谱代码比较好的,代码对齐,可以使用的 https://blog.csdn.net/fendouaini/article/details/102987373 https://blog. ...

  6. SAP QM中阶执行事务代码QDB1,报错- Inspection severity 001 AQL 0.650 not in sampling schema A01-

    SAP QM中阶执行事务代码QDB1,报错- Inspection severity 001 AQL 0.650 not in sampling schema A01- 对于sampling proc ...

  7. Android应用中如何保护JAVA代码

    Java Classes字节码的反编译太容易了,有很多功能强大的反编译利器可以轻松的将Java字节码 反转为源代码,但是android中普通.apk文件可以轻松的被反编译为Java源代码吗? 答案是当 ...

  8. idea中properties配置文件没有代码提示及代码高亮问题解决方案

    idea中properties配置文件没有代码提示及代码高亮问题解决方案 参考文章: (1)idea中properties配置文件没有代码提示及代码高亮问题解决方案 (2)https://www.cn ...

  9. php 像页面输出html,PHP在页面中原样输出HTML代码的方法介绍

    本篇文章给大家介绍一下PHP在页面中原样输出HTML代码的方法.有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助. 字符串与HTML之间的相互转换主要应用htmlentities()函数 ...

最新文章

  1. nginx 内核优化参数
  2. 谁能提供修改生产订单的Bapi?
  3. Python教程:int数值类型的内置函数
  4. python 中 try、except、finally的用法(异常处理)
  5. (转) shiro权限框架详解04-shiro认证
  6. 系统封装接口层 cmsis_os
  7. 离职113天后,微软的“中国先生”沈向洋云受聘清华大学教授
  8. Flask 模版(四)- 时间 Flask-Moment
  9. 有关于腾讯地图服务端IP定位接口的获取当前城市的处理
  10. 不要争了!技术选择没那么重要
  11. 接口 与 抽象类 区别
  12. kubectl 重启pod_Part4:Pod对象的管理
  13. 网安学习日志(5)流量分析基础
  14. AI实战:推荐系统之影视领域用户画像——标签数据清洗
  15. oracle节假日,oracle 产生节假日表
  16. 计算噪声方差的函数 matlab,噪声强度(噪声功率) 噪声方差到底有什么关系? matlab中的awgn函数...
  17. 【第104期】游戏策划:如何看待另一半沉迷游戏?
  18. 2022危险化学品经营单位安全管理人员特种作业证考试题库及在线模拟考试
  19. Redis中五中数据类型的实例
  20. 打开计算机系统无法访问指定的,win10系统运行软件时提示“无法访问指定设备路径或文件的修复步骤...

热门文章

  1. 在线excel文档转json字符串格式
  2. 马斯克发星际飞船制造视频 最快可在3月进行试飞
  3. 企微红包裂变该怎么做?
  4. Rhinoceros 建模简介1
  5. 有哪些方法处理废水中的重金属
  6. Audition: Third-Party Plugins Audition教程:第三方插件 Lynda课程中文字幕
  7. 2022-04-30 Unity核心2——Sprite
  8. html + thymeleaf 制作邮件模板
  9. android模拟器定位gps
  10. java jtable方法,java swing之JTable跟JList