自注意力机制-李宏毅
只管知道有办法能让一句话、一段声音信号,一个图表(graph)转换为一堆向量,这是输入
这种任务输出的话有四种可能性:1.一个向量对应一个标签,2.一组向量对应一个标签,3.输入的个数和输出不一致(比如中文翻译成英文,词的数量不一致)
Sequence to Sequence :序列到序列的任务,(如翻译、语音识别)
今天只讲,一个向量对应一个标签,该任务又称Sequence Labeling
self attention :专注整个序列的信息
FC:专注某个位置的信息
下面看 self attention 模块的工作原理:↓↓↓↓↓↓↓↓↓↓
计算a1与a2a3a4的相关性(a1和a1也会自己做相关性计算)
计算方法如下:有左右两种方法,常用左边
下面看怎么将该方法应用进自注意力模块:a1和a1也会自己做相关性计算
计算出相关性之后,接着加一层softmax层(也可以加别的激活函数,比如ReLu):
接着看一下b1是怎么得到的:
上述操作的矩阵解释:
详细矩阵见下面三张图:
下面看多头注意力机制:
就是有多个Q、K、V,如下:(例如有两个Q)
截止到目前所介绍的,注意力机制存在一个缺陷,只有互相的相关性信息,缺少了每个字符的位置信息:(position encoding 位置编码)
自注意力机制与CNN 的区别:
CNN就像一个简化版的自注意力机制,自注意力机制就像一个复杂化的CNN
有篇论文,用数学的角度解释两者之间的关系:
在训练资料少的时候,CNN表现的更好
训练资料足够多的时候,自注意力表现得更好
——————————————————————————————————————————
自注意力和RNN比较:(具体可以看这篇论文,下载地址点这里:Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention)
李宏毅:RNN很大一部分可以被self-attention取代了(2021年课程)
自注意力机制-李宏毅相关推荐
- 【李宏毅】注意力机制+transformer详解
Transformer 背景 关于RNN详解可以看这篇博客:循环神经网络 RNN一般被用来处理序列输入的,但是它有一个缺点就是不能并行化,后面一个神经元的输入要依赖与之前神经元的输出. 然后就有人提出 ...
- 李宏毅机器学习:self-attention(自注意力机制)和transformer及其变形
目录 self-attention self-attention的输入 文字处理领域 语音领域 图 自注意力机制的输出 输出序列长度与输入序列相同 输出序列长度为1 模型决定输出序列长度 Self-a ...
- 李宏毅机器学习(二)自注意力机制
学习内容 本文以NLP为基础来介绍自注意力机制,而没有用图像为基础,但是其实两者都是相同的. 在图像中我们可以将图像切块(块的划分是自定义的),然后计算块与块之间的关系: 这里介绍了self-atte ...
- 【深度学习】04-01-自注意力机制(Self-attention)-李宏毅老师2122深度学习课程笔记
04-01-自注意力机制Self-attention 模型输入 文字处理 语音处理 Graph 模型输出 类型一:一对一(Sequence Labeling) 类型二:多对一 类型三:多对多(由模型自 ...
- 【ICML2021】计算机视觉中的自注意力机制教程,谷歌伯克利出品
本教程将介绍自注意力机制在计算机视觉中的应用.Self-Attention在NLP中被广泛采用,完全注意的Transformer模型已经在很大程度上取代了RNN,现在被用于最先进的语言理解模型,如GP ...
- 自注意力机制Self-attention(1)
目录: 自注意力机制Self-attention(1) 自注意力机制Self-attention(2) 本文是对李宏毅老师的课程进行了整理. 视频地址为: https://www.bilibili.c ...
- 注意力机制--转载自我的学生隆兴写的博客
原文链接为:https://a-egoist.com/posts/a44b8419/,学生自己搭建的博客,点赞! 1 Attention 1.1 什么是 Attention 灵长类动物的视觉系统中的视 ...
- 什么是自注意力机制(Self-attention)
文章目录 1. Self-attention的基本概念 1.1. Self-attention的单个输出 1.2. Self-attention的并行计算 1.3. Multi-head Self-a ...
- 收藏!各种各样神奇的自注意力机制(Self-attention)
作者 | 谢博士 整理 | PaperWeekly 总结下关于李宏毅老师在 2022 年春季机器学习课程中关于各种注意力机制介绍的主要内容,也是相对于 2021 年课程的补充内容.参考视频见: htt ...
最新文章
- 小程序语音识别+php,微信小程序之语音识别(附小程序+服务器源码)
- kentico中自定义错误页面
- 浅析epoll – epoll例子以及分析 - C++爱好者博客
- IDEA 不能显示项目里的文件结构
- 图解 二叉查找树 红黑树
- 美团Android自动化之旅—生成渠道包
- Win7上Git安装及配置过程 [转]
- 被除数、除数、商、余数的正负号规律二
- Unicode中UTF-8与UTF-16编码详解
- 图解算法之排序算法(5)——归并排序
- 存储过程中while循环
- 500 OOPS: cannot change directory:/home/xxx”
- 解析php变量,php使用parse_str实现查询字符串解析到变量中的方法
- java删除文件夹或文件
- python车牌识别使用训练集_TensorFlow车牌识别完整版代码(含车牌数据集)
- 什么是IoT物联网平台,以及如何做平台选型
- 仿淘宝、腾讯课堂评分组件 --- Android高级自定义组件
- 联想台式机进入修复计算机,联想台式机一键恢复的使用方法
- 分享20个无版权的高清无 码图库站
- 电磁感应,让你制作独一无二的作品