Self-Attention Layer: 能实现和RNN相同的效果

attention:吃query+key,输出一个分数(衡量他两的匹配度,相似度)。再加权和
李宏毅-Transformer-PPT
怎样理解‘可并行’:向量到矩阵

Multi-head Self-attention: 不同head关注的特征不同。和CNN多个filter的思想同。
Self-attention的缺点:没有考虑输入sequence的顺序,邻居和天涯是相同的。

W^P是参数,但是通常是…

Transformer:

Add & Norm: 将Multi-head Self-attention的输入和输出相加,然后做Layer Normalization

BN: 同一个batch不同data同样的dimension做。向量之间
LN:不需要考虑batch。各个不同dimension mean为0,var为1。向量内部。常和RNN大牌


有了transformer可以硬train生成一个超级长的序列,如维基百科上的文章

李宏毅-Transformer相关推荐

  1. 李宏毅Transformer

    Transformer Transformer 其实就是Sequence-to-Sequence(Seq2Seq)架构的model,就是输入一堆向量,输出一堆向量,输出的向量数量由机器自己决定. Se ...

  2. 【机器学习】李宏毅——自监督式学习

    1.BERT简介 首先需要介绍什么是自监督学习.我们知道监督学习是有明确的样本和对应的标签,将样本丢进去模型训练并且将训练结果将标签进行比较来修正模型,如下图: 而自监督学习就是没有标签也要自己创建监 ...

  3. 【自然语言处理】Transformer 讲解

    有任何的书写错误.排版错误.概念错误等,希望大家包含指正. 在阅读本篇之前建议先学习: [自然语言处理]Seq2Seq 讲解 [自然语言处理]Attention 讲解 Transformer 为了讲解 ...

  4. NLP经典论文:Attention、Self-Attention、Multi-Head Attention、Transformer 笔记

    NLP经典论文:Attention.Self-Attention.Multi-Head Attention.Transformer 笔记 论文 介绍 特点 模型结构 整体结构 输入 输出 Attent ...

  5. Transformer(multi-head attention)

    文章目录 RNN CNN ATT self-attention(K/Q/V) Multi-head Attention 顺序问题 seq2seq with attention Transformer ...

  6. [深度学习] 自然语言处理 --- 1.Attention

    目录 Attention简介 Encoder-Decoder框架 Attention模型 Attention 的优点 Attention 不同类型 1. 计算区域 2. 所用信息 3. 结构层次 4. ...

  7. 【李宏毅机器学习】TransFormer框架基础储备知识(p51) 学习笔记 | 全程手码,放心食用

    全文总结于哔哩大学的视频:李宏毅2020机器学习深度学习(完整版)国语 2020版课后作业范例和作业说明在github上:点击此处 李宏毅上传了2020版本的机器学习视频和吴恩达的CS229机器学习相 ...

  8. 李宏毅老师《机器学习》课程笔记-5 Transformer

    注:本文是我学习李宏毅老师<机器学习>课程 2021/2022 的笔记(课程网站 ),文中图片除一张来自 transformer论文,其余均来自课程 PPT.欢迎交流和多多指教,谢谢! L ...

  9. Transformer(李宏毅老师Transforme PPT截图)

    参考李宏毅老师Transformer 课程连接https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_E ...

最新文章

  1. Java项目:精美网上音乐平台(前后端分离+java+vue+Springboot+ssm+mysql+maven+redis)
  2. 51单片机的复位引脚_51单片机复位电路工作原理
  3. asp.net生成高质量缩略图通用函数(c#代码),支持多种生成方式
  4. canvas笔记-二次贝塞尔曲线与三次贝塞尔曲线的用法
  5. Git使用相关问题汇总
  6. 想要把日志在两个blog同步太过麻烦了
  7. [转载] python中list的方法有哪些_Python 列表(list)中的方法
  8. 光纤中的非线性光学效应
  9. 卡诺模型(用户需求分析模型)
  10. 宣传片后期制作的要点介绍
  11. ccs 动态梦幻西游
  12. tensorflow2系类知识-4 :RNN
  13. iOS 视频边下边播(缓存,预加载)
  14. Android实现头像上传至数据库与保存 简易新闻(十七 下)
  15. 齐天大圣蟠桃园吃桃子
  16. 标准成本和移动平均价的误区
  17. 一文了解 TKG 如何使用 GPU 资源池
  18. 敬天爱人 大道至简——初读《经营十二条》
  19. 商务智能-第六章 数据挖掘
  20. 商场wifi覆盖方案

热门文章

  1. [转载]FAE及其发展前景_史蒂文森sun_新浪博客
  2. [BZOJ1412][ZJOI2009]狼和羊的故事(最小割)
  3. 手机可以刷linux系统版本,如何查看自己的设备(手机)能否刷入 Ubuntu Touch
  4. 写论文如何关闭修订模式
  5. 二次创业接地气、强内功,三只松鼠从一棵树出发重造“人设”
  6. Java 微课堂小程序
  7. PHPStorm单词拼写纠正提示设置
  8. 2017 ACM/ICPC Asia Regional Shenyang Online Ping Ping Ping 树链剖分+树状数组
  9. SpringBoot+Vue
  10. 介绍计算机硬件的英语作文带翻译,介绍学校的英语作文带翻译