文章目录

  • Attention原理
  • HAN原理
  • 利用Attention模型进行文本分类
  • 参考资料

Attention原理

转载一个Hierarchical Attention神经网络的实现
转载 图解Transformer
转载 Attention原理和源码解析
论文链接 Attention is All You Need

HAN原理

论文链接Hierarchical Attention Network for Document Classification

HAN模型就是分层次的利用注意力机制来构建文本向量表示的方法。

文本由句子构成,句子由词构成,HAN模型对应这个结构分层的来构建文本向量表达;

文本中不同句子对文本的主旨影响程度不同,一个句子中不同的词语对句子主旨的影响程度也不同,因此HAN在词语层面和句子层面分别添加了注意力机制;

分层的注意力机制还有一个好处,可以直观的看出用这个模型构建文本表示时各个句子和单词的重要程度,增强了可解释性;

模型结构:

论文里面使用双向GRU来构建句子表示和文本表示,以句子为例,得到循环神经网络中每个单元的输出后利用注意力机制整合得到句子向量表示(不使用attention时,一般会使用MAX或AVE),过程如下:

按照文中说法,先经过一层MLP得到隐层表示,然后与word level context vector "uwu_wuw​"做点积,各词语得到的结果再经过softmax函数后的结果就是各自的重要程度,即 α\alphaαit,最后加权和得到句子表示 sis_isi​ 。文本向量的构建与此一致,之后经过全连接层和softmax分类。

利用Attention模型进行文本分类

转载 mt_attention_birnn

参考资料

使用CNN,RNN,HAN进行文本分类的对比报告
HAN
一个Hierarchical Attention神经网络的实现

Attention原理相关推荐

  1. Attention原理详解

    Attention原理详解 Attention模型 对齐 模型介绍 Attention整体流程 Step1 计算Encoder的隐藏状态和Decoder的隐藏状态 Step2 获取每个编码器隐藏状态对 ...

  2. 注意力机制(Attention)原理详解

    文章结构 1. 为什么需要Attention 2. Attention的基本原理 3.自注意力机制(Self-Attention) 4.总结 1. 为什么需要Attention 在了解Attentio ...

  3. 深度学习attention原理_深度学习系列——attention机制与应用

    本文介绍attention起源+原理和一些应用 一.简介 Attention机制通俗的讲就是把注意力集中放在重要的点上,而忽略其他不重要的因素.关于这个的解释个人感觉计算机视觉比NLP根据有直接的解释 ...

  4. Transformer 初识:模型结构+attention原理详解

    Transformer 初识:模型结构+原理详解 参考资源 前言 1.整体结构 1.1 输入: 1.2 Encoder 和 Decoder的结构 1.3 Layer normalization Bat ...

  5. 深度学习attention原理_深度学习Anchor Boxes原理与实战技术

    深度学习Anchor Boxes原理与实战技术 目标检测算法通常对输入图像中的大量区域进行采样,判断这些区域是否包含感兴趣的目标,并调整这些区域的边缘,以便更准确地预测目标的地面真实边界框.不同的模型 ...

  6. 深度学习attention原理_深度原理学习–Redis集群

    前面我们介绍了国人自己开发的Redis集群方案--Codis,Codis友好的管理界面以及强大的自动平衡槽位的功能深受广大开发者的喜爱.今天我们一起来聊一聊Redis作者自己提供的集群方案--Clus ...

  7. Self Attention和Multi-Head Attention的原理和实现

    个人博客:http://www.chenjianqu.com/ 原文链接:http://www.chenjianqu.com/show-47.html 引言 使用深度学习做NLP的方法,一般是将单词转 ...

  8. Attention 与Hierarchical Attention Networks 原理

    Attention 与Hierarchical Attention Networks 1. Attention 注意力机制 1.1 什么是Attention? 1.2 加入Attention的动机 1 ...

  9. Attention Is All You Need (transformer)

    Transformer 研究意义: 1.提出了self-attention,拉开了非序列化模型的序幕 2.为预训练模型的到来打下了坚实的基础 序列化模型主导(LSTM) <----- 2017 ...

最新文章

  1. 美工程序员—每个创业公司都在寻找的传奇人物
  2. Apache ZooKeeper - ZooKeeper 数据模型回顾
  3. TCP/IP 总结一
  4. 如何写一个能被手机打开的C语言小程序,如何用C语言中一些简单的语句做一个小程序,能够输入一个字符就会弹出一句话...
  5. 智能雷达物位计说明书_?浅谈人工检尺法和雷达液位计在油罐液位测量中的应用...
  6. python语言发明者 google_谷歌的语言何以战胜Python?50%的人都应该立即学习Golang...
  7. ad域 禁用账号_IST-AD域信息同步平台来袭
  8. java与xml转换 -- XStreamAlias
  9. 云计算机房设备清单报价,射阳县高级中学云计算机房建设预算.doc
  10. 给HTML静态网页设置端口号 安装静态服务器
  11. MES系统生产派工提高注塑行业生产效率
  12. 【数据结构和算法】爆肝三万字你必须知道的20个解决问题的技巧
  13. cpufreq framework
  14. 无线上外网,有线上内网的方式(转)
  15. Day 03-常用 Composition API_拉开序幕的setup()
  16. 计算机领域中的CAE,什么是CAE?
  17. read函数---------详解
  18. java抓取七麦app排行榜单数据 导出excel-20211201
  19. 基于Syntec CNC系统的二次开发介绍(一)
  20. Android自定义View的多点触控

热门文章

  1. stream 流的并发
  2. 拉丁美洲有多少个国家?
  3. 【Unity3D】发射(Raycast)物理射线(Ray)
  4. cydia无法连接网络(cydia无法连接网络锤子)
  5. 这或许是东半球讲十大排序算法最好的一篇文章
  6. 大学计算机专业学科要求,大学各专业选科要求 高校选考科目要求
  7. 2016.9.14小程序---多态练习2
  8. Plato Farm农场经营,如何玩转元宇宙
  9. 解决 Docker 容器时间与本地时间不一致的问题
  10. 度分 格式 转换 GPS 经纬度定义、经纬度格式、GDAL中地理坐标转换及地理坐标屏幕显示