主要内容

  • 论文内容
    • 原有模型的问题(Issues in Seq2Seq/RNN)
    • 模型架构(Architecture)
    • 模型解决的问题
      • 凸包问题(convex hull problem)
      • 德劳内三角剖分(Delaunay)
      • 旅行推销员问题(Travelling Salesman Problem)
      • 训练过程

论文内容

原有模型的问题(Issues in Seq2Seq/RNN)

传统的Seq2Seq结构或是单RNN的结构在不少领域都取得了SOTA效果,但这些结构都有一个特性,就是输出的词典大小是我们预设好的。无法应对变长的词典。很多问题都会使用变长的词典,例如本文中提到的三个组合优化问题,均要求我们从给定的输入找到答案。而每一次输入的数据都是有变化的。
本文提出的结构能够有效解决这个问题。并且在遇到超过训练样本最大长度的新数据时,也具备良好的泛化能力。

模型架构(Architecture)

从架构上来看,模型与传统的Seq2Seq是一样的,唯一的区别在于Attention机制的应用。
原文用AddictiveAttention做例子,原本attention机制是对于encoder的每一个时间步计算一个权重。然后将每一步的隐状态做加权求和,然后与decoder的隐状态拼接,作为下一步decoder的输入。
而在本文中,attention机制中计算的权重作为“指针”使用,实际上也就是输出了一个关于encoder每一个位置的分布。然后根据分布直接从输入序列中拿对应的词汇作为输入。
原文中形式化的描述:
假设输入序列为 P P P, v v v为Addictive attention中对齐模型的隐状态,encoder的隐状态为 ( e 1 , e 2 , e 3 . . . . . . e n ) (e_1,e_2,e_3......e_n) (e1​,e2​,e3​......en​),decoder的隐状态为 ( d 1 , d 2 , d 3 . . . . . . d m ( p ) ) (d_1,d_2,d_3......d_{m(p)}) (d1​,d2​,d3​......dm(p)​)
Addictive attention:

u j i = v T t a n h ( W 1 e j + W 2 d i ) {u_j}^i = v^Ttanh(W_1e_j+W_2d_i) uj​i=vTtanh(W1​ej​+W2​di​)其中 j ∈ ( 1 , 2 , 3...... n ) j\in(1,2,3......n) j∈(1,2,3......n)

a j = s o f t m a x ( u j i ) a_j = softmax({u_j}^i) aj​=softmax(uj​i)

d i ′ = ∑ i = 1 n a i e i {d_i}^{'}=\sum_{i\;=\;1}^na_ie_i di​′=∑i=1n​ai​ei​

ptr-net:

u j i = v T t a n h ( W 1 e j + W 2 d i ) {u_j}^i = v^Ttanh(W_1e_j+W_2d_i) uj​i=vTtanh(W1​ej​+W2​di​)其中 j ∈ ( 1 , 2 , 3...... n ) j\in(1,2,3......n) j∈(1,2,3......n)

p ( c i ∣ c 1 , c 2 , c 3 . . . . . . c i − 1 ) = s o f t m a x ( u i ) p(c_i\vert c_1,c_2,c_3......c_{i-1})\;=\;softmax(u^i) p(ci​∣c1​,c2​,c3​......ci−1​)=softmax(ui)

可以看到,条件概率用attention中的权重来表示。这也是ptr-net最大的特点。

模型解决的问题

原文中提到,这个模型可以用来求一些组合优化问题的近似解。训练过程使用了三种类型问题的样本。
以下问题的描述均来自百度。

凸包问题(convex hull problem)

凸包(convex hull):凸包是一个计算几何(图形学)中的概念。
在一个实数向量空间 V V V中,对于给定集合 X X X,所有包含 X X X的凸集的交集 S S S被称为 X X X的凸包。 X X X的凸包可以用 X X X内所有点( x 1 x_1 x1​,… x n x_n xn​)的凸组合来构造.
在二维欧几里得空间中,凸包可想象为一条刚好包著所有点的橡皮圈。
用不严谨的话来讲,给定二维平面上的点集,凸包就是将最外层的点连接起来构成的凸多边形,它能包含点集中所有的点。

德劳内三角剖分(Delaunay)

三角剖分的定义:假设 V V V是二维实数域上的有限点集,边 e e e是由点集中的点作为端点构成的封闭线段, E E E为 e e e的集合。那么该点集 V V V的一个三角剖分 T T T=( V V V, E E E)是一个平面图 G G G,该平面图满足条件:
1.除了端点,平面图中的边不包含点集中的任何点。
2.没有相交边。
3.平面图中所有的面都是三角面,且所有三角面的合集是散点集 V V V的凸包。

Delaunay边:假设 E E E中的一条边 e e e(两个端点为 a a a, b b b) e e e若满足下列条件,则称之为Delaunay边:
存在一个圆经过 a a a b b b两点,圆内(注意是圆内,圆上最多三点共圆)不含点集 V V V中任何其他的点,这一特性又称空圆特性。

Delaunay三角剖分:如果点集 V V V的一个三角剖分 T T T只包含Delaunay边,那么该三角剖分称为Delaunay三角剖分。

旅行推销员问题(Travelling Salesman Problem)

TSP:给定一个包含n个点的完全图,每条边都有一个长度,求总长度最短的且每个顶点仅经过一次的封闭回路。

训练过程

总体来说,就是将点集送至encoder,然后decoder输出指针,指向输入序列中的对应点。

有一些训练中的trick:
1、输入点按照顺时针方向输入。
2、在三角剖分问题中,每个三角形的顶点按照升序排列。

阅读笔记 - Pointer Network相关推荐

  1. LiDAR-based Panoptic Segmentation via Dynamic Shifting Network(论文阅读笔记)

    LiDAR-based Panoptic Segmentation via Dynamic Shifting Network(论文阅读笔记) 环形扫描骨干网络.动态漂移.一致性驱动的融合 一.重点内容 ...

  2. Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记

    Sentiment Classification towards Question-Answering with Hierarchical Matching Network 论文阅读笔记 这篇论文介绍 ...

  3. 【论文阅读笔记】MFRDet:A single-shot multi-level feature reused neural network for object detection

    论文名:A single-shot multi-level feature reused neural network for object detection 引用:Wei L, Cui W, Hu ...

  4. Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud Detection阅读笔记

    Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud Detection阅读笔记 文章标题:A ...

  5. 《Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network》阅读笔记(二)

    <Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network>阅读笔记–翻译 ...

  6. 论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering,SENet,用于大规模子空间聚类的自表达网络

    论文阅读笔记(2):Learning a Self-Expressive Network for Subspace Clustering. SENet--用于大规模子空间聚类的自表达网络 前言 摘要 ...

  7. 毫米波目标检测论文 阅读笔记 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar

    毫米波目标检测论文 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar Jie Ba ...

  8. 指针网络(Pointer network)--学习笔记

    一种能够生成 可变大小输出序列 的神经网络架构. 指针网络输出序列的长度取决于输入序列, 这解决了传统序列到序列 (seq2seq) 模型必须固定序列长度的限制. 传统seq2seq:使用输入序列的固 ...

  9. 【异构图笔记,篇章3】GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding

    [异构图笔记,篇章3]GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding 上期回顾 论文信息概览 论 ...

最新文章

  1. Android按钮事件的4种写法
  2. MVC中实现 加载更多...
  3. LeetCode第155题 最小栈
  4. 零基础如何学习Java?你要注意的8件事
  5. OpenCV中LUT函数的使用
  6. 如何编写兼容各主流邮箱的HTML邮件并发送
  7. SilverLight4.0数据验证IDataErrorInfo, INotifyDataErrorInfo[转]
  8. 江南大学物联网工程学院数据库课程实验二作业2实验报告
  9. mysql vfp_vfp+mysql问题|交流区 - 梅子Visual FoxPro 编程 - Powered by phpwind
  10. 前端学习(172):格式化文本
  11. Luogu P2066 机器分配(dp)
  12. 文件服务器配件,文件服务器 硬件配置
  13. CSS定位规则之BFC
  14. 【测试沉思录】3. 如何测试微信公众号?
  15. mt6735 [AT Command] AP下发AT+CLAC命令后 ,手机出现宕机
  16. 银行账户管理(Bank Account Management)
  17. LSF Command
  18. 利用Eigen库实现最小二乘拟合平面
  19. 汉诺塔(Hanoi Tower)
  20. http:网易云音乐

热门文章

  1. python模拟简单充值系统_【自编】使用Python实现Dayz 玩家银行充值自动到账
  2. 趣味题_蚂蚁爬杆_猴子分桃
  3. 必须了解的确保光纤跳线品质的五大测试!
  4. GSL中的BLAS支持
  5. iOS多分辨率适配综述
  6. c语言题目关于欧姆定律,(欧姆定律试题大全含答案.doc
  7. 背包问题《阿里巴巴与四十个大盗》
  8. 在19计算机考研炸掉的情况下,21计算机考研的难度会很大吗?
  9. 手机端访问PC端网站判断识别跳转至手机端页面代码集锦
  10. 如何使用代理IP进行数据采集,PHP爬虫抓取亚马逊商品数据