Sparsemax封闭形式解及其损失函数的推导

本文目标是三个方面。第一部分讨论了sparsemax背后的动机及其与softmax的关系,首次介绍了该激活函数的原始研究论文摘要,以及使用sparsemax的优点概述。第二部分和第三部分专门讨论数学推导,具体地找到闭合形式的解以及适当的损失函数。

1.Sparsemax概述

Martins等人通过论文《From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification》引入Sparsemax,提出了一种替代众所周知的softmax激活函数的新方法

虽然softmax是输出在K个概率上归一化的概率分布的多类分类的适当选择,但在许多任务中,我们希望获得一个更稀疏的输出。Martins引入了一个新的激活函数sparsemax,该函数输出多项式分布的稀疏概率,因此从分布的质量中滤除了噪声。

这意味着sparsemax将为某些类分配恰好为0的概率,而softmax会保留这些类并为它们分配非常小的值,如10-3。在大型分类问题中,稀疏最大值可能特别有利;例如在自然语言处理(NLP)任务中,其中softmax层正在非常大的词汇集上进行多项分布建模。

但是,实际上,将softmax函数更改为稀疏估计器并不是一件容易的事。在保持softmax的一些基本属性的同时获得这种转换(例如,易于评估,易于微分并容易转换为凸损失函数)变得非常具有挑战性。

机器学习中解决该问题的传统方法是使用L1惩罚,该惩罚在神经网络中的输入变量和/或深层方面允许一定程度的稀疏性。虽然这种方法相对简单,但是L1惩罚会影响神经网络的权重,而不是作为稀疏概率的目标输出

因此,论文作者认识到需要补充激活功能, sparsemax,他们将其公式化为可解决的二次问题,并在一组约束条件下找到一个解决方案,以获得与softmax类似的性质。

在深入研究sparsemax实现背后的证据之前,让我们首先讨论论文中的一些重要的高级发现。以下要点总结了一些主要内容:

Sparsemax是分段线性激活函数

尽管softmax形状等效于传统的S型函数,但Sparsemax在一个维度上却是"硬"的S型。此外,在两个维度上,sparsemax是具有整个饱和区域(0或1)的分段线性函数。这是论文中的图表,可帮助可视化softmax和sparsemax。

softmax函数_数学证明深度学习激活函数从Softmax到Sparsemax相关推荐

  1. 深度学习激活函数总结(sigmoid,tanh,ReLU,Leaky ReLU,EReLU,PReLU,Softmax,Swish,Maxout,Softplus)

    摘要 本文总结了深度学习领域最常见的10中激活函数(sigmoid.Tanh.ReLU.Leaky ReLU.ELU.PReLU.Softmax.Swith.Maxout.Softplus)及其优缺点 ...

  2. softmax函数_干货 | 浅谈 Softmax 函数

    点击上方"视学算法",马上关注 来自 | 知乎 作者 | LinT链接丨https://zhuanlan.zhihu.com/p/79585726编辑 | 深度学习这件小事公众号仅 ...

  3. 深度学习激活函数可视化:tanh与relu的比较

    深度学习激活函数可视化:tanh与relu的比较 激活函数是神经网络中非常重要的组成部分,它可以将输入值映射到输出值,并为网络提供非线性性.其中,tanh和relu是两种常用的激活函数,它们在神经网络 ...

  4. 机器学习中的数学 人工智能深度学习技术丛书

    作者:孙博 著 出版社:中国水利水电出版社 品牌:智博尚书 出版时间:2019-11-01 机器学习中的数学 人工智能深度学习技术丛书 ISBN:9787517077190

  5. 深度学习激活函数中的线性整流函数ReLU及其变种

    线性整流函数ReLU         线性整流函数(Rectified Linear Unit, ReLU),又称修正线性单元, 是一种人工神经网络中常用的激活函数(activation functi ...

  6. 函数求值需要运行所有线程_精读《深度学习 - 函数式之美》

    1 引言 函数式语言在深度学习领域应用很广泛,因为函数式与深度学习模型的契合度很高,The Beauty of Functional Languages in Deep Learning - Cloj ...

  7. python图像分类代码_医学图像 | 使用深度学习实现乳腺癌分类(附python演练)

    乳腺癌是全球第二常见的女性癌症.2012年,它占所有新癌症病例的12%,占所有女性癌症病例的25%. 当乳腺细胞生长失控时,乳腺癌就开始了.这些细胞通常形成一个肿瘤,通常可以在x光片上直接看到或感觉到 ...

  8. 基于深度学习的病理_组织病理学的深度学习(第二部分)

    基于深度学习的病理 计算机视觉/深度学习/医学影像 (COMPUTER VISION/ DEEP LEARNING/ MEDICAL IMAGING) In the last part, we sta ...

  9. python书籍读后感_《Python深度学习》读书记录

    提前声明:以下内容是本人读<Python深度学习>的个人笔记 第一部分:基础 数据存储在多维 Numpy 数组中,也叫张量(tensor) 仅包含一个数字的张量叫作标量(scalar,也叫 ...

最新文章

  1. 多人开发情况下的字符串本地化
  2. hdu 携程全球数据中心建设 (球面距离 + 最小生成树)
  3. eclipse使用tomcat进行部署时编译代码不一致的处理
  4. 查阅文献时向原作者发邮件要文献的简单模板
  5. Unity3D——C#编译到运行的过程分析
  6. HihoCoder - 1879 Rikka with Triangles(极角排序求所有锐角三角形的面积)
  7. [转] getBoundingClientRect判断元素是否可见
  8. 瑞幸咖啡恢复交易 股价大跌35.76%
  9. Android花屏分析,Unity游戏在手机上运行时的花屏现象
  10. Mybatis注解配置与xml配置不能同时使用
  11. php和数据库的永久链接,php – WordPress永久链接,包括名称和ID,但仅考虑ID
  12. [Music]乡村摇滚:Any man of mine
  13. Altium Designer 18安装教程
  14. 解决Python print 输出文本显示 gbk 编码错误问题
  15. 总线外设基础1——i2s,i2c,uart,spi,touchpanel,lcd
  16. 【算法】基于AOE网的关键路径算法
  17. ajax背景,ajax到底是什么?ajax的背景和使用介绍(附实例解析)
  18. 数字取证wireshark流量分析
  19. QT隐藏标题栏和背景
  20. z-index取值范围

热门文章

  1. 台风怎么看内存颗粒_生态板、密度板、颗粒板各有好处,看你怎么用了!
  2. 环形动画加载视图AnimatedCircleLoadingView
  3. android getitem,android – ItemDecoration重写getItemOffsets()和动画
  4. dede/archives_do.php,dedecms后台编辑文章时archives_do.php显示空白解决办法
  5. requests payload_python+Requests接口自动化测试之传递 URL 参数
  6. css如何设置图转30度,使用CSS实现左右30度的摆钟
  7. keepalive+nginx实现负载均衡高可用_超详细的LVS+keepalived+nginx实现高性能高可用负载均衡集群教程...
  8. centos7 安装 mysql rpm_CentOS7使用rpm安装MySQL8
  9. unity 编辑器存档_Unity教程 | 自制简易的游戏存档系统
  10. seaborn系列 (15) | 双变量关系图jointplot()