简介

gelu就是高斯误差线性单元,这种激活函数在激活中加入了随机正则的思想,是一种对神经元输入的概率描述。为了方便记忆,这里做简要的笔记。汇总有:Identity、Sigmoid、TanH、Softmax、Softsign、Softplus、ReLU、Leaky ReLU、Randomized ReLU、SELU、GELU。其中在推荐系统的lightGCN中取消使用非线性激活函数。

图像特征

(1)Identity图像
图像接近y=x,导数稳定可用于线性激活。

(2)Sigmoid图像


优点:便于求导,能将数据幅度控制在0到1之间,适合前向传播。

缺点:从图中可以看出,接近饱和时,容易出现梯度为0的现象。另外梯度更新单调,且幂运算较为耗时。

(3) TanH图像


优点:压缩了输出的幅度,且以0为中心,可以从图像看出输出均值为0。

缺点: 梯度消失问题,幂运算。

(4) Softmax图像


 优点:指数形式可以方法差距,关于指数求导较方便,输出为归一化值,可用于表示概率行为。

缺点:幂运算较为复杂,且容易发生数值溢出,需要进行处理。

(5)Softsign图像


与tanh类似,但饱和速度更慢,比tanh效果更好。

(6)ReLU 图像


优点:ReLU的平滑化,避免了梯度消失,计算快,收敛快。

缺点:由于许多参数被搁置,导致无法更多的发挥模型的实际能力,即模型部分参数是意义不大的。

(7)Softplus图像


优点:ReLU的平滑化,避免了梯度消失,计算快,收敛快

缺点:与ReLU类似

(8)Leaky ReLU图像

为了解决dead ReLU现象。用一个类似0.01的小值来初始化神经元,从而使得ReLU在负数区域更偏向于激活而不是死掉。这里的斜率都是确定的。        ​​​​​​​
与 ReLu 相比 ,leak 给所有负值赋予一个非零斜率,保留了负值信息。

(9) Randomized ReLU图像


这里关于负值的处理是使用随机的均匀分布来保留负值信息。

(10)SELU图像

SELU将隐藏层的输出数据自动分为均值为0方差为1。

(11)GELU图像

GELU可以看作 dropout的思想和relu的结合,,主要是为激活函数引入了随机性使得模型训练过程更加鲁棒。 我第一次使用gelu是在transformer的任务当中,效果相比于relu及其变体有一定改进。

参考:

关于gelu - 知乎

深度学习相关面经(Deprecated) - 知乎

Gelu论文:https://arxiv.org/pdf/1606.08415.pdf

推荐系统笔记(十二):常用激活函数gelu、swish等相关推荐

  1. Bootstrap笔记(十二) 常用類別 - 色彩

    常用類別 - 色彩 文字色彩 背景色彩 文字色彩 Bootstrap提供以下類別用來設定文字色彩 : 範例: 文字色彩 不同的文字色彩類別會呈現不同的文字色彩,其中最後一行在 .text-black ...

  2. Python语言入门这一篇就够了-学习笔记(十二万字)

    Python语言入门这一篇就够了-学习笔记(十二万字) 友情提示:先关注收藏,再查看,12万字保姆级 Python语言从入门到精通教程. 文章目录 Python语言入门这一篇就够了-学习笔记(十二万字 ...

  3. 吴恩达《机器学习》学习笔记十二——机器学习系统

    吴恩达<机器学习>学习笔记十二--机器学习系统 一.设计机器学习系统的思想 1.快速实现+绘制学习曲线--寻找重点优化的方向 2.误差分析 3.数值估计 二.偏斜类问题(类别不均衡) 三. ...

  4. ROS学习笔记十二:使用roswtf

    ROS学习笔记十二:使用roswtf 在使用ROS过程中,roswtf工具可以为我们提供ROS系统是否正常工作的检查作用. 注意:在进行下列操作之前,请确保roscore没有运行. 检查ROS是否安装 ...

  5. 《C++游戏开发》笔记十二 战争迷雾:初步实现

    本系列文章由七十一雾央编写,转载请注明出处. http://blog.csdn.net/u011371356/article/details/9475979 作者:七十一雾央 新浪微博:http:// ...

  6. 【Visual C++】游戏开发笔记十二 游戏输入消息处理(一) 键盘消息处理

    相信大家都熟悉<仙剑奇侠传98柔情版>的人机交互方式,用的仅仅是键盘.在那个物质并不充裕的时代,一台配置并不高的电脑,一款名叫<仙剑奇侠传>的游戏,却能承载一代人对梦想的追逐. ...

  7. 推荐系统(十二)阿里深度兴趣网络(二):DIEN模型(Deep Interest Evolution Network)

    推荐系统(十二)阿里深度兴趣网络(二):DIEN模型(Deep Interest Evolution Network) 推荐系统系列博客: 推荐系统(一)推荐系统整体概览 推荐系统(二)GBDT+LR ...

  8. 强化学习经典算法笔记(十二):近端策略优化算法(PPO)实现,基于A2C(下)

    强化学习经典算法笔记(十二):近端策略优化算法(PPO)实现,基于A2C 本篇实现一个基于A2C框架的PPO算法,应用于连续动作空间任务. import torch import torch.nn a ...

  9. Polyworks脚本开发学习笔记(十二)-输出和读取文本文件

    Polyworks脚本开发学习笔记(十二)-输出和读取文本文件 Polyworks作为一个测量工具,将测量的数据方便的导出到文本文件则是一项必须的功能.在DATA_FILE这个命令下提供了很多子命令用 ...

  10. OpenCV学习笔记(十二)——图像分割与提取

    在图像处理的过程中,经常需要从图像中将前景对象作为目标图像分割或者提取出来.例如,在视频监控中,观测到的是固定背景下的视频内容,而我们对背景本身并无兴趣,感兴趣的是背景中出现的车辆.行人或者其他对象. ...

最新文章

  1. SpringBoot 概念和起步
  2. Node.js session 存储的几种方法
  3. 如何删除输入文本元素上的边框突出显示
  4. python算法书推荐-你也能看得懂的Python算法书
  5. python实现自动打电话软件_全自动手势联系软件 让你轻轻松松打电话
  6. 入门机器学习(二十)--编程作业-异常检测和推荐系统(Python实现)
  7. 微信网页开发 thinkphp5.0的try-catch和重定向
  8. (day 47 - 位运算 ) 剑指 Offer 65. 不用加减乘除做加法
  9. tcp云服务器连接,云服务器可以tcp通讯吗
  10. 微机原理及应用简答题复习
  11. php 银行卡二三四要素验证接口
  12. 超声成像Matlab源码
  13. 简单介绍谷歌关键词扩展工具
  14. 隔空开车,华为云EI圆我“武侠梦”
  15. 教师管理系统代码html,江苏省教职工信息管理系统:https://www.jste.net.cn/cmsplus/index.html...
  16. 【Rust日报】2021-09-05 perseus:完全支持 SSR 和 SSG 的 Rust 高端前端开发框架
  17. zz麦考林(M18.com)多渠道狂奔
  18. 分布式系统限流策略/秒杀系统限流设计
  19. 单片机电子时钟的设计(期末课程设计)
  20. conda环境opencv报错cv2.error:

热门文章

  1. python计算点到直线的距离_Python求平面内点到直线距离的实现
  2. 这是一个知识更新速度不断加快的时代,在线学习平台成新趋势
  3. 2001年的台式计算机,请教一下电脑的配置
  4. 《思考的技术》读后感思维导图
  5. 【车载以太网】【XCP】标准协议解读(一)
  6. angular 清空数组的方式
  7. 不死传奇——纪念传奇巨星张国荣特刊
  8. google开源gumbo-parser系列
  9. 【Hive】Hive 创建表
  10. 小米2手机没信号无服务器,小米手机无服务怎么办 小米手机无服务解决方法【图文】...