推荐系统笔记(十二):常用激活函数gelu、swish等
简介
gelu就是高斯误差线性单元,这种激活函数在激活中加入了随机正则的思想,是一种对神经元输入的概率描述。为了方便记忆,这里做简要的笔记。汇总有:Identity、Sigmoid、TanH、Softmax、Softsign、Softplus、ReLU、Leaky ReLU、Randomized ReLU、SELU、GELU。其中在推荐系统的lightGCN中取消使用非线性激活函数。
图像特征
(1)Identity图像
图像接近y=x,导数稳定可用于线性激活。
(2)Sigmoid图像
优点:便于求导,能将数据幅度控制在0到1之间,适合前向传播。
缺点:从图中可以看出,接近饱和时,容易出现梯度为0的现象。另外梯度更新单调,且幂运算较为耗时。
(3) TanH图像
优点:压缩了输出的幅度,且以0为中心,可以从图像看出输出均值为0。
缺点: 梯度消失问题,幂运算。
(4) Softmax图像
优点:指数形式可以方法差距,关于指数求导较方便,输出为归一化值,可用于表示概率行为。
缺点:幂运算较为复杂,且容易发生数值溢出,需要进行处理。
(5)Softsign图像
与tanh类似,但饱和速度更慢,比tanh效果更好。
(6)ReLU 图像
优点:ReLU的平滑化,避免了梯度消失,计算快,收敛快。
缺点:由于许多参数被搁置,导致无法更多的发挥模型的实际能力,即模型部分参数是意义不大的。
(7)Softplus图像
优点:ReLU的平滑化,避免了梯度消失,计算快,收敛快
缺点:与ReLU类似
(8)Leaky ReLU图像
为了解决dead ReLU现象。用一个类似0.01的小值来初始化神经元,从而使得ReLU在负数区域更偏向于激活而不是死掉。这里的斜率都是确定的。
与 ReLu 相比 ,leak 给所有负值赋予一个非零斜率,保留了负值信息。
(9) Randomized ReLU图像
这里关于负值的处理是使用随机的均匀分布来保留负值信息。
(10)SELU图像
SELU将隐藏层的输出数据自动分为均值为0方差为1。
(11)GELU图像
GELU可以看作 dropout的思想和relu的结合,,主要是为激活函数引入了随机性使得模型训练过程更加鲁棒。 我第一次使用gelu是在transformer的任务当中,效果相比于relu及其变体有一定改进。
参考:
关于gelu - 知乎
深度学习相关面经(Deprecated) - 知乎
Gelu论文:https://arxiv.org/pdf/1606.08415.pdf
推荐系统笔记(十二):常用激活函数gelu、swish等相关推荐
- Bootstrap笔记(十二) 常用類別 - 色彩
常用類別 - 色彩 文字色彩 背景色彩 文字色彩 Bootstrap提供以下類別用來設定文字色彩 : 範例: 文字色彩 不同的文字色彩類別會呈現不同的文字色彩,其中最後一行在 .text-black ...
- Python语言入门这一篇就够了-学习笔记(十二万字)
Python语言入门这一篇就够了-学习笔记(十二万字) 友情提示:先关注收藏,再查看,12万字保姆级 Python语言从入门到精通教程. 文章目录 Python语言入门这一篇就够了-学习笔记(十二万字 ...
- 吴恩达《机器学习》学习笔记十二——机器学习系统
吴恩达<机器学习>学习笔记十二--机器学习系统 一.设计机器学习系统的思想 1.快速实现+绘制学习曲线--寻找重点优化的方向 2.误差分析 3.数值估计 二.偏斜类问题(类别不均衡) 三. ...
- ROS学习笔记十二:使用roswtf
ROS学习笔记十二:使用roswtf 在使用ROS过程中,roswtf工具可以为我们提供ROS系统是否正常工作的检查作用. 注意:在进行下列操作之前,请确保roscore没有运行. 检查ROS是否安装 ...
- 《C++游戏开发》笔记十二 战争迷雾:初步实现
本系列文章由七十一雾央编写,转载请注明出处. http://blog.csdn.net/u011371356/article/details/9475979 作者:七十一雾央 新浪微博:http:// ...
- 【Visual C++】游戏开发笔记十二 游戏输入消息处理(一) 键盘消息处理
相信大家都熟悉<仙剑奇侠传98柔情版>的人机交互方式,用的仅仅是键盘.在那个物质并不充裕的时代,一台配置并不高的电脑,一款名叫<仙剑奇侠传>的游戏,却能承载一代人对梦想的追逐. ...
- 推荐系统(十二)阿里深度兴趣网络(二):DIEN模型(Deep Interest Evolution Network)
推荐系统(十二)阿里深度兴趣网络(二):DIEN模型(Deep Interest Evolution Network) 推荐系统系列博客: 推荐系统(一)推荐系统整体概览 推荐系统(二)GBDT+LR ...
- 强化学习经典算法笔记(十二):近端策略优化算法(PPO)实现,基于A2C(下)
强化学习经典算法笔记(十二):近端策略优化算法(PPO)实现,基于A2C 本篇实现一个基于A2C框架的PPO算法,应用于连续动作空间任务. import torch import torch.nn a ...
- Polyworks脚本开发学习笔记(十二)-输出和读取文本文件
Polyworks脚本开发学习笔记(十二)-输出和读取文本文件 Polyworks作为一个测量工具,将测量的数据方便的导出到文本文件则是一项必须的功能.在DATA_FILE这个命令下提供了很多子命令用 ...
- OpenCV学习笔记(十二)——图像分割与提取
在图像处理的过程中,经常需要从图像中将前景对象作为目标图像分割或者提取出来.例如,在视频监控中,观测到的是固定背景下的视频内容,而我们对背景本身并无兴趣,感兴趣的是背景中出现的车辆.行人或者其他对象. ...
最新文章
- SpringBoot 概念和起步
- Node.js session 存储的几种方法
- 如何删除输入文本元素上的边框突出显示
- python算法书推荐-你也能看得懂的Python算法书
- python实现自动打电话软件_全自动手势联系软件 让你轻轻松松打电话
- 入门机器学习(二十)--编程作业-异常检测和推荐系统(Python实现)
- 微信网页开发 thinkphp5.0的try-catch和重定向
- (day 47 - 位运算 ) 剑指 Offer 65. 不用加减乘除做加法
- tcp云服务器连接,云服务器可以tcp通讯吗
- 微机原理及应用简答题复习
- php 银行卡二三四要素验证接口
- 超声成像Matlab源码
- 简单介绍谷歌关键词扩展工具
- 隔空开车,华为云EI圆我“武侠梦”
- 教师管理系统代码html,江苏省教职工信息管理系统:https://www.jste.net.cn/cmsplus/index.html...
- 【Rust日报】2021-09-05 perseus:完全支持 SSR 和 SSG 的 Rust 高端前端开发框架
- zz麦考林(M18.com)多渠道狂奔
- 分布式系统限流策略/秒杀系统限流设计
- 单片机电子时钟的设计(期末课程设计)
- conda环境opencv报错cv2.error: