梯度下降 - BGD SGD MBGD PyTorch

文章目录

一般梯度下降方法
- 批量梯度下降(BGDBGDBGD)
- 随机梯度下降(SGD)(SGD)(SGD)
- 小批量梯度下降(MBGD)(MBGD)(MBGD)
PyTorch梯度下降方法

一般梯度下降方法

损失函数(Lossfunction)(Loss\ function)(Loss function)：计算的是一个样本的误差;
- 示例 (ypred−y)2(y_{pred}-y)^2(ypred−y)2
代价函数(Costfunction)(Cost\ function)(Cost function)：计算的是训练集所有样本误差的平均值
- 示例 1N∑(ypred−y)2\frac{1}{N}\sum(y_{pred}-y)^2N1∑(ypred−y)2

批量梯度下降(BGDBGDBGD)

w=w−α∂cost∂ww = w - \alpha \dfrac{\partial cost}{\partial w} w=w−α∂w∂cost

∂cost∂w=1N2w(xw−y);ypred=xw时\dfrac{\partial cost}{\partial w} = \frac{1}{N}2w(xw-y);\ \ \ \ \ \ y_{pred} = xw时 ∂w∂cost=N12w(xw−y); ypred=xw时

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]w = 1 # 初始值def forward(x): # 模型return x * wdef cost(xs, ys): # MSEcost = 0for x, y in zip(xs, ys):y_pred = forward(x)cost += (y_pred-y)**2return cost/len(xs)def gradient(xs, ys): # 计算梯度grad = 0for x,y in zip(xs,ys):grad += 2*x*(x*w-y)return grad/len(xs)print('Predict (before training)', 4, forward(4))for epoch in range(100): # 下降次数cost_val = cost(x_data, y_data)grad_val = gradient(x_data, y_data)w -= 0.01 * grad_val # 梯度下降print('Epoch:',epoch,'w=',w,'cost=',cost_val)
print('Predict (after training)',4,forward(4))

优点：每次都会朝着正确的方向进行，最终保证收敛到极值点
缺点：每次需用所有样本，更新速度慢

随机梯度下降(SGD)(SGD)(SGD)

w=w−∂loss∂ww = w - \frac{\partial loss}{\partial w} w=w−∂w∂loss

∂loss∂w=2w(xw−y);ypred=xw时\dfrac{\partial loss}{\partial w} = 2w(xw-y);\ \ \ \ \ \ y_{pred} = xw时 ∂w∂loss=2w(xw−y); ypred=xw时

import random
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]w = 1 # 初始值def forward(x): # 模型return x * wdef loss(x, y):y_pred = forward(x)return (y_pred - y) ** 2def gradient(x, y): # 计算梯度y_pred = forward(x)return 2*w*(y_pred - y)print('Predict (before training)', 4, forward(4))for epoch in range(100): # 下降轮数for x, y in zip(x_data, y_data):loss_val = loss(x, y)grad_val = gradient(x, y)w -= 0.01 * grad_val # 梯度下降print('Epoch:',epoch,'w=',w,'loss=',loss_val)
print('Predict (after training)',4,forward(4))

每次考虑一个样本点，更新速度快
每次更新可能不会按照正确的方向进行，可能有扰动。
扰动也有好处，有可能从一个局部极小值跳到另一个局部极小值

小批量梯度下降(MBGD)(MBGD)(MBGD)

二者折中
小批量随机梯度下降是深度学习默认的求解算法；
其具备两个重要的超参数：批量大小和学习率；

PyTorch梯度下降方法

核心：省去梯度函数，利用tensor中的grad即可得到所需梯度∂loss∂w\frac{\partial loss}{\partial w}∂w∂loss。

import torchx_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]w =  torch.Tensor([1.0]) # 默认不带有梯度
w.requires_grad = True # 使w张量具有梯度def forward(x):return x * w # 返回值含有梯度# 此处乘法运算符被重载，可用于Tensor的计算def loss(x, y): # 一个样本的lossy_pred = forward(x)return (y_pred-y) ** 2 # 返回值含有梯度print('Predict (before training)', 4, forward(4).item()) # item()是将Tensor中的grad计算值转换成一个标量for epoch in range(100): # 梯度下降次数for x,y in zip(x_data, y_data): # 要全部遍历一遍啊l = loss(x,y) # 前向传播; 前馈的过程就是建立计算图的过程；l.backward() # 反向传播; 求出了所有需要的梯度; 反向传播之后计算图就被释放print('\tgrad:', x, y, w.grad.item())# 构建时用Tensor，权重更新时用.dataw.data -= 0.01 * w.grad.data# 引入PyTorch的grad自动求每个样本时的梯度print('w.grad.item() ',w.grad.item())print('w.grad.data ',w.grad.data)w.grad.data.zero_() # 将本轮计算的grad清零，否则默认是dL/dw累加至下一轮print('process:', epoch, l.item())print('Predict (after training)',4,forward(4).item())