PyTorch深度学习实践 3.梯度下降算法

编程入门 行业动态 更新时间:2024-10-08 22:16:54

PyTorch深度学习实践 3.<a href=https://www.elefans.com/category/jswz/34/1767879.html style=梯度下降算法"/>

PyTorch深度学习实践 3.梯度下降算法

分治法

w1和w2
假设横竖都是64
横竖都分成4份,一共16份。
第一次在这16份里,找出比较小的点,
再来几轮,基本就OK了。
从原来的16x16变成了16+16

贪心法

梯度下降法,局部最优,实际上,大家发现神经网络里并没有很多的局部最优点

鞍点g=0,无法迭代了

import numpy as np
import matplotlib.pyplot as pltxxl=0.01w=1.0# 定义模型
def forward(x):return x*wdef cost(xs,ys):cost=0for x,y in zip(xs,ys):y_prediction=forward(x)cost+=(y_prediction-y)**2return cost/len(xs)def gradient(xs,ys):grad=0for x,y in zip(xs,ys):y_prediction = forward(x)grad+=2 * x * (y_prediction - y)return grad/len(xs)# 定义训练集
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]print('Prediciton(before training)',4,forward(4))for epoch in range(100):cost_val=cost(x_data,y_data)grad=gradient(x_data,y_data)w=w-xxl*gradprint("progress:",epoch,"w=",w,"loss=",cost_val)
print('Prediction(after training)',4,forward(4))

指数加权均值,更平滑

一定要收敛,发散说明失败了,可能是学习率太大


随机梯度下降,可以克服鞍点

项目速度效果(鞍点)
梯度下降快(因为可以并行 xi和xi+1的函数值无关)
随机梯度下降慢(只能串行,因为w与上一个有关)

所以折中
批量随机梯度下降batch
mini-batch stochastic gradient descent

# 随机梯度下降
import numpy as np
import matplotlib.pyplot as pltxxl=0.01w=1.0# 定义模型
def forward(x):return x*wdef Loss_Function(x,y):y_prediction=forward(x)return (y_prediction-y)**2def gradient(x,y):y_prediction = forward(x)return 2 * x *(y_prediction-y)# 定义训练集
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]print('Prediciton(before training)',4,forward(4))for epoch in range(100):for x,y in zip(x_data,y_data):grad=gradient(x,y)w=w-xxl*gradprint('\tgradient:',x,y,grad)l=Loss_Function(x,y)print("progress:",epoch,"w=",w,"loss=",l)
print('Prediction(after training)',4,forward(4))

更多推荐

PyTorch深度学习实践 3.梯度下降算法

本文发布于:2024-02-06 12:21:49,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1749014.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:梯度   算法   深度   PyTorch

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!