完整版)国语李宏毅2020机器学习深度学习(完整版)国语总结"/>
李宏毅2020机器学习深度学习(完整版)国语李宏毅2020机器学习深度学习(完整版)国语总结
李宏毅2020机器学习深度学习
- Gradient Descent
- 误差来源
- 交叉熵的由来
- 过拟合 or欠拟合
- relu在干啥
- Maxout激活函数
- dropout具体计算技巧原理
- why deep
- 为什么LSTM可以解决RNN的梯度消失的问题?
- 解释神经网络技巧
Gradient Descent
为什么是更新方程是wt+1 = wt - η▽?
将输入x当作固定的,本来也是,因为输入的数据集一开始就是固定的,那么将w和b当做变量去优化关于w和b的方程L,要用到偏导,偏导就是可以找到下降最快的方向,也就是当loss固定的时候(x是固定的所以loss的方程是固定的,而w和b是变量),w和b移动然后慢慢找到loss最时候,则我们就求出了最佳的变量w和b,至于为什么是η,
误差来源
bias: bias描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,简单讲,就是在样本上拟合的好不好。要想在bias上表现好,low bias,就得复杂化模型,增加模型的参数,但这样容易过拟合(overfitting),过拟合对应上图是high variance,点很分散。lowbias对应就是点都打在靶心附近,所以瞄的是准的,但手不一定稳。
varience:varience描述的是样本上训练出来的模型在测试集上的表现,要想在variance上表现好,lowvarience,就要简化模型,减少模型的参数,但这样容易欠拟合(unfitting),欠拟合对应上图是high bias,点偏离中心。low variance对应就是点都打的很集中,但不一定是靶心附近,手很稳,但是瞄的不准。
一般我们训练是三图到二图的过程,为了达到一图。
交叉熵的由来
首先我们知道从为什么是sigmoid function知道,σ()括号里面是线性的
L最大的意思是,求一个能够对x1,x2,…xN都能预测准确其类别的那个模型,也就是当x属于类别C1时候其f值为接近1,属于C2时(1-f)接近1,连乘得到L,使得L最大则模型最好,即得到所求模型。
对L变形,求对数,加负号,又二分类,拆分一个式子为0,1分布
整理得到最终化解后的L
而这个式子L就是p和q俩个分布的交叉熵,也就是表示,p和q俩个分布的差距有多大,也就是预测结果分布和实际结果分布之间差距。
过拟合 or欠拟合
过拟合:当在训练集上表现好,在测试集上表现不好
欠拟合:在训练集和测试集上表现都不好
relu在干啥
从图中看可能以为relu就是相当于直接去掉一些节点,网络变为线性的了,实际上随着输入的x不同,去掉的节点不同,所以整体上整个样本来说是非线性的。
Maxout激活函数
dropout具体计算技巧原理
dropout相当于训练了许许多多的出去你设置去掉节点的比例的神经网络,然后将其预测结果平均,但是,实际上你不可能这样计算,因为这样的子网络太多,速度太慢,所以就直接将整个网络的权重乘以(1-p)%,原理如下。
如图所示,直接将整个网络的权重乘以1/2就可以得到结果了。
四个网络之和为(w1x1+w2x2+w1x1+w2x2+0)/4 = 1/2w1x1+1/2w2x2
why deep
从电路设计来说,电路一般是越来越深,而不是越来广,因为深的电路实现相同功能要比广的电路所需的元器件更少。对于神经网络来说,类比,deep比wider需要更少的神经元就可以描述同样的function。
为什么LSTM可以解决RNN的梯度消失的问题?
梯度消失和梯度爆炸示意图
解释神经网络技巧
一、对输入每个特征加入小小的扰动,如果某一个输入特征对输出结果影响较大,则说明该特征比较重要,换做图像上就说这个像素点比较重要。
贴一个灰色方块
二、对某一块进行拿掉或者改动看输出,就知道某块对于机器识别的重要结果的重要程度
三、从结果入手反推
四、用一个可以解释的model模仿不可解释的model
比如线性的模型
比如决策树
更多推荐
李宏毅2020机器学习深度学习(完整版)国语李宏毅2020机器学习深度学习(完整版)国语总结
发布评论