07 神经网络整体架构

编程入门行业动态更新时间:2024-10-12 05:49:10

07 <a href=https://www.elefans.com/category/jswz/34/1769690.html style= 神经网络整体架构"/>

07 神经网络整体架构

神经网络整体架构

我们先看看神经网络是什么样子的，如下图。

可以说神经网络是一个层次的结构，有一个输入层，隐层 1，隐层 2 和输出层。可以说是由多个层组成了一个完整的神经网络。输入层相当于输入的 x x x，比如说现在的输入有 3 个像素点 x 1 x_1 x1， x 2 x_2 x2， x 3 x_3 x3。

中间两个层具体的元素很多参考资料中将它们称做神经元，其实神经元是不存在的。那么中间层里面的元素的是什么呢？其实就是权重参数的计算结果。比如说， x 1 x1 x1 是和这些带箭头的线相连的，没有这些线，是到不了隐层 1 的节点的。所以这些线非常重要，我们把与输入层相连接的线表示为第一层的权重系数 W 1 W_1 W1， W 1 W_1 W1 左边连接的是 x x x，右边连接的是隐层 1，所以 W 1 W_1 W1 在这个例子中其实就是一个 3 x 4 的矩阵。

而且我们首先需要定义好隐层是有多大？或者说是有多少个神经元？那么这个神经元其实就相当于权重参数当中的一个部分。 W 1 W_1 W1 相当于把输入层和隐层 1 连接起来。那么后续做了什么操作呢？第一个隐层和第二个隐层之间又通过很多线相连，那么我们将这两层之间的直线定义为 W 2 W_2 W2，同理，隐层 2 和输出层之间通过 W 3 W_3 W3 相连。

之前说过，一个得分函数为 W ∗ x W*x W∗x。那么对于神经网络来说，它的得分函数就是 W 1 ∗ x 1 W_1*x_1 W1∗x1 得到一个中间结果，然后用 W 2 W_2 W2 乘以中间结果 W 1 ∗ x 1 W_1*x_1 W1∗x1，又得到一个中间结果 W 2 ( W 1 ∗ x 1 ) W_2(W_1*x_1) W2(W1∗x1)，然后再用 W 3 W_3 W3 乘以中间结果 W 2 ( W 1 ∗ x 1 ) W_2(W_1*x_1) W2(W1∗x1)，得到最后输出结果 W 3 ( W 2 ( W 1 ∗ x 1 ) ) W_3(W_2(W_1*x_1)) W3(W2(W1∗x1))。

通过上面的计算过程可以得出，其实神经网络是由这些权重参数的一个组合最终得出输出值。那么对于这个神经网络模型来说，我们需要指定哪些参数呢？有些参数是必须要指定的，比如 W 1 W_1 W1， W 2 W_2 W2 和 W 3 W_3 W3 它们的 shape 分别是多大，即 W 1 W_1 W1 前面连多大，后面连多大，这些是必须要指定出来的。

那么可能你会有这样的疑问？其实 W ∗ x W*x W∗x 也能完成这个式子，那么为什么还要加隐层呢？这个后面再揭晓。

下面有一个线性方程： f = W x f = Wx f=Wx，如果神经网络使用线性的方程，相当于给它加了一些局限性。我们所认为的神经网络，它应该是能向任意的方向进行伸展，如果给它加上了一个线性的条件，那么就只能是横着或者竖着，有很大的局限性。刚才说的神经网络的第一个特点，它是一个层次的结构。那么它的第二个非常重要的特点，它是一个非线性的结构，刚才的模型中有说到 W 2 W_2 W2 需要乘上 W 1 ∗ x W_1*x W1∗x，这里我又加上了一个 max 函数。

这里把加上的 m a x max max 函数叫做激活函数。激活函数的作用就是增加神经网络模型的非线性，比如之前的 Sigmoid 函数就是一个激活函数，它能够是先把任意一个值映射到 0-1 之间。

那么我们把 Sigmoid 函数作为激活函数，有没有什么问题呢？有没有更好的激活函数呢？对于一个神经网络来说，其中包含求导的操作，如之前的例子中，如果要求 W 1 W_1 W1，需要乘上 W 1 W_1 W1 的导数，这么来就存在一个导数累乘的操作。假设在 Sigmoid 函数中 A A A 点求梯度，就是在 A A A 点的切线值。

如果该点值稍微大一些，比如在 B B B 点，那么它的导数就是 0 左右。

如果值更大的话，那么该点的导数就更趋近于 0，也就是说，如果数值比较大或者比较小，它的导数值都会趋近于 0，意味着接下来求导的时候会发生梯度消失的现象，梯度消失的后果就是没办法更新参数 W W W 的值。这就是 Sigmoid 函数被淘汰的原因，一旦神经网络的层次非常深，梯度消失的现象就会非常严重，一旦发生了梯度消失的现象，我们就没办法完成反向传播，导致神经网络永远不会收敛。

所以我们引入了另外一个激活函数 ReLU 函数，当 x x x 值小于的时候，都等于 0，当 x x x 大于 0 时，都等于下图所示的直线。

对于 ReLU 激活函数来说，它能够解决梯度消失的问题，另一方面求导十分的简单。所以现在深度学习大多都是使用 ReLU 作为激活函数。