感知机与多层网络

编程入门行业动态更新时间:2024-10-03 10:37:21

感知机与<a href=https://www.elefans.com/category/jswz/34/1753899.html style= 多层网络"/>

感知机与多层网络

定义

神经网络是由具有适应性的简单单元组成的广泛并行互联的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。

神经元接收来自n个其他神经元传递过来的输入信号，这些输入信息通过带权重的连接进行传递，神经元接收到总输入将与神经元的阈值进行比较，然后通过**激活函数（响应函数）**处理以产生神经元的输出。激活函数一般是sigmoid函数。

把这样的神经元按照一定的层次结构连接起来，就得到了神经网络。

神经网络包含了很多参数，如10个神经元两两连接，则有100个参数：90个连接权和10个阈值。

感知机和多层网络

感知机由两层神经元组成。输入成接收外界输入信号后传递给输出层，输出层是M-P神经元。感知机能容易的实现逻辑与或非运算（与或非实际上是线性可分问题，存在一个超平面将其分开）。

感知机就是学习权重 w i ( i = 1 , 2... n ) w_i (i=1,2...n) wi(i=1,2...n) 以及阈值 θ \theta θ 。把阈值看作一个固定输入为 -1.0的哑节点所对应的权重 w n + 1 w_{n+1} wn+1 ，这样权重和阈值的学习就统一为权重的学习。对训练样例（x, y）,若当前感知机的输出 y ^ \hat y y^ ，则感知机权重调整如下：

w i ← w i + Δ w i w_i \gets w_i + \Delta w_i wi←wi+Δwi

Δ w i = η ( y − y ^ ) x i \Delta w_i = \eta (y- \hat y)x_i Δwi=η(y−y^)xi

其中 η \eta η 称为学习率。

感知机只有输出层神经元进行激活函数处理，即只拥有一层功能神经元，其学习能力很有限。感知机对线性可分问题一定会收敛，求得超平面，但是对异或这种线性不可分问题无能为力。

要解决这种非线性可分问题，需考虑使用多层功能神经元。下图中位于输出层和输入层之间的神经元称为隐层或隐含层，隐含层和输出层神经元都是拥有激活函数的功能神经元。

下图网络结构，每层神经元与下一层神经元互连，神经元之间不存在同层连接，也不存在跨层连接，这称为多层前馈神经网络。前馈不是说网络中信息不能向后传，而是网络中不存在环或回路。

神经网络就是根据训练数据学习神经元之间的连接权和每个功能神经元的阈值，即神经网络学到的东西蕴涵在连接权和阈值中。

误差逆传播算法

误差逆传播（error BackPropagation, BP）算法（反向传播算法）是训练多层网络的重要算法。另外还可训练其他神经网络，如递归神经网络，一般BP网络指用BP算法训练的多层前馈神经网络。

BP算法基于梯度下降策略。其工作过程描述如下：

输入：训练集 D = {(xk, yk)} k={1,m}
学习率 n
过程：
1：在（0，1）范围内随机初始化网络中所有连接权和阈值
2：repeat
3：	for all (xk, yk) 属于 D do
4:		根据当前参数计算出当前样本的输出
5：      计算出输出层神经元的梯度项
6：      根据输出层神经元的梯度计算隐层神经元梯度项
7：      用梯度和其他参数更新输入层和隐层的连接权和隐层和输出层的连接权，隐层神经元的阈值和输出层神经元的阈值
8：  end for
9: util 达到停止条件
输出：连接权与阈值确定的多层前馈神经网络

以上只针对单个训练样本更新连接权和阈值，但BP算法目标是最小化训练集 D 上的累积误差，就需要用到累积误差逆传播算法。累积BP算法和标准BP算法都很常用，标准BP算法每次更新只针对单个样例，参数更新的非常频繁，对不同的样例可能出现抵消现象，因此，标准BP算法往往进行更多次迭代。累积BP算法直接针对累积误差最小化，读取整个训练集D 一遍后才对参数进行更新，参数更新频率低得多。累积误差下降到一定程度后，进一步下降会非常缓慢，这时标准BP往往会更快获得较好的解，尤其在训练集 D 非常大时更明显。

读取数据一遍也称为一轮（one epoch)

BP神经网络很容易过拟合，一般有两种策略缓解过拟合，第一种是早停：将数据集划分成训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证误差的连接权和阈值。第二种是正则化：在误差目标函数中增加一个用于描述网络复杂度的部分，如连接权和阈值的平方和（训练过程将偏好较小的连接权和阈值，使网络输出更加“光滑”），然后通过交叉验证评估两个部分的权重。

全局最小和局部极小

若用 E E E 表示神经网络在训练集上的误差，则它显然是关于连接权 w w w 和阈值 θ \theta θ 的函数。神经网络的训练过程就是一个参数寻优过程。

基于梯度的搜索是使用最广泛的参数寻优方法，根据梯度来确定寻找方向，负梯度方向是函数值下降最快的方向，因此梯度下降法就是沿着负梯度方向搜索最优解。

跳出局部极小：

以多组不同参数值初始化多个神经网络，按标准方法训练后，取其中误差最小的解作为最终参数。相当于从多个不同的初始点开始搜索，这样可能陷入不同的局部极小，从中选择获得全局最小
使用模拟退火技术。模拟退火在每一步都以一定的概率接受比当前解更差的结果，从而有助于跳出局部极小。迭代过程中，接受次优解的概率逐步降低。
使用随机梯度下降，随机梯度下降计算时加入随机因素，即使陷入局部极小，计算出的梯度也可能不是零

遗传算法也常用来训练神经网络。上述方法大多是启发式，理论缺乏。