随机性梯度下降算法
SGD算法则是利用随机梯度下降算法对网络参数进行优化。在损失函数上对当前点的对应梯度(或近似梯度)反方向的指定步长距离点上进行迭代搜索。大规模梯度下降法在对每个参数进行更新时都需要所有的训练样本,因此,随着样本数目的增加,训练过程变得非常缓慢。通过每次迭代更新一次随机梯度下降,从而提高了优化的效率。
网路优化算法
通用损耗函数
·平均误差值。
平均误差是指实际值与预测值之差平方的期望值,它通常用在回归问题中,即交叉熵损失函数。
交熵是指实际的类标记分布和模型预测的类标记分布之间的距离,在分类问题中经常使用。
网路优化算法
优选过程-输出层。
网路优化算法
中间层是一个优化过程。
反传算法(backpropagation)和梯度下降算法(gradientdecent)对神经网络参数进行调整。该算法主要是用来对单个参数进行优化,而反向传播算法则提供了一种对所有参数都有效的梯度下降算法,使得神经网络模型在训练数据上的损失函数尽可能小。反传算法是训练神经网络的核心算法,它能根据神经网络中定义好的损失函数对神经网络的参数进行优化,从而使神经网络模型在训练数据集上的损失函数达到小。神经网络模型的参数优化过程直接决定模型的质量,因此神经网络的优化是一个非常重要的步骤。
假定神经网络的参数用θ来表示,J(θ)表示在给定的参数值下训练数据集上损失函数的大小,则可以将整个优化过程抽象为寻找一个θ,使J(θ)达到最。由于目前还没有一种通用的方法直接求出任意损失函数的好的参数,因此实际应用中常用的神经网络优化方法是梯度下降法。该算法通过迭代更新参数θ,不断地沿梯度的反方向更新,使参数朝着总损失较小的方向变化。