Prototype——梯度下降#
回忆线性回归模型·训练中的示例,我们在训练时通常将一组样本打包,统一计算损失函数(取平均),然后再做梯度下降。
梯度下降的符号化定义就是: 为网络选定一个初始参数 ,然后反复迭代以下公式:
梯度下降的递推式。 其中的 叫作学习率,是步长的超参数(“超参数”是人为事先指定的参数,区别于自动学习来的参数)。步长太小会导致所需迭代次数太多,模型收敛慢,计算量大;步长太大会导致震荡,亦难以收敛。
小批量随机梯度下降#
对于复杂模型的训练,数据量庞大,每次迭代都在整个训练集上计算损失的梯度,开销过大。因此每轮迭代的时候,可以采用从数据集中随机采样一小批样本,以代替数据集的总体特征来近似损失。小批量随机梯度下降是深度学习的默认求解方法,通常也是最稳定、简单的。
因此这种模型会涉及另一种超参数 —— 批量大小。批量大小太小,将难以充分利用并行计算资源;批量大小太大,将消耗过多内存,并且当总体数据集特征分布集中的时候,批量的扩大存在边际效益递减,浪费计算资源