基础优化算法 • CoderXL's Blog

Prototype——梯度下降#

回忆线性回归模型·训练中的示例，我们在训练时通常将一组样本打包，统一计算损失函数（取平均），然后再做梯度下降。

梯度下降的符号化定义就是：为网络选定一个初始参数 $\vec w_0$ ，然后反复迭代以下公式：

\vec w_t = \vec w_{t-1}-\eta ({\partial \ell \over \partial \vec w_{t-1}})^T

梯度下降的递推式。其中的 $\eta$ 叫作学习率，是步长的超参数（“超参数”是人为事先指定的参数，区别于自动学习来的参数）。步长太小会导致所需迭代次数太多，模型收敛慢，计算量大；步长太大会导致震荡，亦难以收敛。

对于复杂模型的训练，数据量庞大，每次迭代都在整个训练集上计算损失的梯度，开销过大。因此每轮迭代的时候，可以采用从数据集中随机采样一小批样本，以代替数据集的总体特征来近似损失。小批量随机梯度下降是深度学习的默认求解方法，通常也是最稳定、简单的。

因此这种模型会涉及另一种超参数 $b$ —— 批量大小。批量大小太小，将难以充分利用并行计算资源；批量大小太大，将消耗过多内存，并且当总体数据集特征分布集中的时候，批量的扩大存在边际效益递减，浪费计算资源