CoderXL's Blog

Back

基础优化算法Blur image

Prototype——梯度下降#

回忆线性回归模型·训练中的示例,我们在训练时通常将一组样本打包,统一计算损失函数(取平均),然后再做梯度下降。

梯度下降的符号化定义就是: 为网络选定一个初始参数 w0\vec w_0,然后反复迭代以下公式:

wt=wt1η(wt1)T\vec w_t = \vec w_{t-1}-\eta ({\partial \ell \over \partial \vec w_{t-1}})^T

梯度下降的递推式。 其中的 η\eta 叫作学习率,是步长的超参数(“超参数”是人为事先指定的参数,区别于自动学习来的参数)。步长太小会导致所需迭代次数太多,模型收敛慢,计算量大;步长太大会导致震荡,亦难以收敛。

小批量随机梯度下降#

对于复杂模型的训练,数据量庞大,每次迭代都在整个训练集上计算损失的梯度,开销过大。因此每轮迭代的时候,可以采用从数据集中随机采样一小批样本,以代替数据集的总体特征来近似损失。小批量随机梯度下降是深度学习的默认求解方法,通常也是最稳定、简单的。

因此这种模型会涉及另一种超参数 bb —— 批量大小。批量大小太小,将难以充分利用并行计算资源;批量大小太大,将消耗过多内存,并且当总体数据集特征分布集中的时候,批量的扩大存在边际效益递减,浪费计算资源

基础优化算法
https://blog.leosrealms.top/blog/2025-11-14-basic-optimization-algorithms
Author CoderXL
Published at 2025年11月14日
Comment seems to stuck. Try to refresh?✨