AdamW¶

AdamW 是一种优化算法，是 Adam（Adaptive Moment Estimation）优化算法的改进版。它在机器学习和深度学习中广泛应用，尤其适合处理具有大规模参数的模型（如深度神经网络）。AdamW 的主要改进在于引入了**权重衰减（Weight Decay）** 的正确实现，从而提升了模型的泛化能力。

Adam 和权重衰减的问题¶

𝐿 = L o s s (𝜃) + \frac{𝜆}{2} ∥ 𝜃 ∥_{2}^{2} ：

AdamW（Adam + Weight Decay）通过将权重衰减从梯度更新中分离，提供了更准确的正则化实现。具体来说，它将权重衰减直接作用于参数，而不是作为损失梯度的一部分。

\begin{array}{r} \begin{array}{l} 一 阶 动 量 （ 均 值 ） 的 更 新 ： 𝑚_{𝑡} = 𝛽_{1} 𝑚_{𝑡 - 1} + (1 - 𝛽_{1}) 𝑔_{𝑡} \\ 二 阶 动 量 （ 方 差 ） 的 更 新 ： 𝑣_{𝑡} = 𝛽_{2} 𝑣_{𝑡 - 1} + (1 - 𝛽_{2}) 𝑔_{𝑡}^{2} \\ 偏 差 校 正 ： 为 了 修 正 前 期 动 量 的 偏 差 （ 初 始 值 为 0 ） ， 对 𝑚_{𝑡} 和 𝑣_{𝑡} 做 偏 差 校 正 ： \\ {\hat{𝑚}}_{𝑡} = \frac{𝑚_{𝑡}}{1 - 𝛽_{1}^{𝑡}}, {\hat{𝑣}}_{𝑡} = \frac{𝑣_{𝑡}}{1 - 𝛽_{2}^{𝑡}} \\ 参 数 更 新 ： 𝜃_{𝑡 + 1} = 𝜃_{𝑡} - 𝜂 \cdot \frac{{\hat{𝑚}}_{𝑡}}{\sqrt{{\hat{𝑣}}_{𝑡}} + 𝜖} - η \cdot λ \cdot θ_{t} \end{array} \end{array}

核心区别:

正则化分离：权重衰减直接施加到参数上，而不是通过修改梯度。
动量校正保持不变：权重衰减不会干扰 Adam 的动量和自适应学习率计算。

优点:

更准确的权重衰减：避免了传统 Adam 中的正则化失效问题。
提升泛化性能：分离权重衰减后，优化效果更贴近理论设计，尤其在训练深层模型时，能更好地抑制过拟合。
适配性强：保留了 Adam 的所有优点，如对稀疏梯度的处理和高效的学习率调整能力。

备注

AdamW 的优化机制是深度学习优化算法中的里程碑之一，其在实际训练中的效果已经被多个模型验证，尤其在 Transformer 系列模型中得到了广泛应用。