1.3 DPO — 离线偏好优化¶

论文：DPO

Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafailov et al., 2023) arXiv: 2305.18290

DPO 是 RLHF 的一个重要简化变体：绕过 RM，直接从偏好数据优化策略模型。

损失函数¶

\[ \mathcal{L}_{\text{DPO}}(\theta) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma\!\left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right] \]

DPO 要求模型让好回答 \(y_w\) 与坏回答 \(y_l\) 之间的对数概率比差距足够大。优点是不需要 RM、训练稳定、易于实现；缺点是依赖离线数据，存在分布偏移问题。

DPO 的实际定位¶

DPO 在实际工业应用中的定位越来越清晰：

通用对齐: LLaMA 3.1 大规模对比后发现 DPO 在一般对齐任务上可优于 PPO（但这是有争议的，DeepSeek/ByteDance 经验相反）
推理任务: 在复杂数学/代码推理上，在线 RL（GRPO/DAPO/VAPO）明显优于 DPO
最新趋势: LLaMA 4 将 DPO 从主力降级为"轻量后处理"步骤，核心推理提升交由 Online RL