跳转至

1.3 DPO — 离线偏好优化

论文:DPO

Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafailov et al., 2023) arXiv: 2305.18290

DPO 是 RLHF 的一个重要简化变体:绕过 RM,直接从偏好数据优化策略模型

损失函数

\[ \mathcal{L}_{\text{DPO}}(\theta) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma\!\left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right] \]

DPO 要求模型让好回答 \(y_w\) 与坏回答 \(y_l\) 之间的对数概率比差距足够大。优点是不需要 RM、训练稳定、易于实现;缺点是依赖离线数据,存在分布偏移问题。

DPO 的实际定位

DPO 在实际工业应用中的定位越来越清晰:

  • 通用对齐: LLaMA 3.1 大规模对比后发现 DPO 在一般对齐任务上可优于 PPO(但这是有争议的,DeepSeek/ByteDance 经验相反)
  • 推理任务: 在复杂数学/代码推理上,在线 RL(GRPO/DAPO/VAPO)明显优于 DPO
  • 最新趋势: LLaMA 4 将 DPO 从主力降级为"轻量后处理"步骤,核心推理提升交由 Online RL

延伸阅读

DPO 更多的技术细节和变体(KTO, ORPO, IPO 等)可参考综述 arXiv:2503.06072。