1.7 VAPO — Value-Based 路线的回归与修正¶
本节摘要
VAPO 融合 PPO 的 Value-Based 路线与 GRPO/DAPO 的改进技术,通过三项 Critic 修复方案在长 CoT 推理上达到 AIME 2024 的 60.4%。
论文:VAPO
VAPO: Efficient and Reliable Reinforcement Learning for LLM Reasoning with Verifiable Rewards (ByteDance Seed, 2025) arXiv: 2504.05118 地位: 跨分支融合算法(PPO + GRPO + DAPO),AIME 2024 达到 60.4%
核心论点¶
"Value-Free(如 GRPO)在短任务上够用,但在长 CoT 推理中,Value-Based 有不可替代的优势——只是需要修好 Critic。"
核心公式¶
VAPO 总损失函数:
PPO 部分采用 Clip-Higher + Token-Level Loss + GAE(非 Group Relative)。
正样本模仿学习损失 (Positive-Example LM Loss):
其中 \(\mathcal{T}\) 是当前 batch 中回答正确的样本集合。这是一个"自我模仿学习"——对正确回答直接最大化对数似然。去掉此损失,AIME 从 60 降到 54(−6)。
三大 Critic 修复技术¶
| 技术 | 做法 | 移除后 AIME 得分 |
|---|---|---|
| Value Pretraining | RL 开始前用 MC 回报预训练 Critic ~50 步 | 11(−49,几乎崩溃) |
| Decoupled GAE | Critic 用 \(\lambda=1.0\)(无偏),Policy 用 \(\lambda=0.95\)(低方差) | 33(−27) |
| Length-Adaptive GAE | \(\lambda_{\text{policy}} = 1 - \frac{1}{\alpha \cdot l}\),让 TD 误差贡献与序列长度成正比 | 45(−15) |
📖 初学者补充:为什么 Value Pretraining 如此关键?
从奖励模型初始化 Critic 会引入正向偏置——RM 被训练在 <EOS> 位置打分,对早期 token 给出较低分数。但 Critic 需要在每个 token 给出准确的期望累积回报。没有预训练,Critic 的初始估计完全不靠谱,导致 GAE 计算出的优势全是噪声,RL 从一开始就走向错误方向。
技术来源总结¶
| 技术 | 来源 | 创新/继承 |
|---|---|---|
| Value Model + GAE | PPO | 继承 |
| Group Sampling | GRPO | 继承 |
| Clip-Higher, Token-Level Loss, Dynamic Sampling | DAPO | 继承 |
| Value Pretraining, Decoupled GAE, Length-Adaptive GAE, Positive-Example LM Loss | VAPO 原创 | 创新 |
消融实验汇总¶
| 移除的组件 | AIME 2024 | 下降 |
|---|---|---|
| 完整 VAPO | 60.4 | — |
| 移除 Value Pretraining | 11 | −49 |
| 移除 Decoupled GAE | 33 | −27 |
| 移除 Length-Adaptive GAE | 45 | −15 |
| 移除 Clip-Higher | 46 | −14 |
| 移除 Token-Level Loss | 53 | −7 |
| 移除 Positive-Example LM Loss | 54 | −6 |
| 原始 PPO(无任何改进) | 5 | −55 |