1.12 演进逻辑总结¶
flowchart TD
PPO(["PPO (RLHF)\n稳定的策略优化框架"]) -->|"Critic 训练困难\n4 模型显存过高\nReward Hacking"| GRPO["GRPO (RLVR)\n消除 Critic+RM\nGroup Relative + 规则奖励"]
GRPO -->|"Hard Clip 丢失梯度\n熵崩塌\nToken-Level IS 高方差"| DAPO["DAPO\n非对称裁剪 + 动态采样\n+ Token 归一化"]
DAPO -->|"梯度丢失未根治"| CISPO["CISPO\n裁剪 IS 权重而非目标\n所有 token 保留梯度"]
DAPO -->|"Token-Level IS 高方差"| GSPO["GSPO\nSequence-Level\n解决 MoE 不稳定"]
GSPO -->|"硬裁剪仍有突变"| SAPO(["SAPO\nSoft Gating 替代 Hard Clip\n连续信任域"])
GRPO -->|"长 CoT 需精确归因"| VAPO(["VAPO\n回归 Value-Based\n修好 Critic"])
演进动因(与上图箭头对应): PPO 是稳定策略优化框架,但 Critic 训练难、四模型显存高且易 Reward Hacking。GRPO 在 RLVR 下用组相对优势与可验证奖励,去掉 Critic 与 RM。DAPO 针对 Hard Clip 丢梯度、熵崩塌与 Token-Level IS 高方差,引入非对称裁剪、动态采样与 Token 归一化。CISPO 改为裁剪 IS 权重而非目标,使各 token 保留梯度。GSPO 用序列级目标缓解 MoE 不稳定。SAPO 以 Soft Gating 替代硬裁剪,形成连续信任域。VAPO 在长 CoT 场景回归 Value-based,重建 Critic 做更细归因。
其他值得关注的算法:
| 算法 | arXiv | 核心贡献 |
|---|---|---|
| Dr. GRPO | 2503.20783 | 发现 GRPO 存在使错误回答长度增加的优化偏差,提出无偏优化 |
| REINFORCE++ | 2501.03262 | 全局优势归一化(跨全局 batch 而非仅组内),指出 GRPO 的局部归一化是有偏估计器 |
| PRIME | 2502.01456 | 通过隐式过程奖励实现在线 PRM 更新,推理 benchmark 平均提升 15.1% |