Post-Training 技术报告¶

by zhenliang & opencode

1. 算法基础

RLHF 与 RLVR 两大范式，PPO → GRPO → DAPO → VAPO → CISPO → GSPO → SAPO 的完整演进，含公式推导与初学者补充。

开始阅读
2. 技术报告深度解读

DeepSeek R1/V3.2、Kimi K1.5/K2、Qwen3、MiniMax M1/M2.5、GLM-5、Seed1.5 等 6 大系列的训练策略与工程经验，附 10 条跨模型共性总结与数据工程专题。

开始阅读
3. 演进路线与趋势展望

从 InstructGPT 到 Agentic RL 的四代范式变迁，6 大行业共识与 5 大核心挑战，9 条个人分析与思考。

开始阅读

阅读建议