Post-Training 技术报告¶
-
1. 算法基础
RLHF 与 RLVR 两大范式,PPO → GRPO → DAPO → VAPO → CISPO → GSPO → SAPO 的完整演进,含公式推导与初学者补充。
-
2. 技术报告深度解读
DeepSeek R1/V3.2、Kimi K1.5/K2、Qwen3、MiniMax M1/M2.5、GLM-5、Seed1.5 等 6 大系列的训练策略与工程经验,附 10 条跨模型共性总结与数据工程专题。
-
3. 演进路线与趋势展望
从 InstructGPT 到 Agentic RL 的四代范式变迁,6 大行业共识与 5 大核心挑战,9 条个人分析与思考。