跳转至

Post-Training 技术报告


  • 1. 算法基础


    RLHF 与 RLVR 两大范式,PPO → GRPO → DAPO → VAPO → CISPO → GSPO → SAPO 的完整演进,含公式推导与初学者补充。

    开始阅读

  • 2. 技术报告深度解读


    DeepSeek R1/V3.2、Kimi K1.5/K2、Qwen3、MiniMax M1/M2.5、GLM-5、Seed1.5 等 6 大系列的训练策略与工程经验,附 10 条跨模型共性总结与数据工程专题。

    开始阅读

  • 3. 演进路线与趋势展望


    从 InstructGPT 到 Agentic RL 的四代范式变迁,6 大行业共识与 5 大核心挑战,9 条个人分析与思考。

    开始阅读


阅读建议