跳转至

LLM Post-Training 与 Agentic RL 研究


  • Post-Training 技术报告


    从 PPO 到 SAPO 的算法演进,DeepSeek / Qwen / Kimi / GLM-5 等主流模型的训练实践,以及行业共识与个人思考。

    • 7 种核心算法的公式推导与对比
    • 6 大模型系列的 Post-Training 深度解读
    • 6 大行业共识 · 5 大核心挑战 · 9 条个人观点

    开始阅读

  • Agentic RL 调研报告


    多轮交互、工具使用、长程规划场景下的 RL 算法设计,47 篇论文的系统性分析。

    • 四大核心挑战与对应算法方案
    • GLM-5 / Kimi K2 的 Agentic 工程实践
    • 技术路线分析 · 产业观察 · 未来预测

    开始阅读