Agentic RL Post-Training 首页 LLM Post-Training 与 Agentic RL 研究¶ by zhenliang & opencode · 2026.03 · 基于 50+ 篇论文与 12+ 模型技术报告 Post-Training 技术报告 从 PPO 到 SAPO 的算法演进,DeepSeek / Qwen / Kimi / GLM-5 等主流模型的训练实践,以及行业共识与个人思考。 7 种核心算法的公式推导与对比 6 大模型系列的 Post-Training 深度解读 6 大行业共识 · 5 大核心挑战 · 9 条个人观点 开始阅读 Agentic RL 调研报告 多轮交互、工具使用、长程规划场景下的 RL 算法设计,47 篇论文的系统性分析。 四大核心挑战与对应算法方案 GLM-5 / Kimi K2 的 Agentic 工程实践 技术路线分析 · 产业观察 · 未来预测 开始阅读 快速入门 训练全景与两大范式 技术演进时间线 深入算法 GRPO → SAPO 六大算法 Agentic RL 算法 工业实践 跨模型训练经验 行业共识与挑战