LLM Post-Training 与 Agentic RL 研究¶

by zhenliang & opencode · 2026.03 · 基于 50+ 篇论文与 12+ 模型技术报告

Post-Training 技术报告

从 PPO 到 SAPO 的算法演进，DeepSeek / Qwen / Kimi / GLM-5 等主流模型的训练实践，以及行业共识与个人思考。
- 7 种核心算法的公式推导与对比
- 6 大模型系列的 Post-Training 深度解读
- 6 大行业共识 · 5 大核心挑战 · 9 条个人观点
开始阅读
Agentic RL 调研报告

多轮交互、工具使用、长程规划场景下的 RL 算法设计，47 篇论文的系统性分析。
- 四大核心挑战与对应算法方案
- GLM-5 / Kimi K2 的 Agentic 工程实践
- 技术路线分析 · 产业观察 · 未来预测
开始阅读