1.4 工程实践¶
算法之外,工业界的 Agentic RL 训练还面临大量工程层面的挑战。以下是两个公开了详细技术报告的系统:
GLM-5 — 异步 Agent RL 基础设施¶
论文:GLM-5
Paper: arXiv: 2602.15763 | 机构: 智谱 AI | 已开源 | LMArena #1
GLM-5 是目前公开信息最详尽的 Agentic RL 工程实践报告。其五阶段 pipeline 中,Agentic RL 是关键阶段。核心工程贡献:
- 异步 RL 基础设施: Agent 任务的 rollout 涉及环境交互(API 调用、数据库查询),延迟不可预测。GLM-5 设计了异步 actor-critic 架构,actor 独立与环境交互,learner 消费已完成的轨迹
- TITO Gateway: 管理 Agent 与外部工具的交互,标准化 I/O 格式
- CUDA 非确定性问题: GLM-5 团队发现 MoE 路由的 CUDA 非确定性实现会导致训练不稳定——同一输入在不同 GPU 上路由到不同专家,产生不同梯度。他们强制使用确定性 CUDA 实现来解决
关键教训: 算法层面的改进(DAPO、VAPO 等)在工业规模部署时,工程细节(异步调度、CUDA 确定性、环境稳定性)往往比算法本身更决定成败。
Kimi K2 — 大规模工具使用训练¶
论文:Kimi K2
Paper: arXiv: 2507.20534 (K2), 2501.12599 (K1.5) | 机构: 月之暗面
Kimi K2 的 Agentic Post-Training 覆盖 3000+ MCP 工具,核心特点:
- Agentic 数据合成: 自动化生成 Agent-环境交互数据,覆盖多种工具组合
- Self-Critique 奖励: Agent 自己评估自己的输出质量,形成奖励信号(类似 RLAIF 的 Agent 版本)
- 多阶段 RL: 先 Reasoning RL(RLVR),再 Agentic RL,最后 General RL(RLHF)——逐步扩大 RL 的覆盖范围
关键教训: 工具生态的复杂性(3000+ 工具的兼容性、调用格式、错误处理)是一个被论文低估的工程问题。
环境构建¶
Agentic RL 的瓶颈之一是训练环境的可获得性。以下是三个有影响力的环境构建方案:
| 项目 | arXiv | 机构 | 核心思路 |
|---|---|---|---|
| ABE | 2508.08791 | 字节/复旦 | 自动化构建 Agent 训练环境,可扩展性强(已开源) |
| Agent World Model | 2602.10090 | Snowflake | 代码驱动合成 1000+ 环境,从文本描述自动生成环境(已开源) |
| ASTRA | 2601.21558 | 链家 | 基于 MCP 自动合成 Agent 交互轨迹,生成可验证的训练数据(已开源) |
| GEM | 2601.10355 | 美团/人大 | 文本到轨迹合成,BFCL +16.5% |