1.4 工程实践¶

算法之外，工业界的 Agentic RL 训练还面临大量工程层面的挑战。以下是两个公开了详细技术报告的系统：

GLM-5 — 异步 Agent RL 基础设施¶

论文：GLM-5

Paper: arXiv: 2602.15763 | 机构: 智谱 AI | 已开源 | LMArena #1

GLM-5 是目前公开信息最详尽的 Agentic RL 工程实践报告。其五阶段 pipeline 中，Agentic RL 是关键阶段。核心工程贡献：

异步 RL 基础设施: Agent 任务的 rollout 涉及环境交互（API 调用、数据库查询），延迟不可预测。GLM-5 设计了异步 actor-critic 架构，actor 独立与环境交互，learner 消费已完成的轨迹
TITO Gateway: 管理 Agent 与外部工具的交互，标准化 I/O 格式
CUDA 非确定性问题: GLM-5 团队发现 MoE 路由的 CUDA 非确定性实现会导致训练不稳定——同一输入在不同 GPU 上路由到不同专家，产生不同梯度。他们强制使用确定性 CUDA 实现来解决

关键教训: 算法层面的改进（DAPO、VAPO 等）在工业规模部署时，工程细节（异步调度、CUDA 确定性、环境稳定性）往往比算法本身更决定成败。

论文：Kimi K2

Paper: arXiv: 2507.20534 (K2), 2501.12599 (K1.5) | 机构: 月之暗面

Kimi K2 的 Agentic Post-Training 覆盖 3000+ MCP 工具，核心特点：

Agentic 数据合成: 自动化生成 Agent-环境交互数据，覆盖多种工具组合
Self-Critique 奖励: Agent 自己评估自己的输出质量，形成奖励信号（类似 RLAIF 的 Agent 版本）
多阶段 RL: 先 Reasoning RL（RLVR），再 Agentic RL，最后 General RL（RLHF）——逐步扩大 RL 的覆盖范围

关键教训: 工具生态的复杂性（3000+ 工具的兼容性、调用格式、错误处理）是一个被论文低估的工程问题。

Agentic RL 的瓶颈之一是训练环境的可获得性。以下是三个有影响力的环境构建方案：

项目	arXiv	机构	核心思路
ABE	2508.08791	字节/复旦	自动化构建 Agent 训练环境，可扩展性强（已开源）
Agent World Model	2602.10090	Snowflake	代码驱动合成 1000+ 环境，从文本描述自动生成环境（已开源）
ASTRA	2601.21558	链家	基于 MCP 自动合成 Agent 交互轨迹，生成可验证的训练数据（已开源）
GEM	2601.10355	美团/人大	文本到轨迹合成，BFCL +16.5%