2.2 核心判断与未来预测¶
本节摘要
提出六个核心个人判断:信用分配是最本质难题、SeeUPO 理论意义大于实践、记忆机制可能是方向性突破、工程和数据是真正壁垒、Agentic RL 有望产生下一个"R1 时刻"、环境构建被严重低估。同时对短期(2026)、中期(2027)和长期方向做出预测。
核心判断与个人观点¶
💭 观点 1: 信用分配是 Agentic RL 最本质的难题
四大挑战中,信用分配是最难、也最关键的。原因:
- 奖励信号可以通过 IGPO 等内在奖励缓解
- 训练稳定性有 SeeUPO 的理论保证和 ARLArena 的工程指导
- 探索效率可以通过更多计算资源和更好的环境部分解决
- 但信用分配涉及因果推理——从相关性(这条轨迹成功了)到因果性(因为第 3 步做对了所以成功),这在哲学层面就是困难的
当前的方案(GiGPO, ELPO, ProxMO)都是近似:用状态重叠、二分搜索、语义距离来猜测因果关系。真正的突破可能需要引入因果推理(causal reasoning)的工具。
💭 观点 2: SeeUPO 的收敛保证很重要,但实践意义有待验证
SeeUPO 首次证明了 multi-turn RL 可以收敛到全局最优,这在理论上是里程碑式的。但我对其实践影响持谨慎乐观态度:
- 收敛保证依赖于假设(充分采样、各轮相对独立等),实际训练中这些假设很难严格满足
- Backward induction 的计算开销随轮次线性增长,在超长交互(50+ 轮)中可能不实际
- 工业界更关心"在有限计算预算下能达到多好的效果",而非"无限资源下能否收敛"
但 SeeUPO 的建模思路(multi-agent 顺序决策)本身是有价值的,可能启发新的实用算法。
💭 观点 3: 记忆机制(EMPO²)可能是 Agentic RL 的"Attention Is All You Need"
EMPO² 的 +128.6% 提升不仅是数字上的突破,更暗示了一个方向性的转变:LLM Agent 需要的不仅是更好的策略优化算法,还需要一个持久化的经验系统。
当前的 RL 训练是 episode-level 的:每个 episode 独立,经验不跨 episode 传递。但人类的学习是累积的——我们记住过去的错误,在新的情境中避免重复。EMPO² 的 tips 生成机制是这个方向的第一步。
如果这个方向被验证,未来的 Agentic RL 训练可能会从"采样 → 优化 → 采样 → 优化"的循环,变成"采样 → 记忆 → 利用记忆探索 → 优化 → 更新记忆"的更丰富的循环。
💭 观点 4: 算法创新的边际收益在递减,工程和数据是真正的壁垒
从 47 篇论文的分析中可以看到:
- 2025 年初的创新(GRPO → DAPO)带来了 +7 分 AIME 的巨大提升
- 2025 年中的创新(GSPO → SAPO)提升在收窄
- 2026 年的创新更多集中在新场景适配(multi-turn, agentic)而非单轮性能提升
这不是说算法研究不重要——SeeUPO 的收敛保证、ELPO 的错误定位都是关键突破。但对于大多数团队来说,把现有算法跑好(高质量数据 + 稳定训练 + 好的环境)可能比追逐最新算法更有价值。
GLM-5 技术报告中一句话令人印象深刻:"CUDA 非确定性实现导致的训练不稳定"——这种问题在任何论文里都不会被讨论,但它在工业部署中是致命的。
💭 观点 5: Agentic RL 有可能产生下一个"R1 时刻"
DeepSeek-R1 证明了 RL 可以让推理能力涌现。类似地,Agentic RL 可能让规划能力、工具协调能力、自我纠错能力从 RL 中涌现。EMPO² 的 +128.6% 提升已经显示了端倪。
但 Agentic RL 比 Reasoning RL 难得多:
- 奖励更稀疏(多步交互后才有结果)
- 状态空间更大(包含外部环境状态)
- 评估更困难(没有像数学那样清晰的正确答案)
- 安全性更敏感(Agent 直接与真实环境交互)
如果真的出现"Agentic R1 时刻",它可能不是来自一个更好的算法,而是来自环境 + 记忆 + 算法的组合创新。
💭 观点 6: 环境构建是被严重低估的方向
47 篇论文中,环境构建类的论文(ABE, Agent World Model, ASTRA, GEM)往往不如算法论文受关注,但它们解决的是一个更根本的问题:训练数据从哪里来?
Reasoning RL 的训练数据相对容易获取(数学题、代码题有大量现成数据集)。但 Agentic 任务的训练数据需要环境交互才能产生,而真实环境交互(API 调用、网页操作)成本高、延迟大、不可逆。
合成环境是解决方案,但合成环境的逼真度直接决定了训练的泛化性。目前的合成环境(如 Agent World Model 的 1000 个环境)还远远不够覆盖真实世界的复杂性。
未来方向与预测¶
| 方向 | 预期发展 | 关键指标 |
|---|---|---|
| 算法 | SeeUPO/EMPO² 类方法被更多团队验证和改进 | 多轮 benchmark 上的 SOTA |
| 工程 | 异步 Agentic RL 训练框架开源(类似 verl 对 GRPO 的作用) | 框架 GitHub Stars |
| 产品 | 更多 Agent 产品上线(代码助手、研究助手、自动化流程) | 产品 MAU |
| 评测 | Agentic 任务的标准化 benchmark 出现 | 社区采用度 |
- Agentic RL 成为 Post-Training 标配: 类似 RLHF 在 2023 年成为标配,Agentic RL 阶段将出现在所有主流模型的训练 pipeline 中
- 训练环境生态成熟: 开源社区提供丰富的 Agent 训练环境,降低入门门槛
- 信用分配的实用方案: 从当前的启发式方法(锚点、二分搜索、语义距离)走向更有理论支撑的方案
| 方向 | 描述 | 难度 |
|---|---|---|
| 自我进化 | Agent 自己生成任务 → 自己探索 → 从成败中学习,形成闭环 | ★★★★★ |
| 世界模型 | Agent 学习一个环境模型,在"想象中"做规划和预演 | ★★★★☆ |
| 多 Agent 协作 RL | 多个 Agent 通过 RL 学习协作策略 | ★★★★☆ |
| 安全对齐 | Agentic RL 的 reward hacking 和安全边界问题 | ★★★★★ |
| 统一框架 | 将 Reasoning RL 和 Agentic RL 统一到一个优化框架中 | ★★★☆☆ |
总结
Agentic RL 在 2026 年正处于从学术研究到工业落地的关键转折期。47 篇论文揭示了四大核心挑战(奖励信号、训练稳定性、探索效率、信用分配),每个挑战都有多条技术路线在探索。
当前最有影响力的突破:
- SeeUPO: 首个理论收敛保证——证明 multi-turn RL 是可解的
- EMPO²: 记忆增强探索——Agent 可以从历史经验中学习
- ARLArena: 系统性分析——告诉我们不稳定性的真正来源
- GLM-5/Kimi K2: 工程实践——证明 Agentic RL 可以在产品中工作
这个领域的发展速度极快(6 个月内从概念到产品),但核心问题(特别是信用分配和开放式任务的奖励设计)仍然开放。下一个重大突破可能来自问题重建模(像 SeeUPO 那样重新定义优化目标)或基础设施创新(像 EMPO² 那样引入新的学习机制),而非对现有算法的增量改进。