2.1 领域全景与技术路线¶

本节摘要

基于 47 篇论文的统计分析，梳理 Agentic RL 从 2024 年早期探索到 2026 年井喷的发展时间线，分析中美机构分布与三条技术路线（修复基础算法、重新建模问题、增强基础设施），并观察从论文到产品的产业落地现状。

阅读说明

本篇是基于前一篇算法梳理的宏观分析与个人思考。标注为「💭 个人观点」的部分代表作者主观看法，仅供参考。

时间线¶

timeline
    title Agentic RL 发展时间线
    section 2024 早期探索
        2024.08-10 : ABE (字节, 环境构建)
                   : PF-PPO, VinePPO
                   : 零散工作, 尚未形成研究方向
    section 2025 GRPO 拐点
        2025.01 : DeepSeek-R1 发布
                : GRPO 定义 RLVR 范式
                : 证明 "纯 RL 可涌现推理"
    section 2025 变体爆发
        2025.03-05 : DAPO, VAPO, LUFFY, ProRL...
                   : 10+ 变体在 6 个月内涌现
        2025.06-08 : ARPO, EDGE-GRPO, TreePo, DARS
                   : 从 outcome-only 走向 step-wise rewards
    section 2025 方向分化
        2025.10-11 : IGPO (内在奖励)
                   : SAPO (统一框架)
                   : 算法创新开始分化
    section 2026 Agentic RL 井喷 ★
        2026.01-03 : SeeUPO, EMPO², ARLArena
                   : ELPO, ProxMO, VCPO, CM2
                   : 单月 10+ 篇高质量论文

论文分布¶

时间段	论文数	热点
2024.08-10	3	早期探索
2025.01	2	GRPO 拐点
2025.02-05	12	GRPO 变体爆发
2025.06-08	8	过程监督 + 效率优化
2025.09-11	4	方向分化
2026.01-03	18	Agentic RL 井喷

2026 年 Q1 的论文数量超过前一年全年的 1/3，且集中在 multi-turn、信用分配、训练稳定性——这些恰好是从"推理 RL"扩展到"Agentic RL"时遇到的新问题。

机构分布¶

地区	核心机构	论文数	特点
🇨🇳 中国	阿里、字节、DeepSeek、智谱、腾讯、百度、快手	28+ (60%)	论文数量和工业应用均领先
🇺🇸 美国	MIT, UCLA, Microsoft, Google DeepMind, Amazon	10+	方法论创新 + 理论证明
其他	NExT++ (新加坡), CMU	3	专项贡献

中国机构在论文数量和工业落地两个维度上都占据主导。阿里（IGPO, SeeUPO, ELPO, OTB, DARS）和字节（DAPO, CM2, ABE, LUFFY）是论文产出最多的两家。

技术路线分析：哪些方向最有前景¶

四大挑战的解决进展¶

挑战	当前进展	成熟度	瓶颈
奖励信号	可验证任务已基本解决；开放式任务仍依赖 RM	★★★☆☆	开放式任务的奖励设计
训练稳定性	SeeUPO 给出收敛保证；ARLArena 提供系统分析	★★★☆☆	理论与工程的差距
探索效率	EMPO² 的记忆机制是突破口；LUFFY 的 off-policy 有效	★★☆☆☆	计算成本仍然很高
信用分配	GiGPO/ELPO/ProxMO 提供了不同粒度的方案	★★☆☆☆	精确归因的计算开销

三条技术路线¶

基于现有论文，Agentic RL 的技术路线正在沿三条主线发展：

路线 A: 修复基础算法路线 B: 重新建模问题路线 C: 增强基础设施

Bottom-Up: 从 GRPO/PPO 出发，逐步修复在 Agentic 场景下暴露的缺陷。

代表工作：DAPO → VAPO → CISPO → GSPO → SAPO（单轮优化），ARLArena/SAMPO（Agentic 适配）

优势: 渐进式改进，工程风险低
劣势: 可能触及单轮算法框架的天花板

Top-Down: 不再把 Agentic 任务硬塞进单轮 RL 框架，而是从问题本身出发设计新的优化目标。

代表工作：SeeUPO（多 Agent 顺序决策建模），IGPO（信息增益奖励）

优势: 理论上更干净，能突破旧框架的局限
劣势: 新框架的工程实现和调优经验不足

Infrastructure: 不改算法本身，而是改善数据、环境和记忆系统。

代表工作：EMPO²（记忆增强），ABE/Agent World Model（环境合成），ASTRA（轨迹合成）

优势: 与任何算法正交，可叠加
劣势: 基础设施的质量直接决定上限

💭 个人观点

短期内路线 A 仍是主流（工业界偏好渐进改进），但路线 B 可能产生下一个"R1 时刻"级别的突破。路线 C 是容易被忽视但极其重要的基础——没有好的环境和数据，再好的算法也无法发挥。

产业观察：从论文到产品¶

已落地的 Agentic RL 产品¶

产品	公司	技术基础	状态
GLM-5	智谱 AI	异步 Agent RL + 五阶段 pipeline	商用，LMArena #1 开源
通义千问	阿里云	Agentic RL (DeepResearch)	商用
Kimi K2	月之暗面	Agentic Post-Training + 3000 MCP 工具	开源 + API
Claude Code	Anthropic	Agent RL (细节未公开)	商用
GitHub Copilot	Microsoft	Code Agent RL	商用
Cursor	Anysphere	Code Agent RL	商用

从论文到产品的周期已缩短到 3-6 个月。2025 年初的 GRPO 论文，到 2025 年中就有多个产品基于此部署。

开源生态¶

类别	开源率	代表项目
GRPO 家族算法	20%	DAPO (verl framework), GMPO
应用/环境	53%	GLM-5, ABE, Agent World Model, ASTRA, CM2
训练框架	—	verl (火山引擎), OpenRLHF

GRPO 家族的算法开源率低（20%），但环境和工具的开源率较高（53%）。这反映了一个现实：算法实现相对简单（论文给了公式），但高质量的训练环境和数据是真正的壁垒。

中美对比¶

维度	中国	美国
论文数量	60%+	30%
工业落地	GLM-5, Kimi K2, 通义	Claude Code, Copilot
理论贡献	SeeUPO (阿里)	VCPO (MIT), ARLArena (UCLA)
开源	DAPO, GLM-5, ABE	VCPO, Agent World Model
优势	工程实践、大规模训练、产品迭代快	方法论创新、理论证明