Agentic RL 调研报告¶

by zhenliang & opencode · 基于 47 篇论文（2024-2026 Q1）的系统性分析

1. 算法与核心挑战

从推理 RL 到 Agentic RL 的本质变化，四大核心挑战（奖励信号、训练稳定性、探索效率、信用分配）及代表性算法。

开始阅读
2. 全景分析与展望

2024-2026 领域时间线，三条技术路线对比，产业观察（落地产品、开源生态），6 条个人判断与未来预测。

开始阅读

与 Post-Training 报告的关系¶

核心论文索引

算法	arXiv	核心贡献	影响力
GLM-5	2602.15763	异步 Agent RL 基础设施	Tier 1
Kimi K2	2507.20534	大规模工具使用训练	Tier 1
SeeUPO	2602.06554	首个 multi-turn 收敛保证	Tier 2
EMPO²	2602.23008	记忆增强探索 +128.6%	Tier 2
ARLArena	2602.21534	系统性稳定性分析框架	Tier 3
ELPO	2602.09598	二分搜索错误定位	Tier 3
ProxMO	2602.19225	语义邻近性软聚合	Tier 3
VCPO	2602.17616	ESS 动态学习率	Tier 3
IGPO	2510.14967	信息增益内在奖励	Tier 4
LUFFY	2504.14945	Off-policy 混合策略	Tier 4
CM2	2602.12268	多维度 Checklist 奖励	Tier 4

阅读建议