1.1 从推理 RL 到 Agentic RL¶

本节摘要

RLVR 在单轮可验证推理任务上已高度成熟，但其假设在多轮交互、工具使用和长程规划场景下失效。Agentic RL 面临奖励信号质量、训练稳定性、探索效率和信用分配四大核心挑战。

研究范围

数据来源: 基于 47 篇 Agentic RL 论文（2024-2026 Q1）的系统性分析
侧重点: 有影响力的算法的设计动机与面临的挑战
关联: 基础算法（GRPO/DAPO/VAPO/CISPO/GSPO/SAPO）的详细推导参见 Post-Training 报告第一章

RLVR 的成功与边界¶

2025 年，RLVR（基于可验证奖励的强化学习）在推理任务上取得了突破性成功。GRPO（arXiv: 2402.03300，在 DeepSeek-R1 中大规模应用）消除了 Critic 网络，DAPO（arXiv: 2503.14476）解决了工程稳定性，VAPO（arXiv: 2504.05118）修复了 Value 估计——这些算法在数学、代码等单轮可验证任务上已经高度成熟。

但 RLVR 的成功建立在两个隐含假设上：

奖励可验证: 答案有确定的对/错判定（数学答案、代码测试用例）
单轮决策: 模型生成一个完整回复，获得一次奖励反馈

当任务变为多轮交互（搜索→分析→决策→执行）、工具使用（调用 API、操作环境）、长程规划（数十步才有最终结果）时，这两个假设同时失效。这就是 Agentic RL 面临的根本挑战。

Agentic RL 的核心矛盾¶

Agentic RL 的核心矛盾

Agent 任务的长程性、开放性、交互性 vs RL 算法对短程、可验证、单步决策的假设

Agent 任务特征	RL 算法假设	产生的挑战
长程推理（数百步）	短程决策（10-100 步）	信用分配困难、方差爆炸
开放式目标	可验证奖励	奖励稀疏、难以设计
多轮环境交互	单步反馈	延迟反馈、归因不清
巨大动作空间（语言+工具）	小动作空间	探索低效

四大核心挑战¶

基于 47 篇论文的统计分析，Agentic RL 面临四大核心挑战：

挑战	论文提及频率	本质
奖励信号质量	68%	如何在长程交互中获得高质量学习信号
训练稳定性	53%	如何控制长序列带来的梯度方差爆炸
探索效率	44%	如何在巨大的语言动作空间中高效探索
信用分配	44%	如何将最终奖励归因到每个决策步骤

这四个挑战并非独立——奖励信号是源头（稀疏/噪声导致方差爆炸），信用分配是桥梁（精确归因能改善奖励质量），训练稳定性是保障，探索效率是最终目标：

flowchart TD
    A([奖励信号源头]) -->|稀疏噪声致方差| B[训练稳定性保障]
    B <-->|相互制约| C[信用分配桥梁]
    B -->|不稳限制探索| D([探索效率目标])
    C -->|归因改善信号| A