1.5 算法速查与路线图¶

全部算法一览¶

算法	arXiv	解决的核心挑战	核心创新	是否需要外部 RM	开源
SeeUPO	2602.06554	稳定性 + 信用分配	Multi-agent 建模 + backward induction	否	—
EMPO²	2602.23008	探索效率	自生成记忆 + hybrid on/off-policy	否	—
ARLArena	2602.21534	稳定性	4 维分解 + SAMPO 配置	—	—
IGPO	2510.14967	奖励信号 + 信用分配	信息增益内在奖励	否	—
GiGPO	—	信用分配	Anchor state grouping	否	—
ELPO	2602.09598	信用分配	二分搜索定位 first irrecoverable step	否	即将
ProxMO	2602.19225	信用分配	语义邻近性软聚合	否	—
VCPO	2602.17616	稳定性	ESS 动态学习率 + OPOB 基线	—	✅
LUFFY	2504.14945	探索效率	Mixed-policy GRPO	否	—
CM2	2602.12268	奖励信号	7 维度 Checklist 奖励	自建	✅
GMPO	2507.20673	稳定性	Token reward 几何平均	—	✅
ProRL	2505.24864	探索效率 + 稳定性	周期性重置 reference policy	—	—

按影响力分级¶

基于学术创新（30%）、开源贡献（25%）、工业应用（20%）、机构背书（15%）、后续影响（10%）的综合评估：

级别	算法/系统	理由
Tier 1: 工业标杆	GLM-5, Kimi K2	实际产品部署，商业验证
Tier 2: 理论突破	SeeUPO, EMPO²	ICLR 2026，首创概念
Tier 3: 方法创新	VCPO, ELPO, ProxMO, ARLArena	系统性方法论，已/即将开源
Tier 4: 专项优化	IGPO, GiGPO, LUFFY, CM2, GMPO	特定问题的有效解决方案

技术路线图¶

flowchart TD
    grpo([GRPO 定义 RLVR]) --> dapo[DAPO/VAPO 工业推理]
    grpo --> reward[奖励信号改进]
    reward --> igpo[IGPO 内在奖励]
    reward --> cm2[CM2 多维度奖励]
    grpo --> stable[训练稳定性]
    stable --> vcpo[VCPO 方差控制]
    stable --> arl[ARLArena 系统分析]
    stable --> seeupo[SeeUPO 收敛保证]
    grpo --> explore[探索效率]
    explore --> luffy[LUFFY Off-policy]
    explore --> empo[EMPO² 记忆增强]
    grpo --> credit[信用分配]
    credit --> gigpo[GiGPO 锚点状态]
    credit --> elpo[ELPO 错误定位]
    credit --> proxmo[ProxMO 语义邻近]