跳转至

1.5 算法速查与路线图

全部算法一览

算法 arXiv 解决的核心挑战 核心创新 是否需要外部 RM 开源
SeeUPO 2602.06554 稳定性 + 信用分配 Multi-agent 建模 + backward induction
EMPO² 2602.23008 探索效率 自生成记忆 + hybrid on/off-policy
ARLArena 2602.21534 稳定性 4 维分解 + SAMPO 配置
IGPO 2510.14967 奖励信号 + 信用分配 信息增益内在奖励
GiGPO 信用分配 Anchor state grouping
ELPO 2602.09598 信用分配 二分搜索定位 first irrecoverable step 即将
ProxMO 2602.19225 信用分配 语义邻近性软聚合
VCPO 2602.17616 稳定性 ESS 动态学习率 + OPOB 基线
LUFFY 2504.14945 探索效率 Mixed-policy GRPO
CM2 2602.12268 奖励信号 7 维度 Checklist 奖励 自建
GMPO 2507.20673 稳定性 Token reward 几何平均
ProRL 2505.24864 探索效率 + 稳定性 周期性重置 reference policy

按影响力分级

基于学术创新(30%)、开源贡献(25%)、工业应用(20%)、机构背书(15%)、后续影响(10%)的综合评估:

级别 算法/系统 理由
Tier 1: 工业标杆 GLM-5, Kimi K2 实际产品部署,商业验证
Tier 2: 理论突破 SeeUPO, EMPO² ICLR 2026,首创概念
Tier 3: 方法创新 VCPO, ELPO, ProxMO, ARLArena 系统性方法论,已/即将开源
Tier 4: 专项优化 IGPO, GiGPO, LUFFY, CM2, GMPO 特定问题的有效解决方案

技术路线图

flowchart TD
    grpo([GRPO 定义 RLVR]) --> dapo[DAPO/VAPO 工业推理]
    grpo --> reward[奖励信号改进]
    reward --> igpo[IGPO 内在奖励]
    reward --> cm2[CM2 多维度奖励]
    grpo --> stable[训练稳定性]
    stable --> vcpo[VCPO 方差控制]
    stable --> arl[ARLArena 系统分析]
    stable --> seeupo[SeeUPO 收敛保证]
    grpo --> explore[探索效率]
    explore --> luffy[LUFFY Off-policy]
    explore --> empo[EMPO² 记忆增强]
    grpo --> credit[信用分配]
    credit --> gigpo[GiGPO 锚点状态]
    credit --> elpo[ELPO 错误定位]
    credit --> proxmo[ProxMO 语义邻近]