1.9 GSPO — 序列级策略优化¶
论文:GSPO
Group Sequence Policy Optimization (Alibaba / Qwen Team, 2025) arXiv: 2507.18071 地位: 将优化粒度从 Token-Level 提升到 Sequence-Level,应用于 Qwen3
核心问题¶
GRPO 的 Token-Level IS 存在理论缺陷:奖励是 sequence-level 的,但 IS 矫正是 token-level 的——优化单元与奖励单元不匹配。更关键的是,token-level IS 权重对"分岔词"造成剧烈波动,在 MoE 模型中尤其不稳定(专家路由切换导致个别 token 的 \(r_{i,t}\) 突变)。
核心公式¶
\[
\mathcal{J}_{\text{GSPO}}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^{G} \min\!\left( s_i(\theta)\, \hat{A}_i,\; \text{clip}\!\left(s_i(\theta),\, 1\!-\!\varepsilon,\, 1\!+\!\varepsilon\right) \hat{A}_i \right) \right]
\]
序列级 IS 比率(逐 token 比率的几何平均):
\[
s_i(\theta) = \left(\frac{\pi_\theta(y_i \mid q)}{\pi_{\theta_{\text{old}}}(y_i \mid q)}\right)^{1/|y_i|} = \exp\!\left(\frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \log \frac{\pi_\theta(y_{i,t} \mid q, y_{i,<t})}{\pi_{\theta_{\text{old}}}(y_{i,t} \mid q, y_{i,<t})}\right)
\]
GRPO vs GSPO 梯度对比¶
- GRPO: 同一序列内的不同 token 有不同权重 \(w_{i,t}\)
- GSPO: 同一序列内的所有 token 有相同权重 \(s_i\)
这消除了 token 间的不一致性,也使得 MoE 模型不受个别 token 专家切换的影响(GRPO 需要 Routing Replay 来解决此问题,GSPO 不需要)。
极小裁剪范围¶
由于 \(s_i(\theta)\) 经过了 \(1/|y_i|\) 归一化,数值范围远比 token-level 紧凑:
\[
\varepsilon_{\text{left}} = 3 \times 10^{-4}, \quad \varepsilon_{\text{right}} = 4 \times 10^{-4}
\]
(对比 GRPO 的 \(\varepsilon = 0.2 \sim 0.28\),差了三个数量级)