1.9 GSPO — 序列级策略优化¶

论文：GSPO

Group Sequence Policy Optimization (Alibaba / Qwen Team, 2025) arXiv: 2507.18071 地位: 将优化粒度从 Token-Level 提升到 Sequence-Level，应用于 Qwen3

核心问题¶

GRPO 的 Token-Level IS 存在理论缺陷：奖励是 sequence-level 的，但 IS 矫正是 token-level 的——优化单元与奖励单元不匹配。更关键的是，token-level IS 权重对"分岔词"造成剧烈波动，在 MoE 模型中尤其不稳定（专家路由切换导致个别 token 的 \(r_{i,t}\) 突变）。

核心公式¶

\[ \mathcal{J}_{\text{GSPO}}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^{G} \min\!\left( s_i(\theta)\, \hat{A}_i,\; \text{clip}\!\left(s_i(\theta),\, 1\!-\!\varepsilon,\, 1\!+\!\varepsilon\right) \hat{A}_i \right) \right] \]

序列级 IS 比率（逐 token 比率的几何平均）:

\[ s_i(\theta) = \left(\frac{\pi_\theta(y_i \mid q)}{\pi_{\theta_{\text{old}}}(y_i \mid q)}\right)^{1/|y_i|} = \exp\!\left(\frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \log \frac{\pi_\theta(y_{i,t} \mid q, y_{i,<t})}{\pi_{\theta_{\text{old}}}(y_{i,t} \mid q, y_{i,<t})}\right) \]

GRPO vs GSPO 梯度对比¶

GRPO: 同一序列内的不同 token 有不同权重 \(w_{i,t}\)
GSPO: 同一序列内的所有 token 有相同权重 \(s_i\)

这消除了 token 间的不一致性，也使得 MoE 模型不受个别 token 专家切换的影响（GRPO 需要 Routing Replay 来解决此问题，GSPO 不需要）。

极小裁剪范围¶

由于 \(s_i(\theta)\) 经过了 \(1/|y_i|\) 归一化，数值范围远比 token-level 紧凑：

\[ \varepsilon_{\text{left}} = 3 \times 10^{-4}, \quad \varepsilon_{\text{right}} = 4 \times 10^{-4} \]

（对比 GRPO 的 \(\varepsilon = 0.2 \sim 0.28\)，差了三个数量级）