1.10 SAPO — 连续信任域的软门控¶
论文:SAPO
Soft Adaptive Policy Optimization (Alibaba / Qwen Team, 2025) arXiv: 2511.20347 地位: 用连续的 Soft Gating 替代所有先前算法的 Hard Clipping,应用于 Qwen3-VL
核心问题¶
所有先前算法都使用某种形式的 Hard Clipping。Hard Clipping 在裁剪边界处存在不连续的梯度跳变,难以平衡稳定性与有效学习。
核心公式¶
Soft Gating 函数:
\[
f_{i,t}(x) = \sigma\!\left(\tau_{i,t} \cdot (x - 1)\right) \cdot \frac{4}{\tau_{i,t}}
\]
温度参数根据优势符号自适应:\(\tau_{\text{pos}} = 1.0\),\(\tau_{\text{neg}} = 1.05\)(非对称温度)。
梯度权重: \(w_{i,t}(\theta) = 4 \cdot p \cdot (1 - p)\),其中 \(p = \sigma(\tau(r-1))\)。
- 在 \(r = 1\)(on-policy)处取最大值 \(w = 1\)
- 随 \(r\) 偏离 1 平滑对称衰减(\(\text{sech}^2\) 形状)
- 永远不为零
统一视角:三种 Gating 函数¶
| 算法 | \(f(r)\) 形式 | 边界行为 |
|---|---|---|
| GRPO | \(\min(r, 1+\varepsilon)\) | 超过阈值后水平截断,梯度 = 0 |
| GSPO | \(\min(s_i, 1+\varepsilon)\)(序列级) | 超过阈值后水平截断 |
| SAPO | \(\frac{4}{\tau}\sigma(\tau(r-1))\) | 平滑 S 形饱和,从不完全截断 |
与 GSPO 的联系¶
论文证明在温和条件下,SAPO 的 token-level soft gate 会自动近似坍缩为 sequence-level gate,不需要显式选择 token-level 还是 sequence-level——它在 token-level 定义,但自然地表现出 sequence-level 的行为。
为什么要非对称温度¶
- 正优势 (\(\hat{A} > 0\)):更新是聚焦的——增加采样 token 的 logit,降低其他 token 的 logit,方差小
- 负优势 (\(\hat{A} < 0\)):更新是发散的——降低采样 token 的 logit,但提升所有其他 token(词表大小 ~100K+)的 logit,梯度被分散到大量无关 token,方差大
\(\tau_{\text{neg}} > \tau_{\text{pos}}\) 使得负样本的梯度衰减更快,抑制高方差效应。