跳转至

1.10 SAPO — 连续信任域的软门控

论文:SAPO

Soft Adaptive Policy Optimization (Alibaba / Qwen Team, 2025) arXiv: 2511.20347 地位: 用连续的 Soft Gating 替代所有先前算法的 Hard Clipping,应用于 Qwen3-VL

核心问题

所有先前算法都使用某种形式的 Hard Clipping。Hard Clipping 在裁剪边界处存在不连续的梯度跳变,难以平衡稳定性与有效学习。

核心公式

Soft Gating 函数:

\[ f_{i,t}(x) = \sigma\!\left(\tau_{i,t} \cdot (x - 1)\right) \cdot \frac{4}{\tau_{i,t}} \]

温度参数根据优势符号自适应:\(\tau_{\text{pos}} = 1.0\)\(\tau_{\text{neg}} = 1.05\)(非对称温度)。

梯度权重: \(w_{i,t}(\theta) = 4 \cdot p \cdot (1 - p)\),其中 \(p = \sigma(\tau(r-1))\)

  • \(r = 1\)(on-policy)处取最大值 \(w = 1\)
  • \(r\) 偏离 1 平滑对称衰减\(\text{sech}^2\) 形状)
  • 永远不为零

统一视角:三种 Gating 函数

算法 \(f(r)\) 形式 边界行为
GRPO \(\min(r, 1+\varepsilon)\) 超过阈值后水平截断,梯度 = 0
GSPO \(\min(s_i, 1+\varepsilon)\)(序列级) 超过阈值后水平截断
SAPO \(\frac{4}{\tau}\sigma(\tau(r-1))\) 平滑 S 形饱和,从不完全截断

与 GSPO 的联系

论文证明在温和条件下,SAPO 的 token-level soft gate 会自动近似坍缩为 sequence-level gate,不需要显式选择 token-level 还是 sequence-level——它在 token-level 定义,但自然地表现出 sequence-level 的行为。

为什么要非对称温度

  • 正优势 (\(\hat{A} > 0\)):更新是聚焦的——增加采样 token 的 logit,降低其他 token 的 logit,方差小
  • 负优势 (\(\hat{A} < 0\)):更新是发散的——降低采样 token 的 logit,但提升所有其他 token(词表大小 ~100K+)的 logit,梯度被分散到大量无关 token,方差大

\(\tau_{\text{neg}} > \tau_{\text{pos}}\) 使得负样本的梯度衰减更快,抑制高方差效应。