1.10 SAPO — 连续信任域的软门控¶

论文：SAPO

Soft Adaptive Policy Optimization (Alibaba / Qwen Team, 2025) arXiv: 2511.20347 地位: 用连续的 Soft Gating 替代所有先前算法的 Hard Clipping，应用于 Qwen3-VL

核心问题¶

所有先前算法都使用某种形式的 Hard Clipping。Hard Clipping 在裁剪边界处存在不连续的梯度跳变，难以平衡稳定性与有效学习。

核心公式¶

Soft Gating 函数:

\[ f_{i,t}(x) = \sigma\!\left(\tau_{i,t} \cdot (x - 1)\right) \cdot \frac{4}{\tau_{i,t}} \]

温度参数根据优势符号自适应：\(\tau_{\text{pos}} = 1.0\)，\(\tau_{\text{neg}} = 1.05\)（非对称温度）。

梯度权重: \(w_{i,t}(\theta) = 4 \cdot p \cdot (1 - p)\)，其中 \(p = \sigma(\tau(r-1))\)。

在 \(r = 1\)（on-policy）处取最大值 \(w = 1\)
随 \(r\) 偏离 1 平滑对称衰减（\(\text{sech}^2\) 形状）
永远不为零

统一视角：三种 Gating 函数¶

算法	\(f(r)\) 形式	边界行为
GRPO	\(\min(r, 1+\varepsilon)\)	超过阈值后水平截断，梯度 = 0
GSPO	\(\min(s_i, 1+\varepsilon)\)（序列级）	超过阈值后水平截断
SAPO	\(\frac{4}{\tau}\sigma(\tau(r-1))\)	平滑 S 形饱和，从不完全截断

与 GSPO 的联系¶

论文证明在温和条件下，SAPO 的 token-level soft gate 会自动近似坍缩为 sequence-level gate，不需要显式选择 token-level 还是 sequence-level——它在 token-level 定义，但自然地表现出 sequence-level 的行为。

为什么要非对称温度¶

正优势 (\(\hat{A} > 0\))：更新是聚焦的——增加采样 token 的 logit，降低其他 token 的 logit，方差小
负优势 (\(\hat{A} < 0\))：更新是发散的——降低采样 token 的 logit，但提升所有其他 token（词表大小 ~100K+）的 logit，梯度被分散到大量无关 token，方差大

\(\tau_{\text{neg}} > \tau_{\text{pos}}\) 使得负样本的梯度衰减更快，抑制高方差效应。