3.3 个人分析与思考¶

本节摘要

基于前两章分析的个人深度思考，涵盖九个核心观点：裁剪→门控的正则化历史重演、Value-Based vs Value-Free 的模型规模依赖、Query 选择作为最被低估的杠杆、RL "教授 vs 选择"的转折点假说、Post-Training 两层经济结构的形成，以及数据飞轮作为终局方向的判断。

声明

本节是作者基于前两章内容的个人分析和主观判断，标注为「💭」。这些观点可能存在偏差，仅供参考和讨论。

算法演进的深层规律¶

💭 观点 1：裁剪 → 门控的演进是正则化历史的重演

从 PPO 的硬裁剪到 SAPO 的软门控，这条演进路径与机器学习中正则化技术的演进惊人地相似：

L1 正则化（Lasso）：硬阈值，稀疏但不可微 → PPO/GRPO 硬裁剪：阈值处梯度跳变为零
Elastic Net（L1+L2 混合）：部分平滑 → DAPO 非对称裁剪：放宽上界但仍是硬边界
L2 正则化（Ridge）：处处可微，平滑衰减 → SAPO 软门控：Sigmoid sech² 衰减，连续信任域

正则化领域的经验告诉我们：硬阈值在理论上优雅（稀疏性），但在优化实践中处处可微的方案几乎总是赢家。SAPO 的出现不是偶然 -- 它是这一规律在 RL 信任域设计中的必然体现。

推论：未来的算法改进大概率会在 SAPO 的连续框架上做文章（如自适应温度、任务感知的门控形状），而不会回到硬裁剪路线。

💭 观点 2：Value-Based vs Value-Free 本质上是模型规模问题，不是算法优劣问题

VAPO 的消融实验无可辩驳：在可行的规模上（≤200B 活跃参数），修好 Critic 后 Value-Based 明显更强（60.4 vs 50.0 AIME）。Seed1.5-Thinking 在 200B 规模复现了这一优势。

但 DeepSeek 选择 GRPO 并非因为算法判断失误 -- 为 671B MoE 的每个活跃参数都训练一个对等的 Critic，内存开销在当前硬件下不可承受。

这意味着"最佳算法"是模型架构的函数，而非绝对存在的：

活跃参数 <100B 的稠密模型：VAPO（精确 token 级信用分配，Critic 成本可控）
活跃参数 >200B 的 MoE 模型：GSPO/SAPO（无 Critic 开销，序列级稳定性）
中间地带（100-200B）：取决于具体硬件预算和任务类型

一个值得探索的方向是轻量级 Critic 近似：不训练全尺寸 Critic，而是用小模型/共享骨干/蒸馏 Critic 来近似 token 级 advantage。如果能在大 MoE 上以 5-10% 的额外开销获得 Critic 的部分收益，将是一个重要突破。

被低估的杠杆与被高估的方向¶

💭 观点 3：Query 选择是 Post-Training 中最被低估的杠杆

Qwen3 的数据是最具冲击力的：3,995 条 query、170 步 RL = +15 AIME。这意味着在正确的 query 上，极少量的 RL 训练就能释放巨大的能力提升。相比之下，算法改进（从 GRPO 到 SAPO）的累积提升虽然重要，但单项贡献往往在 +2-5 分量级。

DAPO 的 Dynamic Sampling 也佐证了这一点：它的核心不是改变优化算法，而是改变"喂给算法的数据" -- 仅此一项就贡献了 +8 AIME，超过 Clip-Higher（+2）和 Token-Level Loss（+1）的总和。

如果这个规律成立，那么下一个重大突破可能不在 RL 算法设计，而在自动化的课程学习/query 生成：

自动评估每条 query 的"信息量"（模型在该 query 上的不确定性）
动态生成恰好在模型能力边界的 query（不是从固定题库中选择，而是合成新题）
在训练过程中持续调整 query 分布，跟踪模型能力的演进

这本质上是将 Active Learning 和 Curriculum Learning 深度融入 RL 训练循环。

💭 观点 4：算法创新的边际收益正在递减，但递减速度没有想象中快

一个流行的观点是"算法已经不重要了，工程和数据才是关键"。这部分正确，但过于简化。

递减的证据：GRPO → DAPO（+20 AIME，巨大提升），DAPO → VAPO（+10），GSPO → SAPO（+2-4，持续收窄）。

但递减并非均匀的 -- 每当有人解决了一个"结构性限制"，就会出现一次跳跃：

CISPO 解决梯度归零 -- 这不是微调，而是修复一个根本缺陷
GSPO 解决 MoE 不稳定 -- 在 MoE 模型上这是决定性的
VAPO 修复 Critic -- 将一个"不可用"的组件变为"可用"

我的判断：通用的"调参型"算法改进确实在递减，但"修复结构性限制"型的突破仍有大量空间。例如，如果有人找到了在大 MoE 上高效运行 Critic 的方法，将立即释放 VAPO 级别的收益。

RL 的本质：教授还是选择？¶

💭 观点 5：RL 的"教"与"选"取决于训练时长，转折点可以被实验确定

关于 "RL 是在教模型新能力，还是仅在选择预训练中已有的能力" 这一争论，前两章的证据提供了一个更清晰的图景：

支持"选择"的证据：

Qwen3 仅 170 步 RL 就大幅提升 -- 能力显然已在基座模型中
R1-Zero 的推理行为在 RL 之前就以潜在形式存在于 V3 Base 中
Rejection Sampling（纯选择，无参数更新）已能显著提升性能

支持"教授"的证据：

R1-Zero 涌现了 "aha moment" 等预训练数据中从未出现的行为
ProRL 证明延长 RL 训练可以突破基座模型的推理边界
蒸馏的天花板低于从头 RL -- RL 确实在做"额外的事"

我的判断：RL 早期是"选择"（放大已有好行为），后期逐渐转向"教授"（探索新推理模式）。转折点大约在 Rejection Sampling 性能饱和的地方。 在 Rejection Sampling 还能有效提升的阶段，RL 的主要作用是更高效的选择；当 Rejection Sampling 不再提升时，RL 开始真正"教"模型新东西。

这也解释了为什么 DeepSeek 发现蒸馏对小模型效果极好（+25 AIME 超过直接 RL）-- 小模型的"已有能力"相对匮乏，需要先通过蒸馏获得基本能力（"选择"的前提），然后才能通过 RL 进一步学习。

产业格局与竞争壁垒¶

💭 观点 6：Post-Training 正在形成两层经济结构

从 ch2 的模型对比中可以清晰看到一个分层：

第一层（前沿实验室）：投入大量算力做大规模 RL 训练，产出教师模型和蒸馏数据。代表：DeepSeek（V3.2 RL 成本比 V3 增长 ~50 倍）、Seed（VAPO 60+ AIME）、Qwen（3 代 pipeline 迭代）。

第二层（应用团队）：蒸馏 + 轻量 RL 或纯 SFT。代表：DeepSeek R1-Distill 系列（1.5B 超过 GPT-4o）。

V3 的 Post-Training 成本仅 \(10K（总训练的 0.18%），但 V3.2 已经跳增到估计 ~\)500K+。DeepSeek 团队明确表示"RL scaling has not saturated"。这意味着 Post-Training 的算力竞争正在快速升级，从"廉价的最后一步"变成"与 Pre-Training 同量级的投入"。

对于资源有限的团队，务实的策略是：不要试图在算法前沿竞争，而是在蒸馏效率和领域适配上建立优势。

💭 观点 7：真正的护城河在数据构造，不在算法

阅读 12+ 篇技术报告后，一个深刻的体会是：算法是公开的，数据是秘密的。

公开的（可复现）	秘密的（不可复现）
GRPO/DAPO/VAPO/GSPO/SAPO 算法	DeepSeek R1 Cold Start SFT 的数据构造方法
开源训练框架（veRL、OpenRLHF）	Kimi K2 的 3K 真实 MCP 工具 + 20K 合成工具的生成流程
超参数范围（论文中的 Table）	Qwen2.5 六维 RM 的标注规范和数据配比
训练 pipeline 的阶段划分	各阶段之间的数据过渡策略

DAPO 团队开源了算法和训练框架，任何人都可以在 DAPO 上跑 AIME -- 但要达到 DAPO 论文的 50 分，你还需要精心构造的 query 集、合适的难度分布、以及大量的超参数调优经验。这些"秘密"构成了各家的真正竞争壁垒。

对未来方向的判断¶

💭 观点 8：SAPO 的统一视角暗示了自适应优化框架的未来

SAPO 论文最重要的贡献不是 Sigmoid 门控本身，而是它揭示的统一视角：所有 Post-Training 算法都可以表示为 \(f(r) \cdot A\) 的形式，区别仅在于 \(f(r)\) 的具体形状。

算法	\(f(r)\) 的形状
GRPO	分段线性（clip 后的 min 函数）
DAPO	非对称分段线性
GSPO	序列级分段线性
SAPO	连续 Sigmoid（sech² 加权）

如果这个统一框架是正确的，那么下一步自然是：让 \(f(r)\) 的形状自适应。不是手动选择裁剪还是门控、token 级还是序列级，而是让模型/训练过程根据当前状态（序列长度、任务类型、训练阶段、模型架构）自动选择最优的 \(f(r)\)。

具体可能的形式：

温度自适应：SAPO 的 τ 不是固定值，而是一个可学习的函数 τ(context)
粒度自适应：同一批次中，短序列用 token 级、长序列自动切换到序列级
阶段自适应：RL 训练早期用宽松的门控（鼓励探索），后期收紧（精细优化）

这将是从"人工选择算法"到"算法自动配置"的转变。

💭 观点 9：Post-Training 的终局可能不是更好的 RL 算法，而是更好的数据飞轮

综合前两章的所有证据，我看到一个趋势：最成功的 Post-Training pipeline 都在构建数据飞轮，而不仅仅是优化算法。

DeepSeek V3：Self-Rewarding -- 模型自己生成偏好数据，迭代提升
V3.2：Specialist Distillation -- 8 个专家的 RL 产出成为通用模型的训练数据
Kimi K2：3K 真实工具 + 20K 合成工具 + 轨迹生成 -- 自动化数据合成 pipeline
MiniMax M2.7：模型处理自身 30-50% 的 RL 研究工作流 -- 自我进化

终局图景可能是：模型自己生成训练 query、自己评估输出质量、自己迭代训练数据。RL 算法只是这个飞轮中的一个组件，而非核心瓶颈。真正的竞争会转移到：谁能构建最高效的自我进化循环？

MiniMax M2.7 已经展示了这种方向的雏形 -- 80% 的新代码由模型生成。如果这一趋势加速，Post-Training 的人力瓶颈将从"训练工程师调参"转向"设计自进化系统的架构师"。

写在最后¶

Post-Training 正处于一个极其活跃的阶段。2025 年一年内涌现的算法创新（GRPO → DAPO → VAPO → CISPO → GSPO → SAPO）可能比整个 RLHF 时代（2022-2024）的总和还多。但数量的爆发也带来了选择困难 -- 对于大多数团队来说，把一个算法跑好（高质量 query + 稳定工程 + 充分调优），远比追逐最新论文更有价值。

如果只能给一条建议，那就是：先确保你的 Dynamic Sampling 在正常工作。这一项的投入产出比，超过了几乎所有其他优化的总和。