跳转至

3.3 个人分析与思考

本节摘要

基于前两章分析的个人深度思考,涵盖九个核心观点:裁剪→门控的正则化历史重演、Value-Based vs Value-Free 的模型规模依赖、Query 选择作为最被低估的杠杆、RL "教授 vs 选择"的转折点假说、Post-Training 两层经济结构的形成,以及数据飞轮作为终局方向的判断。

声明

本节是作者基于前两章内容的个人分析和主观判断,标注为「💭」。这些观点可能存在偏差,仅供参考和讨论。

算法演进的深层规律

💭 观点 1:裁剪 → 门控的演进是正则化历史的重演

从 PPO 的硬裁剪到 SAPO 的软门控,这条演进路径与机器学习中正则化技术的演进惊人地相似:

  • L1 正则化(Lasso):硬阈值,稀疏但不可微 → PPO/GRPO 硬裁剪:阈值处梯度跳变为零
  • Elastic Net(L1+L2 混合):部分平滑 → DAPO 非对称裁剪:放宽上界但仍是硬边界
  • L2 正则化(Ridge):处处可微,平滑衰减 → SAPO 软门控:Sigmoid sech² 衰减,连续信任域

正则化领域的经验告诉我们:硬阈值在理论上优雅(稀疏性),但在优化实践中处处可微的方案几乎总是赢家。SAPO 的出现不是偶然 -- 它是这一规律在 RL 信任域设计中的必然体现。

推论:未来的算法改进大概率会在 SAPO 的连续框架上做文章(如自适应温度、任务感知的门控形状),而不会回到硬裁剪路线。

💭 观点 2:Value-Based vs Value-Free 本质上是模型规模问题,不是算法优劣问题

VAPO 的消融实验无可辩驳:在可行的规模上(≤200B 活跃参数),修好 Critic 后 Value-Based 明显更强(60.4 vs 50.0 AIME)。Seed1.5-Thinking 在 200B 规模复现了这一优势。

但 DeepSeek 选择 GRPO 并非因为算法判断失误 -- 为 671B MoE 的每个活跃参数都训练一个对等的 Critic,内存开销在当前硬件下不可承受。

这意味着"最佳算法"是模型架构的函数,而非绝对存在的

  • 活跃参数 <100B 的稠密模型:VAPO(精确 token 级信用分配,Critic 成本可控)
  • 活跃参数 >200B 的 MoE 模型:GSPO/SAPO(无 Critic 开销,序列级稳定性)
  • 中间地带(100-200B):取决于具体硬件预算和任务类型

一个值得探索的方向是轻量级 Critic 近似:不训练全尺寸 Critic,而是用小模型/共享骨干/蒸馏 Critic 来近似 token 级 advantage。如果能在大 MoE 上以 5-10% 的额外开销获得 Critic 的部分收益,将是一个重要突破。

被低估的杠杆与被高估的方向

💭 观点 3:Query 选择是 Post-Training 中最被低估的杠杆

Qwen3 的数据是最具冲击力的:3,995 条 query、170 步 RL = +15 AIME。这意味着在正确的 query 上,极少量的 RL 训练就能释放巨大的能力提升。相比之下,算法改进(从 GRPO 到 SAPO)的累积提升虽然重要,但单项贡献往往在 +2-5 分量级。

DAPO 的 Dynamic Sampling 也佐证了这一点:它的核心不是改变优化算法,而是改变"喂给算法的数据" -- 仅此一项就贡献了 +8 AIME,超过 Clip-Higher(+2)和 Token-Level Loss(+1)的总和。

如果这个规律成立,那么下一个重大突破可能不在 RL 算法设计,而在自动化的课程学习/query 生成

  • 自动评估每条 query 的"信息量"(模型在该 query 上的不确定性)
  • 动态生成恰好在模型能力边界的 query(不是从固定题库中选择,而是合成新题)
  • 在训练过程中持续调整 query 分布,跟踪模型能力的演进

这本质上是将 Active Learning 和 Curriculum Learning 深度融入 RL 训练循环。

💭 观点 4:算法创新的边际收益正在递减,但递减速度没有想象中快

一个流行的观点是"算法已经不重要了,工程和数据才是关键"。这部分正确,但过于简化。

递减的证据:GRPO → DAPO(+20 AIME,巨大提升),DAPO → VAPO(+10),GSPO → SAPO(+2-4,持续收窄)。

但递减并非均匀的 -- 每当有人解决了一个"结构性限制",就会出现一次跳跃:

  • CISPO 解决梯度归零 -- 这不是微调,而是修复一个根本缺陷
  • GSPO 解决 MoE 不稳定 -- 在 MoE 模型上这是决定性的
  • VAPO 修复 Critic -- 将一个"不可用"的组件变为"可用"

我的判断:通用的"调参型"算法改进确实在递减,但"修复结构性限制"型的突破仍有大量空间。例如,如果有人找到了在大 MoE 上高效运行 Critic 的方法,将立即释放 VAPO 级别的收益。

RL 的本质:教授还是选择?

💭 观点 5:RL 的"教"与"选"取决于训练时长,转折点可以被实验确定

关于 "RL 是在模型新能力,还是仅在选择预训练中已有的能力" 这一争论,前两章的证据提供了一个更清晰的图景:

支持"选择"的证据

  • Qwen3 仅 170 步 RL 就大幅提升 -- 能力显然已在基座模型中
  • R1-Zero 的推理行为在 RL 之前就以潜在形式存在于 V3 Base 中
  • Rejection Sampling(纯选择,无参数更新)已能显著提升性能

支持"教授"的证据

  • R1-Zero 涌现了 "aha moment" 等预训练数据中从未出现的行为
  • ProRL 证明延长 RL 训练可以突破基座模型的推理边界
  • 蒸馏的天花板低于从头 RL -- RL 确实在做"额外的事"

我的判断:RL 早期是"选择"(放大已有好行为),后期逐渐转向"教授"(探索新推理模式)。转折点大约在 Rejection Sampling 性能饱和的地方。 在 Rejection Sampling 还能有效提升的阶段,RL 的主要作用是更高效的选择;当 Rejection Sampling 不再提升时,RL 开始真正"教"模型新东西。

这也解释了为什么 DeepSeek 发现蒸馏对小模型效果极好(+25 AIME 超过直接 RL)-- 小模型的"已有能力"相对匮乏,需要先通过蒸馏获得基本能力("选择"的前提),然后才能通过 RL 进一步学习。

产业格局与竞争壁垒

💭 观点 6:Post-Training 正在形成两层经济结构

从 ch2 的模型对比中可以清晰看到一个分层:

第一层(前沿实验室):投入大量算力做大规模 RL 训练,产出教师模型和蒸馏数据。代表:DeepSeek(V3.2 RL 成本比 V3 增长 ~50 倍)、Seed(VAPO 60+ AIME)、Qwen(3 代 pipeline 迭代)。

第二层(应用团队):蒸馏 + 轻量 RL 或纯 SFT。代表:DeepSeek R1-Distill 系列(1.5B 超过 GPT-4o)。

V3 的 Post-Training 成本仅 \(10K(总训练的 0.18%),但 V3.2 已经跳增到估计 ~\)500K+。DeepSeek 团队明确表示"RL scaling has not saturated"。这意味着 Post-Training 的算力竞争正在快速升级,从"廉价的最后一步"变成"与 Pre-Training 同量级的投入"。

对于资源有限的团队,务实的策略是:不要试图在算法前沿竞争,而是在蒸馏效率和领域适配上建立优势

💭 观点 7:真正的护城河在数据构造,不在算法

阅读 12+ 篇技术报告后,一个深刻的体会是:算法是公开的,数据是秘密的

公开的(可复现) 秘密的(不可复现)
GRPO/DAPO/VAPO/GSPO/SAPO 算法 DeepSeek R1 Cold Start SFT 的数据构造方法
开源训练框架(veRL、OpenRLHF) Kimi K2 的 3K 真实 MCP 工具 + 20K 合成工具的生成流程
超参数范围(论文中的 Table) Qwen2.5 六维 RM 的标注规范和数据配比
训练 pipeline 的阶段划分 各阶段之间的数据过渡策略

DAPO 团队开源了算法和训练框架,任何人都可以在 DAPO 上跑 AIME -- 但要达到 DAPO 论文的 50 分,你还需要精心构造的 query 集、合适的难度分布、以及大量的超参数调优经验。这些"秘密"构成了各家的真正竞争壁垒。

对未来方向的判断

💭 观点 8:SAPO 的统一视角暗示了自适应优化框架的未来

SAPO 论文最重要的贡献不是 Sigmoid 门控本身,而是它揭示的统一视角:所有 Post-Training 算法都可以表示为 \(f(r) \cdot A\) 的形式,区别仅在于 \(f(r)\) 的具体形状。

算法 \(f(r)\) 的形状
GRPO 分段线性(clip 后的 min 函数)
DAPO 非对称分段线性
GSPO 序列级分段线性
SAPO 连续 Sigmoid(sech² 加权)

如果这个统一框架是正确的,那么下一步自然是:\(f(r)\) 的形状自适应。不是手动选择裁剪还是门控、token 级还是序列级,而是让模型/训练过程根据当前状态(序列长度、任务类型、训练阶段、模型架构)自动选择最优的 \(f(r)\)

具体可能的形式:

  • 温度自适应:SAPO 的 τ 不是固定值,而是一个可学习的函数 τ(context)
  • 粒度自适应:同一批次中,短序列用 token 级、长序列自动切换到序列级
  • 阶段自适应:RL 训练早期用宽松的门控(鼓励探索),后期收紧(精细优化)

这将是从"人工选择算法"到"算法自动配置"的转变。

💭 观点 9:Post-Training 的终局可能不是更好的 RL 算法,而是更好的数据飞轮

综合前两章的所有证据,我看到一个趋势:最成功的 Post-Training pipeline 都在构建数据飞轮,而不仅仅是优化算法。

  • DeepSeek V3:Self-Rewarding -- 模型自己生成偏好数据,迭代提升
  • V3.2:Specialist Distillation -- 8 个专家的 RL 产出成为通用模型的训练数据
  • Kimi K2:3K 真实工具 + 20K 合成工具 + 轨迹生成 -- 自动化数据合成 pipeline
  • MiniMax M2.7:模型处理自身 30-50% 的 RL 研究工作流 -- 自我进化

终局图景可能是:模型自己生成训练 query、自己评估输出质量、自己迭代训练数据。RL 算法只是这个飞轮中的一个组件,而非核心瓶颈。真正的竞争会转移到:谁能构建最高效的自我进化循环?

MiniMax M2.7 已经展示了这种方向的雏形 -- 80% 的新代码由模型生成。如果这一趋势加速,Post-Training 的人力瓶颈将从"训练工程师调参"转向"设计自进化系统的架构师"。


写在最后

Post-Training 正处于一个极其活跃的阶段。2025 年一年内涌现的算法创新(GRPO → DAPO → VAPO → CISPO → GSPO → SAPO)可能比整个 RLHF 时代(2022-2024)的总和还多。但数量的爆发也带来了选择困难 -- 对于大多数团队来说,把一个算法跑好(高质量 query + 稳定工程 + 充分调优),远比追逐最新论文更有价值

如果只能给一条建议,那就是:先确保你的 Dynamic Sampling 在正常工作。这一项的投入产出比,超过了几乎所有其他优化的总和。