3.3 个人分析与思考¶
本节摘要
基于前两章分析的个人深度思考,涵盖九个核心观点:裁剪→门控的正则化历史重演、Value-Based vs Value-Free 的模型规模依赖、Query 选择作为最被低估的杠杆、RL "教授 vs 选择"的转折点假说、Post-Training 两层经济结构的形成,以及数据飞轮作为终局方向的判断。
声明
本节是作者基于前两章内容的个人分析和主观判断,标注为「💭」。这些观点可能存在偏差,仅供参考和讨论。
算法演进的深层规律¶
💭 观点 1:裁剪 → 门控的演进是正则化历史的重演
从 PPO 的硬裁剪到 SAPO 的软门控,这条演进路径与机器学习中正则化技术的演进惊人地相似:
- L1 正则化(Lasso):硬阈值,稀疏但不可微 → PPO/GRPO 硬裁剪:阈值处梯度跳变为零
- Elastic Net(L1+L2 混合):部分平滑 → DAPO 非对称裁剪:放宽上界但仍是硬边界
- L2 正则化(Ridge):处处可微,平滑衰减 → SAPO 软门控:Sigmoid sech² 衰减,连续信任域
正则化领域的经验告诉我们:硬阈值在理论上优雅(稀疏性),但在优化实践中处处可微的方案几乎总是赢家。SAPO 的出现不是偶然 -- 它是这一规律在 RL 信任域设计中的必然体现。
推论:未来的算法改进大概率会在 SAPO 的连续框架上做文章(如自适应温度、任务感知的门控形状),而不会回到硬裁剪路线。
💭 观点 2:Value-Based vs Value-Free 本质上是模型规模问题,不是算法优劣问题
VAPO 的消融实验无可辩驳:在可行的规模上(≤200B 活跃参数),修好 Critic 后 Value-Based 明显更强(60.4 vs 50.0 AIME)。Seed1.5-Thinking 在 200B 规模复现了这一优势。
但 DeepSeek 选择 GRPO 并非因为算法判断失误 -- 为 671B MoE 的每个活跃参数都训练一个对等的 Critic,内存开销在当前硬件下不可承受。
这意味着"最佳算法"是模型架构的函数,而非绝对存在的:
- 活跃参数 <100B 的稠密模型:VAPO(精确 token 级信用分配,Critic 成本可控)
- 活跃参数 >200B 的 MoE 模型:GSPO/SAPO(无 Critic 开销,序列级稳定性)
- 中间地带(100-200B):取决于具体硬件预算和任务类型
一个值得探索的方向是轻量级 Critic 近似:不训练全尺寸 Critic,而是用小模型/共享骨干/蒸馏 Critic 来近似 token 级 advantage。如果能在大 MoE 上以 5-10% 的额外开销获得 Critic 的部分收益,将是一个重要突破。
被低估的杠杆与被高估的方向¶
💭 观点 3:Query 选择是 Post-Training 中最被低估的杠杆
Qwen3 的数据是最具冲击力的:3,995 条 query、170 步 RL = +15 AIME。这意味着在正确的 query 上,极少量的 RL 训练就能释放巨大的能力提升。相比之下,算法改进(从 GRPO 到 SAPO)的累积提升虽然重要,但单项贡献往往在 +2-5 分量级。
DAPO 的 Dynamic Sampling 也佐证了这一点:它的核心不是改变优化算法,而是改变"喂给算法的数据" -- 仅此一项就贡献了 +8 AIME,超过 Clip-Higher(+2)和 Token-Level Loss(+1)的总和。
如果这个规律成立,那么下一个重大突破可能不在 RL 算法设计,而在自动化的课程学习/query 生成:
- 自动评估每条 query 的"信息量"(模型在该 query 上的不确定性)
- 动态生成恰好在模型能力边界的 query(不是从固定题库中选择,而是合成新题)
- 在训练过程中持续调整 query 分布,跟踪模型能力的演进
这本质上是将 Active Learning 和 Curriculum Learning 深度融入 RL 训练循环。
💭 观点 4:算法创新的边际收益正在递减,但递减速度没有想象中快
一个流行的观点是"算法已经不重要了,工程和数据才是关键"。这部分正确,但过于简化。
递减的证据:GRPO → DAPO(+20 AIME,巨大提升),DAPO → VAPO(+10),GSPO → SAPO(+2-4,持续收窄)。
但递减并非均匀的 -- 每当有人解决了一个"结构性限制",就会出现一次跳跃:
- CISPO 解决梯度归零 -- 这不是微调,而是修复一个根本缺陷
- GSPO 解决 MoE 不稳定 -- 在 MoE 模型上这是决定性的
- VAPO 修复 Critic -- 将一个"不可用"的组件变为"可用"
我的判断:通用的"调参型"算法改进确实在递减,但"修复结构性限制"型的突破仍有大量空间。例如,如果有人找到了在大 MoE 上高效运行 Critic 的方法,将立即释放 VAPO 级别的收益。
RL 的本质:教授还是选择?¶
💭 观点 5:RL 的"教"与"选"取决于训练时长,转折点可以被实验确定
关于 "RL 是在教模型新能力,还是仅在选择预训练中已有的能力" 这一争论,前两章的证据提供了一个更清晰的图景:
支持"选择"的证据:
- Qwen3 仅 170 步 RL 就大幅提升 -- 能力显然已在基座模型中
- R1-Zero 的推理行为在 RL 之前就以潜在形式存在于 V3 Base 中
- Rejection Sampling(纯选择,无参数更新)已能显著提升性能
支持"教授"的证据:
- R1-Zero 涌现了 "aha moment" 等预训练数据中从未出现的行为
- ProRL 证明延长 RL 训练可以突破基座模型的推理边界
- 蒸馏的天花板低于从头 RL -- RL 确实在做"额外的事"
我的判断:RL 早期是"选择"(放大已有好行为),后期逐渐转向"教授"(探索新推理模式)。转折点大约在 Rejection Sampling 性能饱和的地方。 在 Rejection Sampling 还能有效提升的阶段,RL 的主要作用是更高效的选择;当 Rejection Sampling 不再提升时,RL 开始真正"教"模型新东西。
这也解释了为什么 DeepSeek 发现蒸馏对小模型效果极好(+25 AIME 超过直接 RL)-- 小模型的"已有能力"相对匮乏,需要先通过蒸馏获得基本能力("选择"的前提),然后才能通过 RL 进一步学习。
产业格局与竞争壁垒¶
💭 观点 6:Post-Training 正在形成两层经济结构
从 ch2 的模型对比中可以清晰看到一个分层:
第一层(前沿实验室):投入大量算力做大规模 RL 训练,产出教师模型和蒸馏数据。代表:DeepSeek(V3.2 RL 成本比 V3 增长 ~50 倍)、Seed(VAPO 60+ AIME)、Qwen(3 代 pipeline 迭代)。
第二层(应用团队):蒸馏 + 轻量 RL 或纯 SFT。代表:DeepSeek R1-Distill 系列(1.5B 超过 GPT-4o)。
V3 的 Post-Training 成本仅 \(10K(总训练的 0.18%),但 V3.2 已经跳增到估计 ~\)500K+。DeepSeek 团队明确表示"RL scaling has not saturated"。这意味着 Post-Training 的算力竞争正在快速升级,从"廉价的最后一步"变成"与 Pre-Training 同量级的投入"。
对于资源有限的团队,务实的策略是:不要试图在算法前沿竞争,而是在蒸馏效率和领域适配上建立优势。
💭 观点 7:真正的护城河在数据构造,不在算法
阅读 12+ 篇技术报告后,一个深刻的体会是:算法是公开的,数据是秘密的。
| 公开的(可复现) | 秘密的(不可复现) |
|---|---|
| GRPO/DAPO/VAPO/GSPO/SAPO 算法 | DeepSeek R1 Cold Start SFT 的数据构造方法 |
| 开源训练框架(veRL、OpenRLHF) | Kimi K2 的 3K 真实 MCP 工具 + 20K 合成工具的生成流程 |
| 超参数范围(论文中的 Table) | Qwen2.5 六维 RM 的标注规范和数据配比 |
| 训练 pipeline 的阶段划分 | 各阶段之间的数据过渡策略 |
DAPO 团队开源了算法和训练框架,任何人都可以在 DAPO 上跑 AIME -- 但要达到 DAPO 论文的 50 分,你还需要精心构造的 query 集、合适的难度分布、以及大量的超参数调优经验。这些"秘密"构成了各家的真正竞争壁垒。
对未来方向的判断¶
💭 观点 8:SAPO 的统一视角暗示了自适应优化框架的未来
SAPO 论文最重要的贡献不是 Sigmoid 门控本身,而是它揭示的统一视角:所有 Post-Training 算法都可以表示为 \(f(r) \cdot A\) 的形式,区别仅在于 \(f(r)\) 的具体形状。
| 算法 | \(f(r)\) 的形状 |
|---|---|
| GRPO | 分段线性(clip 后的 min 函数) |
| DAPO | 非对称分段线性 |
| GSPO | 序列级分段线性 |
| SAPO | 连续 Sigmoid(sech² 加权) |
如果这个统一框架是正确的,那么下一步自然是:让 \(f(r)\) 的形状自适应。不是手动选择裁剪还是门控、token 级还是序列级,而是让模型/训练过程根据当前状态(序列长度、任务类型、训练阶段、模型架构)自动选择最优的 \(f(r)\)。
具体可能的形式:
- 温度自适应:SAPO 的 τ 不是固定值,而是一个可学习的函数 τ(context)
- 粒度自适应:同一批次中,短序列用 token 级、长序列自动切换到序列级
- 阶段自适应:RL 训练早期用宽松的门控(鼓励探索),后期收紧(精细优化)
这将是从"人工选择算法"到"算法自动配置"的转变。
💭 观点 9:Post-Training 的终局可能不是更好的 RL 算法,而是更好的数据飞轮
综合前两章的所有证据,我看到一个趋势:最成功的 Post-Training pipeline 都在构建数据飞轮,而不仅仅是优化算法。
- DeepSeek V3:Self-Rewarding -- 模型自己生成偏好数据,迭代提升
- V3.2:Specialist Distillation -- 8 个专家的 RL 产出成为通用模型的训练数据
- Kimi K2:3K 真实工具 + 20K 合成工具 + 轨迹生成 -- 自动化数据合成 pipeline
- MiniMax M2.7:模型处理自身 30-50% 的 RL 研究工作流 -- 自我进化
终局图景可能是:模型自己生成训练 query、自己评估输出质量、自己迭代训练数据。RL 算法只是这个飞轮中的一个组件,而非核心瓶颈。真正的竞争会转移到:谁能构建最高效的自我进化循环?
MiniMax M2.7 已经展示了这种方向的雏形 -- 80% 的新代码由模型生成。如果这一趋势加速,Post-Training 的人力瓶颈将从"训练工程师调参"转向"设计自进化系统的架构师"。
写在最后¶
Post-Training 正处于一个极其活跃的阶段。2025 年一年内涌现的算法创新(GRPO → DAPO → VAPO → CISPO → GSPO → SAPO)可能比整个 RLHF 时代(2022-2024)的总和还多。但数量的爆发也带来了选择困难 -- 对于大多数团队来说,把一个算法跑好(高质量 query + 稳定工程 + 充分调优),远比追逐最新论文更有价值。
如果只能给一条建议,那就是:先确保你的 Dynamic Sampling 在正常工作。这一项的投入产出比,超过了几乎所有其他优化的总和。