2.7 闭源模型概览¶
说明
OpenAI、Google、Anthropic 的闭源模型在 Post-Training 方面披露有限。本节仅汇总可考证的关键信息,不做推测性分析。
OpenAI -- 可参考的安全对齐细节¶
OpenAI 从未公开其核心 RL 训练细节(o1/o3/GPT-5 的 RL Pipeline、奖励模型设计等均未披露)。但以下两篇论文提供了安全对齐层面的参考:
Deliberative Alignment (arXiv:2412.16339):
- 4 阶段安全 Pipeline:规则生成 → CoT 安全推理 → 输出过滤 → 监控
- Spec-aware reasoning:模型在 CoT 中显式引用安全规范条目("According to rule 3.2, I should...")
- CoT 对 RM 隐藏:安全推理过程不暴露给 RM,避免 RM 学会利用安全推理模式进行 reward hack
GPT-5 Safe-Completions (arXiv:2508.09224):
- 乘法奖励:r = helpfulness × safety(而非 helpfulness + λ·safety)
- 效果:safety=0 时 r=0,无论 helpfulness 多高 -- 彻底杜绝"高帮助性掩盖低安全性"
Google Gemini -- "RL*F" 与有限披露¶
Gemini 2.5 技术报告(73 页)仅用 ~2 段描述 Post-Training:
- DRM + Critic = "RL*F":使用某种 reward model + critic 的组合,但具体算法未公开
- Thinking budget:1024-32768 tokens,可控范围
- 报告未提及 BOND/WARM/WARP -- 这些方法出现在 Gemma 3 报告中(Gemma 是开源版本,技术栈可能不同)
注意区分
Google 的 Gemma(开源)和 Gemini(闭源)在 Post-Training 技术栈上可能有显著差异。Gemma 3 报告中的 BOND(Best-of-N Distillation)、WARM(Weight Averaged Reward Models)、WARP(Weight Averaged Reward Policies)不能直接推断为 Gemini 的方法。
Anthropic -- Constitutional AI 基础¶
Anthropic 的公开文献主要集中在 2022-2023 年:
- Constitutional AI (CAI) (arXiv:2212.08073):奠基性论文。AI 生成批评 → 修改 → 偏好数据 → RL。核心思想被后续多个模型借鉴(K2 Self-Critique、V3 Self-Rewarding 等)
- HH-RLHF:包含完整 PPO 超参数的公开论文,是少数公开 RL 训练细节的工业报告
- Claude 3.5/4 系列的具体 Post-Training 方法未公开