2.7 闭源模型概览¶

说明

OpenAI、Google、Anthropic 的闭源模型在 Post-Training 方面披露有限。本节仅汇总可考证的关键信息，不做推测性分析。

OpenAI -- 可参考的安全对齐细节¶

OpenAI 从未公开其核心 RL 训练细节（o1/o3/GPT-5 的 RL Pipeline、奖励模型设计等均未披露）。但以下两篇论文提供了安全对齐层面的参考：

Deliberative Alignment (arXiv:2412.16339)：

4 阶段安全 Pipeline：规则生成 → CoT 安全推理 → 输出过滤 → 监控
Spec-aware reasoning：模型在 CoT 中显式引用安全规范条目（"According to rule 3.2, I should..."）
CoT 对 RM 隐藏：安全推理过程不暴露给 RM，避免 RM 学会利用安全推理模式进行 reward hack

GPT-5 Safe-Completions (arXiv:2508.09224)：

乘法奖励：r = helpfulness × safety（而非 helpfulness + λ·safety）
效果：safety=0 时 r=0，无论 helpfulness 多高 -- 彻底杜绝"高帮助性掩盖低安全性"

Google Gemini -- "RL*F" 与有限披露¶

Gemini 2.5 技术报告（73 页）仅用 ~2 段描述 Post-Training：

DRM + Critic = "RL*F"：使用某种 reward model + critic 的组合，但具体算法未公开
Thinking budget：1024-32768 tokens，可控范围
报告未提及 BOND/WARM/WARP -- 这些方法出现在 Gemma 3 报告中（Gemma 是开源版本，技术栈可能不同）

注意区分

Google 的 Gemma（开源）和 Gemini（闭源）在 Post-Training 技术栈上可能有显著差异。Gemma 3 报告中的 BOND（Best-of-N Distillation）、WARM（Weight Averaged Reward Models）、WARP（Weight Averaged Reward Policies）不能直接推断为 Gemini 的方法。

Anthropic -- Constitutional AI 基础¶

Anthropic 的公开文献主要集中在 2022-2023 年：

Constitutional AI (CAI) (arXiv:2212.08073)：奠基性论文。AI 生成批评 → 修改 → 偏好数据 → RL。核心思想被后续多个模型借鉴（K2 Self-Critique、V3 Self-Rewarding 等）
HH-RLHF：包含完整 PPO 超参数的公开论文，是少数公开 RL 训练细节的工业报告
Claude 3.5/4 系列的具体 Post-Training 方法未公开