跳转至

2.7 闭源模型概览

说明

OpenAI、Google、Anthropic 的闭源模型在 Post-Training 方面披露有限。本节仅汇总可考证的关键信息,不做推测性分析。

OpenAI -- 可参考的安全对齐细节

OpenAI 从未公开其核心 RL 训练细节(o1/o3/GPT-5 的 RL Pipeline、奖励模型设计等均未披露)。但以下两篇论文提供了安全对齐层面的参考:

Deliberative Alignment (arXiv:2412.16339):

  • 4 阶段安全 Pipeline:规则生成 → CoT 安全推理 → 输出过滤 → 监控
  • Spec-aware reasoning:模型在 CoT 中显式引用安全规范条目("According to rule 3.2, I should...")
  • CoT 对 RM 隐藏:安全推理过程不暴露给 RM,避免 RM 学会利用安全推理模式进行 reward hack

GPT-5 Safe-Completions (arXiv:2508.09224):

  • 乘法奖励:r = helpfulness × safety(而非 helpfulness + λ·safety)
  • 效果:safety=0 时 r=0,无论 helpfulness 多高 -- 彻底杜绝"高帮助性掩盖低安全性"

Google Gemini -- "RL*F" 与有限披露

Gemini 2.5 技术报告(73 页)仅用 ~2 段描述 Post-Training:

  • DRM + Critic = "RL*F":使用某种 reward model + critic 的组合,但具体算法未公开
  • Thinking budget:1024-32768 tokens,可控范围
  • 报告未提及 BOND/WARM/WARP -- 这些方法出现在 Gemma 3 报告中(Gemma 是开源版本,技术栈可能不同)

注意区分

Google 的 Gemma(开源)和 Gemini(闭源)在 Post-Training 技术栈上可能有显著差异。Gemma 3 报告中的 BOND(Best-of-N Distillation)、WARM(Weight Averaged Reward Models)、WARP(Weight Averaged Reward Policies)不能直接推断为 Gemini 的方法

Anthropic -- Constitutional AI 基础

Anthropic 的公开文献主要集中在 2022-2023 年:

  • Constitutional AI (CAI) (arXiv:2212.08073):奠基性论文。AI 生成批评 → 修改 → 偏好数据 → RL。核心思想被后续多个模型借鉴(K2 Self-Critique、V3 Self-Rewarding 等)
  • HH-RLHF:包含完整 PPO 超参数的公开论文,是少数公开 RL 训练细节的工业报告
  • Claude 3.5/4 系列的具体 Post-Training 方法未公开