2.4 MiniMax -- 长上下文到 Agent 原生 RL¶
本节摘要
MiniMax 系列以问题驱动的工程创新为特色:01 引入 Lightning Attention 实现百万级上下文后训练,M1 诊断出 GRPO 裁剪稀有反思 token 的具体失败模式并提出 CISPO 算法(2x 训练加速),M2.5 的 Forge 框架通过 Prefix Tree Merging 实现 40x 多轮训练加速。
报告来源
- MiniMax-01: MiniMax-01: Scaling Foundation Models with Lightning Attention, arXiv:2501.08313 (2025.01)
- MiniMax-M1: M1: Towards Scalable Test-Time Compute with Open Reasoning Models, arXiv:2506.13585 (2025.06)
- MiniMax-M2: 官方发布 (2025.10),无公开论文
- MiniMax-M2.5: Forge 博客 (2026.02)
- MiniMax-M2.7: 官方博客 (2026.03)
MiniMax 系列的独特之处在于工程驱动的创新路径:从 01 的 Lightning Attention 和百万级上下文,到 M1 发现的 GRPO 具体失败模式和 CISPO 修复,再到 M2.5 的 Forge Agent-Native RL 框架,每一步都有具体的问题诊断和针对性解法。
MiniMax-01 -- 长上下文后训练¶
核心动机¶
MiniMax-01 面对的核心问题是:如何在 1M+ 上下文模型上做有效的 Post-Training? 长上下文带来的挑战不仅是 RL 的计算成本,还有 SFT/DPO 数据中"长-短冲突" -- 短任务的偏好不适用于长文档场景。
架构基础¶
| 规格 | MiniMax-01 |
|---|---|
| 总参数 | 456B MoE |
| 激活参数 | 45.9B |
| 原生上下文 | 1M tokens(外推至 4M) |
| 注意力机制 | Lightning Attention(7:1 线性:Softmax 混合) |
| MoE 路由 | Global Router(相似 tokens 共享路由决策) |
Lightning Attention 是 MiniMax 的核心架构创新:一种 I/O-aware 的线性注意力机制。在 1M 上下文场景,标准 Softmax attention 的 KV cache 占据过多显存,而 Lightning Attention 的线性层以 O(n) 复杂度处理大部分 token,仅 1/8 的层使用标准 Softmax 处理需要精确局部注意力的 token。
五阶段后训练 Pipeline¶
MiniMax-01 有所有系列中最细粒度的后训练 Pipeline:
flowchart TD
Base([MiniMax-01 Base\n456B MoE]) --> S1[Short SFT\n标准长度]
S1 --> S2[Long SFT\n64K–1M]
S2 --> S3[Short DPO\n~150K 对]
S3 --> S4[Long DPO\n长文偏好]
S4 --> S5[Online RL\nGRPO 变体]
S5 --> Final([MiniMax-01])
四维 RM 与长短分离动机见下文。
短长分离是 Pipeline 的核心设计哲学:
长-短冲突
直接在混合长短数据上做 SFT/DPO 会导致两个问题:(1) 短数据主导梯度(数量多、loss 高),长上下文能力退化;(2) 短文档的偏好(如"简洁")与长文档的偏好(如"完整")矛盾。分开训练各阶段,每阶段内数据长度分布一致,避免冲突。
四维 RM:
| 维度 | 评估内容 |
|---|---|
| Correctness | 事实准确性 |
| Truthfulness | 不捏造信息 |
| Helpfulness | 任务完成度 |
| Harmlessness | 安全性 |
MiniMax-M1 -- CISPO 与推理 RL¶
核心动机¶
M1 的目标是在 01 的 456B 基座上实现推理 Scaling。但在尝试 GRPO 时,团队发现了具体的失败模式,催生了 CISPO 算法。
GRPO 的具体失败模式¶
发现:GRPO 裁剪稀有反思 token
GRPO 使用 token 级裁剪:对每个 token 的 importance ratio 进行 clip。问题在于稀有但关键的反思性 token(如 "Wait"、"Actually"、"Let me reconsider"):
- 这些 token 在正常生成中概率低(旧策略下 π_old 小)
- RL 训练后它们的概率显著增加(新策略 π_new 大)
- 导致 importance ratio π_new/π_old 极大 -- 被 GRPO 的 clip 机制截断
- 结果:RL 无法有效强化反思行为 -- 这恰恰是推理能力的核心
这一发现直接对应了 DeepSeek-R1-Zero 中 "wait"、"alternatively" 等反思词频增加 5-7 倍的现象 -- GRPO 的 clip 机制会抑制这种涌现。
CISPO 算法¶
CISPO (Clipped Importance-ratio Sequence Policy Optimization) 的核心改变:裁剪 importance ratio 本身,而非 token 级梯度。
对每个 token 分别计算 ratio 并 clip,然后求和:
问题:稀有 token 的大 ratio 被逐个截断
先计算序列级 ratio(如 GSPO 的几何平均),再整体 clip:
效果:稀有 token 的大 ratio 被序列平均稀释,不会被单独截断
CISPO 额外收益:2x 训练速度。序列级裁剪不需要存储每个 token 的 ratio 用于梯度计算,显存和计算均减半。
CISPO vs GSPO
CISPO(MiniMax,2025.06)和 GSPO(Qwen,2025.07)几乎同时独立提出了序列级 importance ratio 的思路,但出发点不同:CISPO 源于"稀有反思 token 被裁剪"的具体失败案例,GSPO 源于"MoE 路由变化导致 token 级 ratio 不稳定"的理论分析。两者殊途同归。
三阶段训练¶
M1 后训练顺序为:CPT(约 7.5T token)→ 长 CoT 冷启动 SFT → RL(CISPO,512×3 周),得到 MiniMax-M1(报告 AIME 86.5)。样本量与成本见正文「成本」段。
成本:512 H800 GPUs × 3 周 ≈ $534K(对比 DeepSeek-R1 的 $5.576M,约 1/10)
关键工程发现¶
工程陷阱 1:优化器超参数
使用 VeRL(开源 RL 框架)的默认 Adam 超参数 β₂=0.999, ε=1e-8 时,训练完全失败。修正为 β₂=0.95, ε=1e-15 后才正常收敛。
原因:RLHF 的 reward 信号比预训练 loss 更稀疏且波动更大,更小的 β₂ 使 Adam 更快适应奖励分布变化,更小的 ε 避免在梯度接近零时的数值不稳定。
工程陷阱 2:FP32 输出头
BF16 精度下的输出 head(语言模型 logit 层)在 RL 训练中导致数值不稳定,必须使用 FP32 输出头。
原因:RL 的策略梯度包含 log π(a|s) 项,当某些 token 的概率极小时(如 1e-8),BF16 的精度不足以区分 log(1e-7) 和 log(1e-8),导致梯度方向错误。
MiniMax-M2 / M2.5 -- Agent-Native RL¶
M2(2025.10)¶
M2 是架构层面的迭代:从 01/M1 的 456B/45.9B MoE 切换到更高效的 230B/10B MoE(激活参数减少 78%),定位为编码和 Agentic 任务的专用模型。延续 CISPO 算法,无公开论文。
M2.5 与 Forge 框架(2026.02)¶
M2.5 的核心贡献不在模型本身,而在 Forge -- 一个 Agent-Native RL 训练框架:
flowchart TD
subgraph Agent_Side["Agent 侧"]
AS([Agent Swarm\n多 Agent])
end
subgraph Middleware["中间件"]
MW[Windowed FIFO\n前缀树合并]
end
subgraph Training_Side["训练推理侧"]
TS([RL 与推理\n共置])
end
AS <--> MW <--> TS
Forge 的三个关键设计:
| 组件 | 问题 | 解决方案 |
|---|---|---|
| Windowed FIFO 调度 | Agent 轨迹长度极度不均匀(几步 vs 数百步) | 固定窗口大小,FIFO 替换最老轨迹,保证 GPU 利用率稳定 |
🔰 初学者概念:Windowed FIFO 调度
问题背景:Agent RL 训练中,每个 rollout(一次完整的 Agent 执行轨迹)的长度差异极大 -- 简单任务可能 3 步完成,复杂任务可能需要 200+ 步。如果等所有 rollout 都完成再训练,GPU 会因为等待最慢的轨迹而空转(木桶效应)。
FIFO = First-In-First-Out(先进先出):最基本的队列调度策略。想象一条队伍:最先进入队列的任务最先被处理/移除。
Windowed FIFO:维护一个固定大小的窗口(比如同时运行 N 个 rollout)。当窗口满了且有新 rollout 需要开始时,按 FIFO 规则移除最老的 rollout(即使它尚未完成)。这保证了:(1) GPU 始终有 N 个活跃 rollout 在运行,利用率稳定;(2) 不会被个别超长轨迹阻塞整个训练流程。被移除的未完成轨迹可以保存状态、之后恢复(类似 K1.5 的 Partial Rollout),或直接丢弃。
| Prefix Tree Merging | 多轮 Agent 对话中,前几轮上下文反复重复 | 将共享前缀合并为 Trie 树结构,40x 多轮训练加速 | | 复合奖励 | Agent 任务无简单正确/错误判定 | Process reward + 任务完成时间奖励 + Reward-to-go |
规模:100K+ 真实世界 Agent 环境(非模拟),涵盖浏览器操作、API 调用、代码执行等。
关键结果¶
M2.5 在 Agent 基准上达到与 Claude Opus 4.6 相当的性能,但推理成本约为其 1/10(得益于 230B/10B 的高效 MoE 架构 + Prefix Tree Merging 减少冗余计算)。
MiniMax-M2.7 -- 自我进化¶
M2.7 简述(2026.03 博客)
M2.7 的核心卖点是"自我进化":模型可以处理自身 RL 研究工作流的 30-50%,80% 的新提交代码由模型生成。这标志着 Post-Training 进入了模型辅助自身训练的阶段,但技术细节极少,仅作记录。
系列演进分析¶
| 维度 | MiniMax-01 (2025.01) | M1 (2025.06) | M2 (2025.10) | M2.5 (2026.02) |
|---|---|---|---|---|
| 架构 | 456B/45.9B MoE | 同 01 | 230B/10B MoE | 同 M2 |
| 上下文 | 1M → 4M | 继承 | 未公开 | 未公开 |
| 后训练阶段 | 5(短SFT→长SFT→短DPO→长DPO→RL) | 3(CPT→SFT→RL) | 未公开 | Agent-Native RL |
| RL 算法 | 修改版 GRPO | CISPO | CISPO | CISPO + Forge |
| 奖励设计 | 4维 RM | 规则 RM | 未公开 | Process + 时间 + R2G |
| 核心创新 | Lightning Attention, 长-短分离 Pipeline | CISPO, 优化器/精度修复 | 高效 MoE 架构 | Forge, Prefix Tree Merging |
| RL 成本 | 未公开 | ~$534K | 未公开 | 未公开 |
| AIME 2024 | ~40 | 86.5 | 未公开 | 未公开 |
演进趋势:MiniMax 系列的路线是问题驱动的工程创新 -- 01 发现长上下文后训练的长-短冲突,M1 发现 GRPO 的反思 token 裁剪问题,M2.5 发现 Agent 训练的调度和冗余问题。每一步都有清晰的问题诊断 → 算法/系统设计 → 验证的闭环,是"工程驱动研究"的典型代表。