2.4 MiniMax -- 长上下文到 Agent 原生 RL¶

本节摘要

MiniMax 系列以问题驱动的工程创新为特色：01 引入 Lightning Attention 实现百万级上下文后训练，M1 诊断出 GRPO 裁剪稀有反思 token 的具体失败模式并提出 CISPO 算法（2x 训练加速），M2.5 的 Forge 框架通过 Prefix Tree Merging 实现 40x 多轮训练加速。

报告来源

MiniMax-01: MiniMax-01: Scaling Foundation Models with Lightning Attention, arXiv:2501.08313 (2025.01)
MiniMax-M1: M1: Towards Scalable Test-Time Compute with Open Reasoning Models, arXiv:2506.13585 (2025.06)
MiniMax-M2: 官方发布 (2025.10)，无公开论文
MiniMax-M2.5: Forge 博客 (2026.02)
MiniMax-M2.7: 官方博客 (2026.03)

MiniMax 系列的独特之处在于工程驱动的创新路径：从 01 的 Lightning Attention 和百万级上下文，到 M1 发现的 GRPO 具体失败模式和 CISPO 修复，再到 M2.5 的 Forge Agent-Native RL 框架，每一步都有具体的问题诊断和针对性解法。

MiniMax-01 -- 长上下文后训练¶

核心动机¶

MiniMax-01 面对的核心问题是：如何在 1M+ 上下文模型上做有效的 Post-Training？ 长上下文带来的挑战不仅是 RL 的计算成本，还有 SFT/DPO 数据中"长-短冲突" -- 短任务的偏好不适用于长文档场景。

架构基础¶

规格	MiniMax-01
总参数	456B MoE
激活参数	45.9B
原生上下文	1M tokens（外推至 4M）
注意力机制	Lightning Attention（7:1 线性:Softmax 混合）
MoE 路由	Global Router（相似 tokens 共享路由决策）

Lightning Attention 是 MiniMax 的核心架构创新：一种 I/O-aware 的线性注意力机制。在 1M 上下文场景，标准 Softmax attention 的 KV cache 占据过多显存，而 Lightning Attention 的线性层以 O(n) 复杂度处理大部分 token，仅 1/8 的层使用标准 Softmax 处理需要精确局部注意力的 token。

五阶段后训练 Pipeline¶

MiniMax-01 有所有系列中最细粒度的后训练 Pipeline：

flowchart TD
    Base([MiniMax-01 Base\n456B MoE]) --> S1[Short SFT\n标准长度]
    S1 --> S2[Long SFT\n64K–1M]
    S2 --> S3[Short DPO\n~150K 对]
    S3 --> S4[Long DPO\n长文偏好]
    S4 --> S5[Online RL\nGRPO 变体]
    S5 --> Final([MiniMax-01])

四维 RM 与长短分离动机见下文。

短长分离是 Pipeline 的核心设计哲学：

长-短冲突

直接在混合长短数据上做 SFT/DPO 会导致两个问题：(1) 短数据主导梯度（数量多、loss 高），长上下文能力退化；(2) 短文档的偏好（如"简洁"）与长文档的偏好（如"完整"）矛盾。分开训练各阶段，每阶段内数据长度分布一致，避免冲突。

四维 RM：

维度	评估内容
Correctness	事实准确性
Truthfulness	不捏造信息
Helpfulness	任务完成度
Harmlessness	安全性

MiniMax-M1 -- CISPO 与推理 RL¶

核心动机¶

M1 的目标是在 01 的 456B 基座上实现推理 Scaling。但在尝试 GRPO 时，团队发现了具体的失败模式，催生了 CISPO 算法。

GRPO 的具体失败模式¶

发现：GRPO 裁剪稀有反思 token

GRPO 使用 token 级裁剪：对每个 token 的 importance ratio 进行 clip。问题在于稀有但关键的反思性 token（如 "Wait"、"Actually"、"Let me reconsider"）：

这些 token 在正常生成中概率低（旧策略下 π_old 小）
RL 训练后它们的概率显著增加（新策略 π_new 大）
导致 importance ratio π_new/π_old 极大 -- 被 GRPO 的 clip 机制截断
结果：RL 无法有效强化反思行为 -- 这恰恰是推理能力的核心

这一发现直接对应了 DeepSeek-R1-Zero 中 "wait"、"alternatively" 等反思词频增加 5-7 倍的现象 -- GRPO 的 clip 机制会抑制这种涌现。

CISPO 算法¶

CISPO (Clipped Importance-ratio Sequence Policy Optimization) 的核心改变：裁剪 importance ratio 本身，而非 token 级梯度。

GRPO（token 级裁剪）CISPO（序列级裁剪）

对每个 token 分别计算 ratio 并 clip，然后求和：

\[L_{\text{GRPO}} = \sum_t \min\left(\frac{\pi_\theta(a_t)}{\pi_{\text{old}}(a_t)} \hat{A}, \text{clip}(\cdot) \hat{A}\right)\]

问题：稀有 token 的大 ratio 被逐个截断

先计算序列级 ratio（如 GSPO 的几何平均），再整体 clip：

\[\rho = \left(\prod_t \frac{\pi_\theta(a_t)}{\pi_{\text{old}}(a_t)}\right)^{1/T}, \quad L_{\text{CISPO}} = \min(\rho \cdot \hat{A}, \text{clip}(\rho) \cdot \hat{A})\]

效果：稀有 token 的大 ratio 被序列平均稀释，不会被单独截断

CISPO 额外收益：2x 训练速度。序列级裁剪不需要存储每个 token 的 ratio 用于梯度计算，显存和计算均减半。

CISPO vs GSPO

CISPO（MiniMax，2025.06）和 GSPO（Qwen，2025.07）几乎同时独立提出了序列级 importance ratio 的思路，但出发点不同：CISPO 源于"稀有反思 token 被裁剪"的具体失败案例，GSPO 源于"MoE 路由变化导致 token 级 ratio 不稳定"的理论分析。两者殊途同归。

三阶段训练¶

M1 后训练顺序为：CPT（约 7.5T token）→ 长 CoT 冷启动 SFT → RL（CISPO，512×3 周），得到 MiniMax-M1（报告 AIME 86.5）。样本量与成本见正文「成本」段。

成本：512 H800 GPUs × 3 周 ≈ $534K（对比 DeepSeek-R1 的 $5.576M，约 1/10）

关键工程发现¶

工程陷阱 1：优化器超参数

使用 VeRL（开源 RL 框架）的默认 Adam 超参数 β₂=0.999, ε=1e-8 时，训练完全失败。修正为 β₂=0.95, ε=1e-15 后才正常收敛。

原因：RLHF 的 reward 信号比预训练 loss 更稀疏且波动更大，更小的 β₂ 使 Adam 更快适应奖励分布变化，更小的 ε 避免在梯度接近零时的数值不稳定。

工程陷阱 2：FP32 输出头

BF16 精度下的输出 head（语言模型 logit 层）在 RL 训练中导致数值不稳定，必须使用 FP32 输出头。

原因：RL 的策略梯度包含 log π(a|s) 项，当某些 token 的概率极小时（如 1e-8），BF16 的精度不足以区分 log(1e-7) 和 log(1e-8)，导致梯度方向错误。

MiniMax-M2 / M2.5 -- Agent-Native RL¶

M2（2025.10）¶

M2 是架构层面的迭代：从 01/M1 的 456B/45.9B MoE 切换到更高效的 230B/10B MoE（激活参数减少 78%），定位为编码和 Agentic 任务的专用模型。延续 CISPO 算法，无公开论文。

M2.5 与 Forge 框架（2026.02）¶

M2.5 的核心贡献不在模型本身，而在 Forge -- 一个 Agent-Native RL 训练框架：

flowchart TD
    subgraph Agent_Side["Agent 侧"]
        AS([Agent Swarm\n多 Agent])
    end
    subgraph Middleware["中间件"]
        MW[Windowed FIFO\n前缀树合并]
    end
    subgraph Training_Side["训练推理侧"]
        TS([RL 与推理\n共置])
    end
    AS <--> MW <--> TS

Forge 的三个关键设计：

组件	问题	解决方案
Windowed FIFO 调度	Agent 轨迹长度极度不均匀（几步 vs 数百步）	固定窗口大小，FIFO 替换最老轨迹，保证 GPU 利用率稳定

🔰 初学者概念：Windowed FIFO 调度

问题背景：Agent RL 训练中，每个 rollout（一次完整的 Agent 执行轨迹）的长度差异极大 -- 简单任务可能 3 步完成，复杂任务可能需要 200+ 步。如果等所有 rollout 都完成再训练，GPU 会因为等待最慢的轨迹而空转（木桶效应）。

FIFO = First-In-First-Out（先进先出）：最基本的队列调度策略。想象一条队伍：最先进入队列的任务最先被处理/移除。

Windowed FIFO：维护一个固定大小的窗口（比如同时运行 N 个 rollout）。当窗口满了且有新 rollout 需要开始时，按 FIFO 规则移除最老的 rollout（即使它尚未完成）。这保证了：(1) GPU 始终有 N 个活跃 rollout 在运行，利用率稳定；(2) 不会被个别超长轨迹阻塞整个训练流程。被移除的未完成轨迹可以保存状态、之后恢复（类似 K1.5 的 Partial Rollout），或直接丢弃。

规模：100K+ 真实世界 Agent 环境（非模拟），涵盖浏览器操作、API 调用、代码执行等。

关键结果¶

M2.5 在 Agent 基准上达到与 Claude Opus 4.6 相当的性能，但推理成本约为其 1/10（得益于 230B/10B 的高效 MoE 架构 + Prefix Tree Merging 减少冗余计算）。

MiniMax-M2.7 -- 自我进化¶

M2.7 简述（2026.03 博客）

M2.7 的核心卖点是"自我进化"：模型可以处理自身 RL 研究工作流的 30-50%，80% 的新提交代码由模型生成。这标志着 Post-Training 进入了模型辅助自身训练的阶段，但技术细节极少，仅作记录。

系列演进分析¶

维度	MiniMax-01 (2025.01)	M1 (2025.06)	M2 (2025.10)	M2.5 (2026.02)
架构	456B/45.9B MoE	同 01	230B/10B MoE	同 M2
上下文	1M → 4M	继承	未公开	未公开
后训练阶段	5（短SFT→长SFT→短DPO→长DPO→RL）	3（CPT→SFT→RL）	未公开	Agent-Native RL
RL 算法	修改版 GRPO	CISPO	CISPO	CISPO + Forge
奖励设计	4维 RM	规则 RM	未公开	Process + 时间 + R2G
核心创新	Lightning Attention, 长-短分离 Pipeline	CISPO, 优化器/精度修复	高效 MoE 架构	Forge, Prefix Tree Merging
RL 成本	未公开	~$534K	未公开	未公开
AIME 2024	~40	86.5	未公开	未公开

演进趋势：MiniMax 系列的路线是问题驱动的工程创新 -- 01 发现长上下文后训练的长-短冲突，M1 发现 GRPO 的反思 token 裁剪问题，M2.5 发现 Agent 训练的调度和冗余问题。每一步都有清晰的问题诊断 → 算法/系统设计 → 验证的闭环，是"工程驱动研究"的典型代表。