--- source_url: https://mp.weixin.qq.com/s/h5NJdx7WZvMOWJLp6aFc9A title: "国内首个 Frontier 三件套开源大模型:MiniMax M3 完整技术拆解" source: "CSDN" ingested: 2026-06-01 sha256: 5251898a218f0a3cad6377e0bf01b54cfab429eefd28e199a395700f50b667cf --- # 国内首个 Frontier 三件套开源大模型:MiniMax M3 完整技术拆解 **发布日期:** 2026年6月1日 ## 摘要 MiniMax M3 是国内首个同时具备「Coding Frontier + 1M 上下文窗口 + 原生多模态」三个核心能力的开源模型,配套代码智能体 MiniMax Code。SWE-Bench Pro 超过 GPT-5.5 和 Gemini 3.1 Pro,接近 Claude Opus 4.7。Claw-Eval 端到端评测拿到最高分。 ## 内容 ## 为什么 Frontier Agent 必须同时具备三项能力 单轮问答可以拆分文本/代码/视觉,但 Agent 场景不是: - 代码仓库结构、依赖关系、历史实现 - README、issue、PR、测试脚本、报错日志 - 用户多轮反馈、方案变更、临时约束 - 论文图表、产品截图、设计稿、表格、桌面界面 - 工具调用轨迹、失败记录、中间产物 Coding、长上下文、多模态不是三个并列卖点,而是**一个系统能力的三个接口**。任何一项短板都会拖垮整体表现。 ## MSA:1M 上下文的关键不是窗口,而是注意力计算 长上下文难点:如何在 1M token 下仍然算得动、跑得快、找得准。 标准 Transformer 全注意力让每个 query 关注所有 key,序列长度增长时计算量近似平方级上升。 ### MiniMax Sparse Attention(MSA) 三个关键词: 1. **稀疏注意力:** 筛选机制避免全量 token 两两交互 2. **更精确的 KV 分块:** 相比 DSA、MoBA 提高有效上下文覆盖 3. **硬件友好算子:** KV outer gather Q,以 KV 块为外层聚合命中 query,每块 KV 只读一次 官方数据:100 万上下文下,每 token 计算量仅上代的 1/20;prefilling 阶段 >9 倍加速,decoding 阶段 >15 倍加速;算子比 Flash-Sparse-Attention、flash-moba 快 4 倍以上。 **关键洞察:** MiniMax 把长上下文问题同时放在两个层面解决——算法层减少不必要连接,系统层让剩下连接更适合 GPU 执行。 ### 稀疏注意力路线对比 从固定稀疏(Longformer、BigBird)→ 动态稀疏(DeepSeek DSA、Moonshot/Kimi MoBA、NSA、SeerAttention)。 MSA 的差异化不在于"稀疏"本身,而在于两个工程化问题: 1. 稀疏之后能不能找准?(KV 分块解决有效覆盖) 2. 找准之后能不能高效算?(KV 外层聚合解决访存效率) 与 DeepSeek DSA、Kimi MoBA 的不同:DSA 强调"选哪些 token/KV",MoBA 强调"选哪些块",MSA 把"怎么分块、怎么读块、怎么让 GPU 连续高效算"放到了前台。算子层实现是核心卖点,更接近产业模型真实需求。 ### 1M 上下文真正要测什么 等上线后应测: - Agent 真实使用场景下的工作记忆稳定性 - 跨文件引用、长日志回溯、多轮用户约束的召回准确率 ## 原生多模态:统一 token 空间 M3 从 Step 0 做多模态混合训练,支持图片/视频输入,能操作电脑桌面。 与"文本大模型 + 外接视觉编码器"不同,原生多模态让文本、图像、视频进入同一建模过程,不是先成为文本专家再学"看图"。 - **interleaved data:** 文本、图片在同一序列中自然交错 - 训练数据 token 规模提升至 100 万亿量级 **对 Coding Agent 的意义:** 真实开发任务不是纯文本——设计稿截图、控制台截图、论文曲线图、网页录屏、Excel、桌面应用。转 caption 会损失信息。 **ICLR 2025 Outstanding Paper 复现案例:** - 论文研究大模型微调学习动力学 - M3 自主运行接近 12 小时 - 产出 18 次 commit + 23 张实验图表 - 跑通核心实验:吻合 SFT 预测概率趋势,观测到 DPO squeezing 效应,验证 Extend 缓解方法 ## 交互式用户模拟器:Coding 训练范式变化 当前大部分 Coding Benchmark 偏单轮任务(给 issue/需求→一次性修复),与真实开发有距离。 **真实开发是多轮协作:** 1. 用户提出不完整需求 2. Agent 读项目→提方案→执行修改 3. 测试发现新错误 4. 用户补充约束或改变优先级 5. Agent 保留前文状态,重新规划 MiniMax 构建交互式用户模拟器框架,让模型在训练/评测阶段接触生产环境行为模式:需求补充、方案讨论、反馈修正、连续任务切换、复杂项目迭代。 **训练目标变化:** 从"生成正确代码"转向"完成长期协作任务"。 ### FP8 GEMM 自主优化案例 - 起点:任务描述 + benchmark 脚本 + 跑不起来的 Triton 骨架,无 reference 高性能实现 - 约 24 小时连续执行:147 次 benchmark 提交、1959 次工具调用 - 6 轮标志性优化:Hopper FP8 硬件峰值利用率 7.6% → 71.3%(9.4× 加速) ### PostTrainBench:自己训练模型 - 接手 4 个只完成预训练的 Base 模型 - 12 小时内自主完成:数据合成→训练→评测→迭代 - 最终得分 0.37(Opus 4.7: 0.42, GPT-5.5: 0.39,领先其余模型) ## MiniMax Code:对标 Claude Code / Codex 专为 M3 设计、与 M3 一起训练的 Agent 产品。 ### Token Plan 定价 - Max 套餐 119 元/月 → 18 亿+ token - Claude Max 100 美元/月 → ~9 亿 token - 同价位 M3 token 容量约 2 倍 - DeepSeek API:2 元/百万(输入)/ 8 元/百万(输出),M3 均摊成本更低 ## 评估成绩 | 基准 | 成绩 | |------|------| | SWE-Bench Pro | 超过 GPT-5.5、Gemini 3.1 Pro,接近 Opus 4.7 | | Claw-Eval(Agent 端到端) | 最高分 | | PostTrainBench | 0.37 | 官方坦诚:与 Opus 4.7、GPT-5.5 仍存在差距。 ## 总结 MSA 回答百万级上下文可用化;原生多模态回答理解真实工作环境;交互式用户模拟器回答从单轮代码生成走向长期协作。三合一线索的定位:能啃百万字代码库、独立复现顶会论文、24 小时自主迭代上千次优化内核的 AI 搭子。 MiniMax M3 把过去属于少数闭源旗舰的 Frontier 能力,第一次完整地、免费地、可部署地交到全球开发者手中。