--- title: "全球首个完全AI编写的训练框架:面壁ForgeTrain速度反超英伟达Megatron,年底要把国产算力软件重写一遍" source: wechat source_url: https://mp.weixin.qq.com/s/rl48C-c_1LQMdnJ7ZKDzJw author: 褚杏娟 feed_name: InfoQ review_value: 8 review_confidence: 7 review_recommendation: strong review_stars: 4 date: 2026-05-28 created: 2026-05-28 updated: 2026-05-28 tags: [forge-train, ai-coding, training-framework, llm-infra,国产算力, megatron, minimax, harness, ai研发ai, human-on-the-loop, moe] type: article provenance_state: synthesized sha256: 73d2fb03227156309e28e1cb171dbee1780f04d2b6ff25323a4ea1c949d646fd --- # 全球首个完全AI编写的训练框架:面壁ForgeTrain速度反超英伟达Megatron,年底要把国产算力软件重写一遍 > **来源**:InfoQ,2026年5月28日,褚杏娟 > **背景**:面壁智能发布 ForgeTrain,全球首个全部由 AI 编写、零人介入的生产级训练框架,在华为昇腾和英伟达 GPU 上验证,速度比 Megatron 快 10% ## 一句话 面壁智能发布 **ForgeTrain**:全部由 AI 编写、零人介入的生产级训练框架,在华为昇腾完成 MiniCPM5-1B 训练验证,速度比英伟达 Megatron 快 10%,并提出 **Forge Engineering(锻造工程)** 方法论——为每个模型/芯片/任务现场定制训练框架。 ## 核心思路:AI 研发 AI **背景**:高质量互联网数据快速消耗、GPU/数据中心/电力越来越紧张,继续"堆资源"推动模型进化成本越来越高。 **面壁的答案**:让 AI 接管 AI 研发——代码生成、训练框架开发、算子优化、数据生成、评测反馈、实验迭代、模型架构探索。 **关键洞察**:可评测的问题最终会被 AI 解决。只要一个问题能被高效评测,能为模型准备足够专家数据,通过强化学习将能力回流到模型,AI 会把这件事做得越来越好。 ## ForgeTrain 三阶段构建方法论 1. **从现有训练框架采集关键数据** → 形成评测标准和 **Harness** 2. **构建二进制一致的训练框架版本** → 目前已完成多机多卡版本,比英伟达 Megatron 训练速度快 10% 3. **解除二进制一致限制** → 迭代优化到超越 Megatron ## 为什么比 Megatron 快 10% Megatron 需覆盖更广模型和场景,必须在通用性和性能之间做权衡。 ForgeTrain 为特定模型从零生成一套更贴合需求的框架,获得更细粒度优化空间。 ## Harness 是什么 Harness 本质是把目标包装成一整套系统:环境 + 上下文 + 工具 + 任务流程 + 评分标准。 - 传统任务 Harness 天然存在:代码任务有编译器/单元测试/运行结果,数学有形式化验证或标准答案 - "AI 制造 AI"没有现成 Harness,运行成本高,因此发展更慢 - 面壁现在就是为"AI 制造 AI"建立"考场" **人类角色转变**:Human in the Loop → **Human on the Loop**(AI 已自主运转,人只盯着有没有问题) ## 关键实验结果 - **华为昇腾**:MiniCPM5-1B 预训练耗时 3-5 天 - **英伟达 GPU**:MiniCPM4-0.5B 预训练两天 - **内部 8B 模型验证已完成** - **MoE 等更复杂模型**即将推进 ## Forge Engineering(锻造工程) **核心思想**:当 AI 写代码成本趋近于零,没有必要继续做大而全的通用框架,而是为每个模型、每类芯片、每个训练任务"现场锻造"一套高度定制化的软件系统。 ## 国产算力生态追赶思路 英伟达生态之所以好用,是因为长期积累了大量开发者和工程实践。国产算力起步晚,若仍依靠人类开发者一点点打磨,追赶难度很高。 **AI 可能改变这一局面**:人类开发者再多,也不如 AI 不知疲倦地打磨各个细节。 **目标**:用户需要什么,生态就能给出什么。到年底把头部国产算力软件全做一遍。 ## 当前局限 - 主要覆盖框架和算子层面,算法调参尚未开始从零交给 AI - Harness 行业共识尚未完全形成 - 仍在"Human on the Loop"阶段,不是完全无人介入 ## 一句话总结 ForgeTrain 验证了"AI 为不同模型/芯片现场锻造训练框架"的可行性——不是继续写越来越庞大的通用框架,而是让 AI 像工匠一样,针对每种需求生成高度定制化的实现。 --- *面壁智能 | ForgeTrain*