--- title: "面壁让AI写了训练框架ForgeTrain,然后它自己训出了最强1B模型MiniCPM5" authors: - AGI Hunt platform: AGI Hunt url: https://mp.weixin.qq.com/s/rwchA6337ayqXnMT3hqVTw original_title: "离谱……面壁让 AI 写了个训练框架,然后它自己训出了最强的 1B 模型:MiniCPM5-1B" source: minicpm5-1b-forgetrain-agh-hunt cover: [] tags: - MiniCPM5-1B - ForgeTrain - Forge Engineering - 面壁 - AI训练框架 - 端侧模型 publish_date: 2026-05-27 updated_date: 2026-05-27 score: 49 scored_by: MiniMax-M2.7 v: 7 c: 7 sha256: a06dec7324022d51bae002486be66642c35acbb844b6b7ed0af1096a4d87bbee --- # 面壁让AI写了训练框架ForgeTrain,然后它自己训出了最强1B模型 ## 核心亮点 - **MiniCPM5-1B**:1B 参数级最强端侧文本大模型,AA 智能指数 17.9 分,小尺寸模型第一 - **ForgeTrain**:完全由 AI 编写的训练框架,在 H100 上比英伟达 Megatron 快 10% - **Forge Engineering**:AI 定制化软件编程范式,代码趋近于零成本时代的新开发模式 ## Forge Engineering 三步法 **STEP 1:出考试大纲** 先从 Megatron 等现有框架采集关键数据,定好验收标准。 **STEP 2:先确保及格** 让 AI 在验收标准约束下,写出和原版训练结果完全一致的框架。 **STEP 3:从及格到超越** 放开限制,让 AI 自由迭代优化,直到跑赢 Megatron。 ## Forge Engineering vs 通用框架 通用框架(Megatron):同时支持千问、DeepSeek、MOE 等各种架构,全塞在一套框架里,处处妥协。 Forge Engineering:AI 写代码成本趋近于零 → 每个架构从零各写一份,各自针对性优化到极致。代码都是为特定需求现场定制的。 比方:通用框架像苹果手机,一个产品服务所有人;Forge Engineering 像乔布斯坐在你旁边,为你打造完全满足个人需求的独特手机。 ## 与 Harness Engineering 的区别 OpenAI 的 Harness Engineering 自动化了评判环节;Forge Engineering 更进一步——代码都交给 AI 按需打造,用完即弃。同样的验收标准,换个场景/芯片,AI 就能锻出一份全新实现。 ## ForgeTrain vs VibeTensor 英伟达实验室发布的 VibeTensor(陈天奇、贾扬青等人参与):首个"完全由 AI 生成的深度学习系统",但比 PyTorch 慢 1.7-6.2 倍,标注"请勿用于生产环境"——研究原型。 ForgeTrain:H100 上比 Megatron 快 10%,精度完全对齐,稳定完成模型训练——生产级。 --- > 同主题:[[entities/minicpm5-1b-forgetrain-machine-heart|MiniCPM5-1B forgetrain 机器之心版]]