--- title: "不用人类手写训练框架了!AI自己写代码,训出1B端侧「小钢炮」" source_url: "https://mp.weixin.qq.com/s/2tdHV01FL_YGUmZQ12DS2A" author: "机器之心" created: 2026-05-26 type: article tags: [minicpm, forgetrain, edge-agent, openbmb,面壁,端侧模型,ai-train] sha256: "" --- 不用人类手写训练框架了!AI自己写代码,训出1B端侧「小钢炮」 原创 关注AI的 机器之心 2026年5月26日 13:16 北京 你的电脑里,或许很快会住进一只会聊天的「小怪兽」。 它不需要庞大的云端算力,也不必每一次对话都把请求发往远处的数据中心。它可以安静地待在本地设备里,随时被唤醒,陪你聊天、回答问题、处理简单任务,甚至在没有网络的时候继续运行。 这也对应着大模型行业正在发生的一次路线分化:过去大模型给人的印象都是庞然大物,数百亿甚至上千亿参数起步,推理依赖云端数据中心。但端侧模型不能简单复制这条路——它要进入个人电脑、手机、车机和边缘设备,就必须足够高效、足够快、足够省资源;并且端侧模型要真正留在用户身边,还需要低延迟、低成本,最好还能本地运行、断网可用。 5 月 25 日,面壁开源最新一代端侧文本基座大模型 MiniCPM5-1B。这是一款面向开发者和终端设备的 1B 级「小钢炮」模型,主打低成本部署、高效运行和端侧友好。 相比动辄几十亿、几百亿参数的主流模型,1B 规模已经小到一个近乎反直觉的程度。但在终端设备上,这个模型已经具备本地部署的基础条件,可以支撑一类轻量、本地化的 AI 应用。 更特别的是,MiniCPM5-1B 背后还「站着」ForgeTrain,全球首个完全由 AI 编写的生产级大模型训练框架,训练效果与英伟达 Megatron 对齐,训练速度比后者快 10%,相当于同等算力下成本降低 10%。 也就是说,面壁这次不只是开源了一个 1B 小尺寸模型,更是一条完整的路线:用 AI 编写预训练框架,再由这个框架参与端侧基座模型的预训练,已经跑通了。 榜单上的小钢炮:仅凭 1B 参数,超越不止一档 端侧模型的难点在于,模型越小,能力损失往往越明显。但在公开榜单中,MiniCPM5-1B 在同尺寸模型中打出了很强的竞争力:综合知识、数学推理、代码编程、工具调用等核心能力维度,均超越了同规模的主要竞争对手。 在权威模型评测榜单 Artificial Analysis Intelligence Index(AA-Index)上,MiniCPM5-1B 以 1B 参数规模取得 17.9 分,位列「小尺寸模型」榜单第一,超越了所有 2B 参数以下模型。相比 3 个月前发布的 Qwen3.5-2B(16.3 分),MiniCPM5-1B 不仅效果更优,参数量还减少了一半。 这一结果进一步验证了面壁持续观察到的密度定律:大模型的智能密度正在以约每 3.5 个月翻一番的速度持续提升。更小的模型,正在承载更高的智能密度。 低门槛部署,才是端侧 AI 的入口 对于开发者来说,MiniCPM5-1B 最实在的价值在于:它真的很好部署。 从精度选择上看:FP16 精度权重约 2GB,适合 GPU 和高端笔记本以及服务器;INT8 量化后约 1GB,几乎无性能损失,覆盖主流笔电和边缘计算盒子;INT4 / Q4 量化后仅 0.5GB,手机、平板、车机都能跑。也就是说,一张半张 SD 卡的空间,就能装进一个达到同级全球最优水平的语言模型。 MiniCPM5-1B 还支持纯 CPU 环境运行,也可以在浏览器中部署。这表明它不再只属于服务器和高端显卡,更是有机会进入普通设备,成为一个真正本地化的语言模型。 在微调侧支持 LlamaFactory、ms-swift;在推理侧支持 SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight 等工具和框架。此外面壁还提供了安装部署相关的 skills,用户可以直接调用龙虾或使用 Claude Code 等代码智能体,按照 skills 自动完成安装和部署。 从本地助手到 AI 桌宠:小模型真正进入应用 端侧应用的场景非常碎片化——离线客服、桌面宠物、车机交互等。这些场景有一个共同点:不一定需要最大的模型,但需要一个足够轻、便宜、容易部署、还足够稳定的模型。MiniCPM5-1B 正好适配这些场景。 模型尺寸变小以后,数据质量变得更重要 性能跃升的背后,是数据质量的底层支撑。这次面壁同步开放了数据治理相关成果,包括开源高质量预训练数据集 UltraData(含最新版本 Ultra-FineWeb-L3)。 现阶段大模型训练中有一个逐渐被接受的判断:单纯扩大数据规模的边际收益在下降,模型能力的提升越来越依赖数据质量而不是数据数量。 面壁建立了一套从 L0 到 L4 的分级数据治理体系,对高知识密度的中文网页、英文网页和数学语料进行了大量数据合成工作,最终形成的开源数据集随模型一起发布。 ForgeTrain:AI 写出的训练框架 MiniCPM5-1B 有两个发布版本:一个后训练版本;另一个是预训练完成的 Base Model 版本。而这个 Base Model,有一个不寻常的出身,由 ForgeTrain 参与预训练完成。 ForgeTrain 是一个大模型训练框架,类似于英伟达的 Megatron。但 ForgeTrain 有一个根本性的不同:构成它的每一行代码,没有一位人类工程师参与,都是由 AI 完成的。 这和 Vibe Coding 有根本上的不同,ForgeTrain 使用 Harness + Agent loop 技术,一旦 Agent 开始编写代码,不需要人类介入。此外,作为训练框架,它要处理分布式训练、并行策略、显存管理、通信效率、算子调用、硬件适配和训练稳定性。任何一个细节出错,都可能让一次预训练消耗掉大量算力。 其结果是,在英伟达 H100 GPU 上,ForgeTrain 的训练效果与 Megatron 对齐,速度领先 10%。换算成成本,相当于同等计算预算下,训练成本有望下降约 10%。在大模型预训练这种高成本环节里,几个百分点的效率提升,都会直接对应算力、电力和时间成本的下降。 更重要的是,ForgeTrain 也完成了对华为昇腾系列等国产算力的适配。ForgeTrain 在华为昇腾上预训练 MiniCPM5-1B,相比昇腾大模型训练框架 MindSpeed 也有10%的加速。 这背后,是面壁首创的「锻造工程」(Forge Engineering)软件范式在支撑,它不是维护一个通用框架,而是让 AI 为每一款芯片、每一个模型「现场锻造」出专属的、高效的软件。 面壁选择的这条路线,从来不是单纯把模型做小。而是在小参数、低内存、低算力的约束下,依然保住足够高的智能密度。 MiniCPM5-1B 要回答的,正是这个问题:当一个模型足够轻、足够便宜、足够容易部署时,它还能不能足够聪明? 现在,MiniCPM5-1B 已经开源,部署指南与微调文档同步上线。 模型链接: - Hugging Face:https://huggingface.openbmb.com/model/openbmb/MiniCPM5-1B - GitHub:https://github.com/OpenBMB/MiniCPM - ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM5-1B - ForgeTrain开源链接:https://github.com/OpenBMB/ForgeTrain