---
title: "不用人类手写训练框架了！AI自己写代码，训出1B端侧「小钢炮」"
source_url: "https://mp.weixin.qq.com/s/2tdHV01FL_YGUmZQ12DS2A"
author: "机器之心"
created: 2026-05-26
type: article
tags: [minicpm, forgetrain, edge-agent, openbmb,面壁,端侧模型,ai-train]
sha256: ""
---

不用人类手写训练框架了！AI自己写代码，训出1B端侧「小钢炮」

原创 关注AI的 机器之心
2026年5月26日 13:16 北京

你的电脑里，或许很快会住进一只会聊天的「小怪兽」。

它不需要庞大的云端算力，也不必每一次对话都把请求发往远处的数据中心。它可以安静地待在本地设备里，随时被唤醒，陪你聊天、回答问题、处理简单任务，甚至在没有网络的时候继续运行。

这也对应着大模型行业正在发生的一次路线分化：过去大模型给人的印象都是庞然大物，数百亿甚至上千亿参数起步，推理依赖云端数据中心。但端侧模型不能简单复制这条路——它要进入个人电脑、手机、车机和边缘设备，就必须足够高效、足够快、足够省资源；并且端侧模型要真正留在用户身边，还需要低延迟、低成本，最好还能本地运行、断网可用。

5 月 25 日，面壁开源最新一代端侧文本基座大模型 MiniCPM5-1B。这是一款面向开发者和终端设备的 1B 级「小钢炮」模型，主打低成本部署、高效运行和端侧友好。

相比动辄几十亿、几百亿参数的主流模型，1B 规模已经小到一个近乎反直觉的程度。但在终端设备上，这个模型已经具备本地部署的基础条件，可以支撑一类轻量、本地化的 AI 应用。

更特别的是，MiniCPM5-1B 背后还「站着」ForgeTrain，全球首个完全由 AI 编写的生产级大模型训练框架，训练效果与英伟达 Megatron 对齐，训练速度比后者快 10%，相当于同等算力下成本降低 10%。

也就是说，面壁这次不只是开源了一个 1B 小尺寸模型，更是一条完整的路线：用 AI 编写预训练框架，再由这个框架参与端侧基座模型的预训练，已经跑通了。

榜单上的小钢炮：仅凭 1B 参数，超越不止一档

端侧模型的难点在于，模型越小，能力损失往往越明显。但在公开榜单中，MiniCPM5-1B 在同尺寸模型中打出了很强的竞争力：综合知识、数学推理、代码编程、工具调用等核心能力维度，均超越了同规模的主要竞争对手。

在权威模型评测榜单 Artificial Analysis Intelligence Index（AA-Index）上，MiniCPM5-1B 以 1B 参数规模取得 17.9 分，位列「小尺寸模型」榜单第一，超越了所有 2B 参数以下模型。相比 3 个月前发布的 Qwen3.5-2B（16.3 分），MiniCPM5-1B 不仅效果更优，参数量还减少了一半。

这一结果进一步验证了面壁持续观察到的密度定律：大模型的智能密度正在以约每 3.5 个月翻一番的速度持续提升。更小的模型，正在承载更高的智能密度。

低门槛部署，才是端侧 AI 的入口

对于开发者来说，MiniCPM5-1B 最实在的价值在于：它真的很好部署。

从精度选择上看：FP16 精度权重约 2GB，适合 GPU 和高端笔记本以及服务器；INT8 量化后约 1GB，几乎无性能损失，覆盖主流笔电和边缘计算盒子；INT4 / Q4 量化后仅 0.5GB，手机、平板、车机都能跑。也就是说，一张半张 SD 卡的空间，就能装进一个达到同级全球最优水平的语言模型。

MiniCPM5-1B 还支持纯 CPU 环境运行，也可以在浏览器中部署。这表明它不再只属于服务器和高端显卡，更是有机会进入普通设备，成为一个真正本地化的语言模型。

在微调侧支持 LlamaFactory、ms-swift；在推理侧支持 SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight 等工具和框架。此外面壁还提供了安装部署相关的 skills，用户可以直接调用龙虾或使用 Claude Code 等代码智能体，按照 skills 自动完成安装和部署。

从本地助手到 AI 桌宠：小模型真正进入应用

端侧应用的场景非常碎片化——离线客服、桌面宠物、车机交互等。这些场景有一个共同点：不一定需要最大的模型，但需要一个足够轻、便宜、容易部署、还足够稳定的模型。MiniCPM5-1B 正好适配这些场景。

模型尺寸变小以后，数据质量变得更重要

性能跃升的背后，是数据质量的底层支撑。这次面壁同步开放了数据治理相关成果，包括开源高质量预训练数据集 UltraData（含最新版本 Ultra-FineWeb-L3）。

现阶段大模型训练中有一个逐渐被接受的判断：单纯扩大数据规模的边际收益在下降，模型能力的提升越来越依赖数据质量而不是数据数量。

面壁建立了一套从 L0 到 L4 的分级数据治理体系，对高知识密度的中文网页、英文网页和数学语料进行了大量数据合成工作，最终形成的开源数据集随模型一起发布。

ForgeTrain：AI 写出的训练框架

MiniCPM5-1B 有两个发布版本：一个后训练版本；另一个是预训练完成的 Base Model 版本。而这个 Base Model，有一个不寻常的出身，由 ForgeTrain 参与预训练完成。

ForgeTrain 是一个大模型训练框架，类似于英伟达的 Megatron。但 ForgeTrain 有一个根本性的不同：构成它的每一行代码，没有一位人类工程师参与，都是由 AI 完成的。

这和 Vibe Coding 有根本上的不同，ForgeTrain 使用 Harness + Agent loop 技术，一旦 Agent 开始编写代码，不需要人类介入。此外，作为训练框架，它要处理分布式训练、并行策略、显存管理、通信效率、算子调用、硬件适配和训练稳定性。任何一个细节出错，都可能让一次预训练消耗掉大量算力。

其结果是，在英伟达 H100 GPU 上，ForgeTrain 的训练效果与 Megatron 对齐，速度领先 10%。换算成成本，相当于同等计算预算下，训练成本有望下降约 10%。在大模型预训练这种高成本环节里，几个百分点的效率提升，都会直接对应算力、电力和时间成本的下降。

更重要的是，ForgeTrain 也完成了对华为昇腾系列等国产算力的适配。ForgeTrain 在华为昇腾上预训练 MiniCPM5-1B，相比昇腾大模型训练框架 MindSpeed 也有10%的加速。

这背后，是面壁首创的「锻造工程」（Forge Engineering）软件范式在支撑，它不是维护一个通用框架，而是让 AI 为每一款芯片、每一个模型「现场锻造」出专属的、高效的软件。

面壁选择的这条路线，从来不是单纯把模型做小。而是在小参数、低内存、低算力的约束下，依然保住足够高的智能密度。

MiniCPM5-1B 要回答的，正是这个问题：当一个模型足够轻、足够便宜、足够容易部署时，它还能不能足够聪明？

现在，MiniCPM5-1B 已经开源，部署指南与微调文档同步上线。

模型链接：
- Hugging Face：https://huggingface.openbmb.com/model/openbmb/MiniCPM5-1B
- GitHub：https://github.com/OpenBMB/MiniCPM
- ModelScope：https://modelscope.cn/models/OpenBMB/MiniCPM5-1B
- ForgeTrain开源链接：https://github.com/OpenBMB/ForgeTrain