--- title: 省下1.25倍算力!Kimi这篇论文,可能改写所有大模型的训练方式 source_url: https://mp.weixin.qq.com/s/PE7jd52Oef-LTh4NvWQemA publish_date: 2026-04-28 tags: [wechat, article] review_value: 7 review_confidence: 7 review_recommendation: neutral ingested: 2026-05-16 sha256: fd03d3a3b3356548e86d8cf2e4e1d416e81b3714d6c40b8d7f61aeeee2f89639 --- # 省下1.25倍算力!Kimi这篇论文,可能改写所有大模型的训练方式 > 原文链接:https://mp.weixin.qq.com/s/PE7jd52Oef-LTh4NvWQemA > 作者:你说的完全正确 / AI寒武纪 > 发布时间:2026年3月16日 > 平台:微信公众号 --- ## 核心信息 - **论文**:[MoonshotAI/Attention-Residuals](https://github.com/MoonshotAI/Attention-Residuals)(GitHub 已开源) - **问题**:大模型堆层越深,后面的层越来越不管用(PreNorm 稀释) - **解法**:Attention Residuals(AttnRes)—— 让每一层自己用注意力机制选择关注哪些前驱层 - **工程折中**:Block AttnRes—— 分块减少内存/通信压力,8 块可恢复绝大部分效果 - **效果**:同等性能只需 0.8x 算力(反过来说同等算力多训练 1.25x);48B 模型 1.4T tokens 预训练后 12 个 benchmark 全部提升 --- ## 一、问题:PreNorm 稀释 ### 残差连接的历史 残差连接(Residual Connection)由何凯明于 2015 年引入图像识别,至今是所有深度学习模型的标配。 **传统工作方式**: - 每一层处理完信息后,将处理结果和原始输入相加,传给下一层 - 解决了梯度传播问题,使数百层深度网络可被训练 ### 隐藏的问题 每一层做完累加后,信息被压进一个**混合状态**。越往后,这个混合状态越臃肿,所有前层内容都混在一起,权重完全一样。 **后果**: - 后面的层无法选择性调用——"我需要第 5 层的信息,不是第 12 层的",只能接收一锅乱炖 - 随着网络加深,混合状态数值越来越大,后层必须输出更大数值才能不被淹没 - **PreNorm 稀释**:实验证明,删掉很深模型中的很多层,效果几乎不变,大量层形同虚设 --- ## 二、解法:Attention Residuals(AttnRes) ### 核心思路 不再将前面所有层的输出等权相加,而是**让每层自己决定关注哪些前驱层**。 | 传统方式 | AttnRes | |---------|---------| | 每层 = 前面所有层输出,**等权**加和 | 每层 = 前面所有层输出,**按需加权**求和 | ### 权重如何来 使用注意力机制——每层有一个专属的小向量(只有一个,极其轻量),用它去跟前面所有层的输出算相似度,高相似度 → 高权重,最后加权求和。 这样注意力层和 MLP 层可以关注不同的历史层,早期层信息不会被淹没。 ### 但有个工程问题 每层要关注前面所有层的输出,就必须把前面所有层的输出都存着。对数十层小模型没问题,但现代大模型动辄上百层,训练时还会做流水线并行——**内存压力和通信压力暴增**。 --- ## 三、工程折中:Block AttnRes Kimi 的解法:**不分层存,改为分块存**。 - 所有层分成若干 block,每个 block 内部用传统方式累加,但把整个 block 压缩成一个向量存起来 - 跨 block 之间,用注意力机制选择 - 存储量从正比于层数 → 正比于块数 **关键发现**:分成大约 **8 块**就能恢复 Full AttnRes 绝大部分效果,内存和通信开销只是原来的一小部分。训练额外开销边际,推理延迟增加不到 **2%**。 --- ## 四、实验结果 ### Scaling Law 实验 5 个不同大小的模型,覆盖从小到大的算力范围。结论: > **Block AttnRes 在每个规模下都比基线表现更好,相当于用同等性能只需要基线 0.8 倍算力**(同等算力可多训练 1.25 倍)。 ### 48B 大模型完整预训练(1.4T tokens) 测了十几个 benchmark,**AttnRes 版本全部高于基线,没有一个跌分**。 提升最明显的任务(需要多步推理): | Benchmark | 提升 | |-----------|------| | GPQA-Diamond(科学推理) | **+7.5** | | Math(数学) | **+3.6** | | HumanEval(代码生成) | **+3.1** | 知识类任务也有稳定提升,幅度小一些。 **Kimi 解释**:深度方向的信息流改善后,后面的层可以有选择地调用前面某层的中间结果,对需要多步推理的任务帮助最大。 --- ## 五、训练过程中发生了什么 对比两个模型的训练动态,能看到三个明显变化: ### 1. 验证损失 AttnRes 从一开始就比基线低,差距在训练后期**越来越大**。 ### 2. 每层输出大小 - 基线模型:随层数加深,每层输出数值越来越大(PreNorm 稀释问题的体现) - AttnRes:增长被限制在块内,块边界处重置,整体保持稳定 ### 3. 梯度分布 - 基线模型:最早几层梯度异常大,其他层很小,各层训练信号极不均匀 - AttnRes:各层梯度分布**明显更均匀**,每一层都在被有效训练 --- ## 六、模型学到了什么 Kimi 可视化了训练好的模型,看每层实际在关注哪些前驱层: - 大多数层主要关注自己的直接前驱(局部性被保留) - 出现有规律的跳跃:某些层专门关注最早的嵌入层,或跳过中间很多层回溯到某个特定早期层 - **注意力层和 MLP 层的关注模式不同**:MLP 层更依赖近期的表示,注意力层感受野更宽 这些不是人工设定的,是模型自己学出来的。 --- ## 七、意义 残差连接在过去十年成为所有深度学习模型的基础组件,几乎没有根本性改动。 **AttnRes 第一次在这个层面上动了真格**: - 用注意力机制替换固定的均匀累加 - 让深度方向的信息聚合变得**可学习、可选择** - 改动足够轻量,可直接替换进现有架构,不需要改变其他任何东西 代码已开源:https://github.com/MoonshotAI/Attention-Residuals --- *整理自 AI寒武纪 公众号,2026年3月16日*