---
title: 省下1.25倍算力！Kimi这篇论文，可能改写所有大模型的训练方式
source_url: https://mp.weixin.qq.com/s/PE7jd52Oef-LTh4NvWQemA
publish_date: 2026-04-28
tags: [wechat, article]
review_value: 7
review_confidence: 7
review_recommendation: neutral
ingested: 2026-05-16
sha256: fd03d3a3b3356548e86d8cf2e4e1d416e81b3714d6c40b8d7f61aeeee2f89639
---
# 省下1.25倍算力！Kimi这篇论文，可能改写所有大模型的训练方式
> 原文链接：https://mp.weixin.qq.com/s/PE7jd52Oef-LTh4NvWQemA  
> 作者：你说的完全正确 / AI寒武纪  
> 发布时间：2026年3月16日  
> 平台：微信公众号
---
## 核心信息
- **论文**：[MoonshotAI/Attention-Residuals](https://github.com/MoonshotAI/Attention-Residuals)（GitHub 已开源）
- **问题**：大模型堆层越深，后面的层越来越不管用（PreNorm 稀释）
- **解法**：Attention Residuals（AttnRes）—— 让每一层自己用注意力机制选择关注哪些前驱层
- **工程折中**：Block AttnRes—— 分块减少内存/通信压力，8 块可恢复绝大部分效果
- **效果**：同等性能只需 0.8x 算力（反过来说同等算力多训练 1.25x）；48B 模型 1.4T tokens 预训练后 12 个 benchmark 全部提升
---
## 一、问题：PreNorm 稀释
### 残差连接的历史
残差连接（Residual Connection）由何凯明于 2015 年引入图像识别，至今是所有深度学习模型的标配。
**传统工作方式**：
- 每一层处理完信息后，将处理结果和原始输入相加，传给下一层
- 解决了梯度传播问题，使数百层深度网络可被训练
### 隐藏的问题
每一层做完累加后，信息被压进一个**混合状态**。越往后，这个混合状态越臃肿，所有前层内容都混在一起，权重完全一样。
**后果**：
- 后面的层无法选择性调用——"我需要第 5 层的信息，不是第 12 层的"，只能接收一锅乱炖
- 随着网络加深，混合状态数值越来越大，后层必须输出更大数值才能不被淹没
- **PreNorm 稀释**：实验证明，删掉很深模型中的很多层，效果几乎不变，大量层形同虚设
---
## 二、解法：Attention Residuals（AttnRes）
### 核心思路
不再将前面所有层的输出等权相加，而是**让每层自己决定关注哪些前驱层**。
| 传统方式 | AttnRes |
|---------|---------|
| 每层 = 前面所有层输出，**等权**加和 | 每层 = 前面所有层输出，**按需加权**求和 |
### 权重如何来
使用注意力机制——每层有一个专属的小向量（只有一个，极其轻量），用它去跟前面所有层的输出算相似度，高相似度 → 高权重，最后加权求和。
这样注意力层和 MLP 层可以关注不同的历史层，早期层信息不会被淹没。
### 但有个工程问题
每层要关注前面所有层的输出，就必须把前面所有层的输出都存着。对数十层小模型没问题，但现代大模型动辄上百层，训练时还会做流水线并行——**内存压力和通信压力暴增**。
---
## 三、工程折中：Block AttnRes
Kimi 的解法：**不分层存，改为分块存**。
- 所有层分成若干 block，每个 block 内部用传统方式累加，但把整个 block 压缩成一个向量存起来
- 跨 block 之间，用注意力机制选择
- 存储量从正比于层数 → 正比于块数
**关键发现**：分成大约 **8 块**就能恢复 Full AttnRes 绝大部分效果，内存和通信开销只是原来的一小部分。训练额外开销边际，推理延迟增加不到 **2%**。
---
## 四、实验结果
### Scaling Law 实验
5 个不同大小的模型，覆盖从小到大的算力范围。结论：
> **Block AttnRes 在每个规模下都比基线表现更好，相当于用同等性能只需要基线 0.8 倍算力**（同等算力可多训练 1.25 倍）。
### 48B 大模型完整预训练（1.4T tokens）
测了十几个 benchmark，**AttnRes 版本全部高于基线，没有一个跌分**。
提升最明显的任务（需要多步推理）：
| Benchmark | 提升 |
|-----------|------|
| GPQA-Diamond（科学推理） | **+7.5** |
| Math（数学） | **+3.6** |
| HumanEval（代码生成） | **+3.1** |
知识类任务也有稳定提升，幅度小一些。
**Kimi 解释**：深度方向的信息流改善后，后面的层可以有选择地调用前面某层的中间结果，对需要多步推理的任务帮助最大。
---
## 五、训练过程中发生了什么
对比两个模型的训练动态，能看到三个明显变化：
### 1. 验证损失
AttnRes 从一开始就比基线低，差距在训练后期**越来越大**。
### 2. 每层输出大小
- 基线模型：随层数加深，每层输出数值越来越大（PreNorm 稀释问题的体现）
- AttnRes：增长被限制在块内，块边界处重置，整体保持稳定
### 3. 梯度分布
- 基线模型：最早几层梯度异常大，其他层很小，各层训练信号极不均匀
- AttnRes：各层梯度分布**明显更均匀**，每一层都在被有效训练
---
## 六、模型学到了什么
Kimi 可视化了训练好的模型，看每层实际在关注哪些前驱层：
- 大多数层主要关注自己的直接前驱（局部性被保留）
- 出现有规律的跳跃：某些层专门关注最早的嵌入层，或跳过中间很多层回溯到某个特定早期层
- **注意力层和 MLP 层的关注模式不同**：MLP 层更依赖近期的表示，注意力层感受野更宽
这些不是人工设定的，是模型自己学出来的。
---
## 七、意义
残差连接在过去十年成为所有深度学习模型的基础组件，几乎没有根本性改动。
**AttnRes 第一次在这个层面上动了真格**：
- 用注意力机制替换固定的均匀累加
- 让深度方向的信息聚合变得**可学习、可选择**
- 改动足够轻量，可直接替换进现有架构，不需要改变其他任何东西
代码已开源：https://github.com/MoonshotAI/Attention-Residuals
---
*整理自 AI寒武纪 公众号，2026年3月16日*