--- title: "Tapered Language Models:锥形参数分配的免费午餐" source_url: "https://mp.weixin.qq.com/s/6Tg-XzoKjoxEdHWZo8lAWw" author: "机器之心 / Mila-魁北克人工智能研究所、康奈尔大学、蒙特利尔大学" published: 2026-06-29 ingested: 2026-06-29 type: raw-article language: zh tags: [architecture, parameter-efficiency, transformer, tapering, zero-cost-improvement] --- # Tapered Language Models:锥形参数分配 **论文**: https://arxiv.org/abs/2606.23670 ## 核心问题 Transformer 及几乎所有后续架构都采用均匀层结构——每层参数量完全相同。但层重要性不均匀: - 提前退出实验:模型未到最后一层答案已定型 - 层剪枝:砍掉后面层,表现几乎不受影响 - 可解释性:浅层抓语法,深层处理语义 **核心疑问**:既然层重要性不均匀,为什么"脑容量"要均匀分配? ## Tapered Language Models (TLMs) 选定模型中决定参数量的维度(如 FFN 宽度),沿深度方向单调递减,保证平均宽度 = 原固定值。 总参数量和计算量完全不变,分布形状从"长方形"变"楔形"。 ### 三种递减曲线 - **线性递减**:匀速关店 - **S 形递减**:突然集中闭店,中段急速收缩 - **余弦递减**:两头平缓,中段逐渐收紧 ### 实验结果 440M Transformer:余弦递减最优配置(前段 1.5x,后段 0.5x),困惑度 16.28 → 14.44,改善 **1.84 个点**,零额外参数和 FLOPs。 ### 跨架构验证 同一配置(余弦递减 1.5/0.5)搬到: - 带门控机制的注意力模型 - Hope-attention(自我修改记忆) - Titans(神经长期记忆) 760M 和 1.3B 两个规模,四种架构、两种规模,八组对比中锥形化模型全部提升。 长文本检索(Needle-in-a-Haystack)确认不牺牲长上下文能力。 ## 原因解释 测量 GPT-2 每层 FFN 输出与已有信息流的相似度:越往深处,新写入内容与已有信息越像。后段层更多在"重复强调"而非"创造"新理解。 把容量从前段挪到后段 = 把资源给真正用得上的地方。 ## 核心观点 零成本替代方案:不换架构、不加参数,只换分配"形状"。