---
title: "Kimi K2.5 架构创新 — 1T MoE 一层路由 + 三能力跃迁"
source: wechat-mp
source_url: https://mp.weixin.qq.com/s/-LlryKjaW1jS_UouZwAU7Q
author: 朱洁 (架构师带你玩AI)
published: 2026-06-12
ingested: 2026-06-12
type: article-summary
tags: [kimi, k2.5, moe, moonshot, architecture, one-layer-routing, open-source]
sha256: 5b575ee54f4b9a3bd79eb80642a60e0857892959401b27d6d40cb4a4719ea139
---

# Kimi K2.5 架构创新 (朱洁 / 架构师带你玩AI)

## 一、K2 → K2.5 的演进背景

K2 阶段完成 1T MoE 基础架构搭建。K2.5 在 K2 之上叠加三层能力：
- **深度研究 (deep research)**
- **视觉-代码-操作 联合**
- **多模态表格理解**

K2.5 模型权重 + 训练数据 + 配套 harness（OpenShell、AWorld）**全部开源**。

## 二、核心架构创新

### 2.1 1T MoE 的"一层路由"机制

这是与 DeepSeek-V3 256 expert 完全不同的设计。

**传统 MoE（DeepSeek-V3 风格）**：
- 路由在**每一层**都做
- 每个 token 独立选 expert
- 选中的 expert 子集被激活

**K2.5 一层路由**：
- 路由**只发生在 attention 之后残差流出口的那一层**
- 所有 1T 参数在 attention 阶段**完整在线**
- 残差流通过路由决定流向哪个 expert sub-network
- 效果：**1T 参数物理在线 + 路由只激活部分路径**

| 维度 | DeepSeek-V3 | K2.5 |
|------|------------|------|
| 路由层数 | 每层 | 残差出口单层 |
| Expert 数量 | 256 (64维) | 384 |
| Expert 构造 | 共享专家 + 路由专家 | **k 均值聚类得到的簇** |
| 激活参数 | 子集激活 | **全 1T 在线，路由分流** |

### 2.2 384 个 k 均值聚类 expert

- 不再是手工定义 expert specialization
- 用 k-means 把 token 表达聚成 384 簇
- 每簇对应一个 expert sub-network
- 路由本质上是 token → 簇的最近邻查询

### 2.3 训练数据 pipeline

- **OCR 公式/表格合成**：构造结构化训练样本
- **agent harness synthesis**：合成 agent 执行轨迹作为训练数据
- **5 个 step cot 数据**：分阶段思维链
- **math/STEM/Code 提升**

### 2.4 MLA-MQA 共享 KV

- Multi-Latent Attention 复用 KV 头
- Multi-Query Attention 共享 KV
- 推理显存压力大幅降低

### 2.5 多模态 token merging

- 多模态 token 合并：相邻 token 语义相似可合并
- 视觉块 / 文本块分别合并
- 减少跨模态交互的 token 数

## 三、K2.5 三能力跃迁

### 3.1 深度研究 (deep research)

- 基于开源 **OpenShell** / **AWorld** harness
- 多步检索 + 信息整合 + 报告生成

### 3.2 视觉-代码-操作 联合

- 看图写代码并直接执行
- screenshot / UI 截图 → 可运行代码

### 3.3 多模态表格理解

- 表格结构识别 + 跨页表格合并
- 视觉表格问答

## 四、开源生态

- K2.5 权重开源
- 训练数据 pipeline 开源
- OpenShell / AWorld harness 开源
- 与 DeepSeek V3 / Qwen3 / GLM 4.5 同台开源

## 五、引用源

- 原文：https://mp.weixin.qq.com/s/-LlryKjaW1jS_UouZwAU7Q
- 关联：[[raw/articles/kimi-k2-6-tidb-agent-database|Kimi K2.6 Agent Database]]
- 关联：[[raw/articles/kimi-attention-residuals-preNorm-dilution-block-attnres|Kimi AttnRes]]
- 关联：[[raw/articles/deepseek-moe-parallel-strategy|DeepSeek MoE]]
- 关联：[[raw/articles/openjiuwen-swarm-coordination-engineering|openJiuwen Swarm]]