---
title: 大语言模型为什么能像人一样说话和思考
source_url: https://mp.weixin.qq.com/s/aYxniqYNTcWyihYxAruLWQ
author: 李航, 张少华, 林苑
published: 2026-05-17
created: 2026-05-17
updated: 2026-05-17
type: article
tags: [llm, interpretability, feature-superposition, sae, circuit-analysis]
sha256: ff24109e94a1819bfcc1ad59b7d3c696542205df127045e71ad87df5f8094111
review_value: 8
review_confidence: 8
review_recommendation: strong
---
# 大语言模型为什么能像人一样说话和思考？
**作者**: 李航，张少华，林苑（字节跳动）  
**来源**: 机器之心，2026年5月17日
我们每天都在使用大语言模型（Large Language Model，LLM）。一个明显的感受是，它们似乎真的能够理解我们的语言，虽然有时也会出现幻觉。另一方面，观察 LLM 输出的思维链，也就是其推理过程的语言表示，我们会感到它们好像真的能像人一样思考。
最近字节跳动的李航、张少华、林苑发表了一篇文章，论述：LLM 的语言和思考能力是怎样的能力？这些能力是如何通过其实现原理和方法、乃至工作机制形成的？
全文链接：https://github.com/hangli-hl/AI-Articles/tree/main
---
## 1 主要观点
文章阐述了以下主要观点：
1. **LLM 学习到的是语言使用和推理的模式，重要的是学到了其高阶模式。** LLM 的学习属于机器学习，其学习得到的内容本质上是数据中的统计规律，或者说数据中的模式（Patterns）。语言数据内容丰富，包含了词汇、语法、语义、语用信息和世界知识。我们可以看到，LLM 不仅学习到了与词汇和语法相关的低阶模式，而且也学习到了与语义、语用和世界知识相关的高阶模式（Higher Order Patterns）。之前的语言模型往往做不到这一点，而这正是 ChatGPT 以及后续的 LLM「涌现」出来的能力。
2. **可以用 Next Token Prediction (NTP) 来概括其基本实现原理，但整体能力是由策略、模型、算法及数据这几个要素共同决定的。** LLM 的学习和推理的过程是 NTP，但这只是表面的形式，其具体的实现方法以及其特点更为重要。预训练中使用的极大似然估计（等价于数据压缩）是估计词元序列数据的概率分布。后训练的强化学习旨在微调模型，使其成为最优词元序列生成的策略函数。
3. **LLM 的内部机制已得到一定的解析和理解。** 近年 LLM 可解释性研究取得了一定进展，现在 LLM 对我们来说已不再完全是黑盒。LLM 中的特征可以通过 SAE 等工具提取出来，特征之间形成的回路也可以利用 CLT 等工具追踪。
---
## 2 LLM 的工作机制
### 2.1 特征叠加（Superposition）
神经网络的每一层上都可能存在着「特征叠加」现象。传统的观点认为，一个神经元表示一个特征。然而，大量实验表明，这种理想化的情况在实际网络中比较少见。相反，神经元与特征之间往往呈现的是多对多的对应关系：即一个神经元参与表示多个特征，一个特征由多个神经元共同表示。
**Anthropic 研究团队提出了特征叠加假说（Superposition Hypothesis）**。其核心思想是：通过特征叠加，神经网络的一层神经元可以近似表示远大于其数量的特征，代价是特征之间存在一定程度的干扰。
特征叠加假说的核心观点：
- 存在一个更宽的假想神经网络层，使用更多神经元来显式表示大量的特征
- 宽层的特征向量是稀疏的（对于每个输入，只有少数特征被激活）
- 实际层的特征向量是稠密的，是被压缩后的版本
- 两者之间存在近似等价关系，可以互相线性变换重建
### 2.2 SAE：特征分析
**稀疏自编码器（Sparse Autoencoder，SAE）** 可以用于分析神经网络，发现其中具有可解释性的特征。
SAE 与特征叠加理论形成了互补关系：
- 特征叠加：压缩过程，隐式地将高维稀疏特征压缩到稠密特征向量
- SAE：「解压」方法，将输入向量分解为高维且稀疏的特征向量
**SAE 结构**：
- 编码器（Encoder）：通过非线性变换将输入向量转换为高维且稀疏的特征向量
- 解码器（Decoder）：通过线性变换从特征向量重构原始输入向量
**训练目标**：
- 重构向量尽可能接近原始输入向量
- 引入 L1 正则化来促进特征向量的稀疏性
**分析结果**：
- 成功提取出数十万到百万量级的特征
- 一些特征具有明显的语义含义，例如与实体（如「金门大桥」）或行为（如「谄媚」，Sycophancy）相关的特征
- 特征呈现层次化结构：浅层=词法与简单语法；中间层=复杂语法和基本语义；深层=复杂语义、推理实现和输出表达
### 2.3 记忆机制：功能词元假说
**功能词元假说（Function Token Hypothesis）** 是字节跳动的工作，揭示了 LLM 的记忆机制的基本特点。
**核心观点**：LLM 中特征的记忆是围绕着功能词元展开的，特征在一个上下文的检索，也是通过功能词元进行的。
**功能词元**：指在训练语料中出现频率最高的词元，大部分对应于语言学中的功能词，在语法和上下文连接上起着关键作用。例如：
- 冠词「the」
- 标点符号（逗号、句号）
- 换行符
**训练特点**：
- 「功能词元 → 内容词元」的损失函数下降得最慢
- 功能词元在训练的过程中能激活大部分特征
- 前 10 个高频词元激活 70% 的特征
**推理机制**：
功能词元发挥着记忆检索的核心作用。它们能从上下文中动态地激活最具预测性的特征，从而指导下一个词元的生成。
**示例**：当提示为「Answer the question in Chinese: What is the capital of Russia?」时，功能词元（如冒号「:」和换行符）会激活上下文中「用中文回答」和「俄罗斯」等特征，同时抑制无关特征，最终引导模型用中文生成答案「莫斯科」。
### 2.4 CLT：回路分析
**回路（Circuit）** 是指在 LLM 中跨层连接特征的计算图，用于表示模型中的特征是如何被激活和传播的。
**CLT（Cross Layer Transcoder，跨层转码器）** 方法：
- 以某一层的残差流作为输入，模型将其映射到后续各层的残差流
- 捕捉不同层之间的特征影响关系
- 每一层都有一个类似 SAE 的特征抽取模块
**归因图（Attribution Graph）**：
- 有向无环图，表示从输入词元到输出词元的计算路径
- 节点代表模型中激活的特征或词元嵌入
- 边代表节点之间的影响关系
- 通过剪枝技术对图进行精简，提高可解释性
---
## 3 LLM 的语言理解和推理
### 3.1 LLM 的能力
**高阶模式**：从其行为表现来看，大语言模型已展现出人类同等以上的语言与推理能力。以图灵测试为衡量标准，LLM 已达到了人类水平。
LLM 所习得的不仅限于语言的低阶模式，更涵盖了语言与推理的高阶模式：
- 理解并执行「喜马拉雅山有多高，用英文回答」这类指令（语用能力）
- 辨析「金门大桥与金拱门的关系」这类涉及概念异同的问题（语义理解与世界知识）
**关于乔姆斯基批评的回应**：乔姆斯基曾批评 LLM 仅学习到语言的表层统计规律。然而，以上事实表明，这一判断并不成立。
### 3.2 与人类能力的比较
| 能力维度 | LLM | 人类 |
|----------|-----|------|
| 语言与推理 | 人类同等或以上 | - |
| 幻觉 | 必然存在（统计规律的本质） | 无（但有错误判断） |
| 具身认知 | 无（纯语言表示空间） | 有（基于身体感知运动经验） |
| 创造力 | 渐进式创新可，颠覆式创新未知 | 有 |
| 意识 | 无 | 有 |
**幻觉问题**：LLM 自身无法解决幻觉问题。因为它学习的是语言数据中的统计规律。理论证明，在一定假设条件下，语言生成过程中一定会以一定概率产生幻觉。幻觉问题可通过 RAG 等机制缓解。
**具身认知**：人的思考包含多个方面，不仅涉及语言、推理和数学，还与五种感官以及运动系统密切相关。具身认知假说认为，思考的过程是基于身体的感知运动经验。当前的多模态大语言模型（MLLM）与人类仍有显著差距。
**创造力**：LLM 是否具有创造力是开放式问题。创新分渐进式创新和颠覆式创新。LLM 应该具备渐进式创新能力，而颠覆式创新（如相对论）是否能做到尚无定论。
---
## 参考
- LLM记忆机制论文：Shaohua Zhang, Yuan Lin, Hang Li, "Memory Retrieval and Consolidation in Large Language Models through Function Tokens", 2025. https://arxiv.org/abs/2510.08203
- Anthropic Superposition Hypothesis
- Anthropic SAE (Sparse Autoencoder) Research
- Anthropic CLT (Cross Layer Transcoder) Research