--- title: 大语言模型为什么能像人一样说话和思考 source_url: https://mp.weixin.qq.com/s/aYxniqYNTcWyihYxAruLWQ author: 李航, 张少华, 林苑 published: 2026-05-17 created: 2026-05-17 updated: 2026-05-17 type: article tags: [llm, interpretability, feature-superposition, sae, circuit-analysis] sha256: ff24109e94a1819bfcc1ad59b7d3c696542205df127045e71ad87df5f8094111 review_value: 8 review_confidence: 8 review_recommendation: strong --- # 大语言模型为什么能像人一样说话和思考? **作者**: 李航,张少华,林苑(字节跳动) **来源**: 机器之心,2026年5月17日 我们每天都在使用大语言模型(Large Language Model,LLM)。一个明显的感受是,它们似乎真的能够理解我们的语言,虽然有时也会出现幻觉。另一方面,观察 LLM 输出的思维链,也就是其推理过程的语言表示,我们会感到它们好像真的能像人一样思考。 最近字节跳动的李航、张少华、林苑发表了一篇文章,论述:LLM 的语言和思考能力是怎样的能力?这些能力是如何通过其实现原理和方法、乃至工作机制形成的? 全文链接:https://github.com/hangli-hl/AI-Articles/tree/main --- ## 1 主要观点 文章阐述了以下主要观点: 1. **LLM 学习到的是语言使用和推理的模式,重要的是学到了其高阶模式。** LLM 的学习属于机器学习,其学习得到的内容本质上是数据中的统计规律,或者说数据中的模式(Patterns)。语言数据内容丰富,包含了词汇、语法、语义、语用信息和世界知识。我们可以看到,LLM 不仅学习到了与词汇和语法相关的低阶模式,而且也学习到了与语义、语用和世界知识相关的高阶模式(Higher Order Patterns)。之前的语言模型往往做不到这一点,而这正是 ChatGPT 以及后续的 LLM「涌现」出来的能力。 2. **可以用 Next Token Prediction (NTP) 来概括其基本实现原理,但整体能力是由策略、模型、算法及数据这几个要素共同决定的。** LLM 的学习和推理的过程是 NTP,但这只是表面的形式,其具体的实现方法以及其特点更为重要。预训练中使用的极大似然估计(等价于数据压缩)是估计词元序列数据的概率分布。后训练的强化学习旨在微调模型,使其成为最优词元序列生成的策略函数。 3. **LLM 的内部机制已得到一定的解析和理解。** 近年 LLM 可解释性研究取得了一定进展,现在 LLM 对我们来说已不再完全是黑盒。LLM 中的特征可以通过 SAE 等工具提取出来,特征之间形成的回路也可以利用 CLT 等工具追踪。 --- ## 2 LLM 的工作机制 ### 2.1 特征叠加(Superposition) 神经网络的每一层上都可能存在着「特征叠加」现象。传统的观点认为,一个神经元表示一个特征。然而,大量实验表明,这种理想化的情况在实际网络中比较少见。相反,神经元与特征之间往往呈现的是多对多的对应关系:即一个神经元参与表示多个特征,一个特征由多个神经元共同表示。 **Anthropic 研究团队提出了特征叠加假说(Superposition Hypothesis)**。其核心思想是:通过特征叠加,神经网络的一层神经元可以近似表示远大于其数量的特征,代价是特征之间存在一定程度的干扰。 特征叠加假说的核心观点: - 存在一个更宽的假想神经网络层,使用更多神经元来显式表示大量的特征 - 宽层的特征向量是稀疏的(对于每个输入,只有少数特征被激活) - 实际层的特征向量是稠密的,是被压缩后的版本 - 两者之间存在近似等价关系,可以互相线性变换重建 ### 2.2 SAE:特征分析 **稀疏自编码器(Sparse Autoencoder,SAE)** 可以用于分析神经网络,发现其中具有可解释性的特征。 SAE 与特征叠加理论形成了互补关系: - 特征叠加:压缩过程,隐式地将高维稀疏特征压缩到稠密特征向量 - SAE:「解压」方法,将输入向量分解为高维且稀疏的特征向量 **SAE 结构**: - 编码器(Encoder):通过非线性变换将输入向量转换为高维且稀疏的特征向量 - 解码器(Decoder):通过线性变换从特征向量重构原始输入向量 **训练目标**: - 重构向量尽可能接近原始输入向量 - 引入 L1 正则化来促进特征向量的稀疏性 **分析结果**: - 成功提取出数十万到百万量级的特征 - 一些特征具有明显的语义含义,例如与实体(如「金门大桥」)或行为(如「谄媚」,Sycophancy)相关的特征 - 特征呈现层次化结构:浅层=词法与简单语法;中间层=复杂语法和基本语义;深层=复杂语义、推理实现和输出表达 ### 2.3 记忆机制:功能词元假说 **功能词元假说(Function Token Hypothesis)** 是字节跳动的工作,揭示了 LLM 的记忆机制的基本特点。 **核心观点**:LLM 中特征的记忆是围绕着功能词元展开的,特征在一个上下文的检索,也是通过功能词元进行的。 **功能词元**:指在训练语料中出现频率最高的词元,大部分对应于语言学中的功能词,在语法和上下文连接上起着关键作用。例如: - 冠词「the」 - 标点符号(逗号、句号) - 换行符 **训练特点**: - 「功能词元 → 内容词元」的损失函数下降得最慢 - 功能词元在训练的过程中能激活大部分特征 - 前 10 个高频词元激活 70% 的特征 **推理机制**: 功能词元发挥着记忆检索的核心作用。它们能从上下文中动态地激活最具预测性的特征,从而指导下一个词元的生成。 **示例**:当提示为「Answer the question in Chinese: What is the capital of Russia?」时,功能词元(如冒号「:」和换行符)会激活上下文中「用中文回答」和「俄罗斯」等特征,同时抑制无关特征,最终引导模型用中文生成答案「莫斯科」。 ### 2.4 CLT:回路分析 **回路(Circuit)** 是指在 LLM 中跨层连接特征的计算图,用于表示模型中的特征是如何被激活和传播的。 **CLT(Cross Layer Transcoder,跨层转码器)** 方法: - 以某一层的残差流作为输入,模型将其映射到后续各层的残差流 - 捕捉不同层之间的特征影响关系 - 每一层都有一个类似 SAE 的特征抽取模块 **归因图(Attribution Graph)**: - 有向无环图,表示从输入词元到输出词元的计算路径 - 节点代表模型中激活的特征或词元嵌入 - 边代表节点之间的影响关系 - 通过剪枝技术对图进行精简,提高可解释性 --- ## 3 LLM 的语言理解和推理 ### 3.1 LLM 的能力 **高阶模式**:从其行为表现来看,大语言模型已展现出人类同等以上的语言与推理能力。以图灵测试为衡量标准,LLM 已达到了人类水平。 LLM 所习得的不仅限于语言的低阶模式,更涵盖了语言与推理的高阶模式: - 理解并执行「喜马拉雅山有多高,用英文回答」这类指令(语用能力) - 辨析「金门大桥与金拱门的关系」这类涉及概念异同的问题(语义理解与世界知识) **关于乔姆斯基批评的回应**:乔姆斯基曾批评 LLM 仅学习到语言的表层统计规律。然而,以上事实表明,这一判断并不成立。 ### 3.2 与人类能力的比较 | 能力维度 | LLM | 人类 | |----------|-----|------| | 语言与推理 | 人类同等或以上 | - | | 幻觉 | 必然存在(统计规律的本质) | 无(但有错误判断) | | 具身认知 | 无(纯语言表示空间) | 有(基于身体感知运动经验) | | 创造力 | 渐进式创新可,颠覆式创新未知 | 有 | | 意识 | 无 | 有 | **幻觉问题**:LLM 自身无法解决幻觉问题。因为它学习的是语言数据中的统计规律。理论证明,在一定假设条件下,语言生成过程中一定会以一定概率产生幻觉。幻觉问题可通过 RAG 等机制缓解。 **具身认知**:人的思考包含多个方面,不仅涉及语言、推理和数学,还与五种感官以及运动系统密切相关。具身认知假说认为,思考的过程是基于身体的感知运动经验。当前的多模态大语言模型(MLLM)与人类仍有显著差距。 **创造力**:LLM 是否具有创造力是开放式问题。创新分渐进式创新和颠覆式创新。LLM 应该具备渐进式创新能力,而颠覆式创新(如相对论)是否能做到尚无定论。 --- ## 参考 - LLM记忆机制论文:Shaohua Zhang, Yuan Lin, Hang Li, "Memory Retrieval and Consolidation in Large Language Models through Function Tokens", 2025. https://arxiv.org/abs/2510.08203 - Anthropic Superposition Hypothesis - Anthropic SAE (Sparse Autoencoder) Research - Anthropic CLT (Cross Layer Transcoder) Research