---
title: Yann LeCun谈LLM不是智能与世界模型JEPA
source_url: https://mp.weixin.qq.com/s/blO6HIfh6Dc1O8fHWnQc8Q
author: Annelies Gamble
published: 2026-05-12
created: 2026-05-17
updated: 2026-05-17
type: article
tags: [yann-lecun, jepa, world-model, ami-labs, llm-critique, embodied-ai, agent]
sha256: aca0987f2453e84673b9c2cb3217cd16f8ab4e31b3edff9ca713c149d247edc6
review_value: 8
review_confidence: 8
review_recommendation: worth-reading
---
# Yann LeCun谈LLM不是智能与世界模型JEPA
## 核心观点
杨立昆（Yann LeCun）："语言将会成为一个会思考的系统的接口。"
真正的核心是世界模型——能预测后果、能规划、能模拟现实的系统。LLM只是一个接口，而不是智能本身。
## 01 那个计算：四岁孩子vs LLM
- 四岁孩子醒着累计约16000小时
- 视神经每秒传输约1字节/纤维 × 100万根纤维
- 四岁前视觉原始信息量：约10^14字节
- **与现代主流LLM预训练语料量级相同**
> "一个小孩，仅仅通过视觉这一个通道，已经吸收了和最大型语言模型在训练阶段等量的原始信息。我们靠着训练文本，永远不可能到达人类级别的AI。"
## 02 说话不等于理解
**LeCun的智能标准**：一个系统想要表现出智能，必须能预测自己行动的后果。
**LLM做不到**：
- 只产出token，不做世界状态预测
- 没有"如果我这样做，会发生什么"的内部模拟
- 积累的是陈述性知识，不是对世界的理解
**关键洞察**：
- 人类大量知识和思考与语言无关
- "能用语言表达"不等于"有智能"
- 对能说话的东西天生有归因智能的偏见
## 03 LLM能做什么
**有效领域**：编程和数学
- 符号操作本身就是推理的基础
- "预测下一个符号"和"理解逻辑"有重叠
**永远达不到**：需要常识推理和日常规划的问题
## 04 失败了十年
LeCun的替代方案做了超过15年，前10年基本失败：
**失败原因**：用生成式架构在像素层面预测视频
- 物理世界是不可压缩的噪声
- 预测不了精确位置和每帧像素颜色
- 训练系统模拟随机性，而不是学习物理规律
> "当你试图训练一个系统去预测某个情景里的每一个细节，你基本上是在扼杀它——因为你在训练它做一件不可能的事。"
## 05 JEPA是什么
**Joint Embedding Predictive Architecture**：联合嵌入预测架构
**核心思路**：
- 不预测像素，学会预测抽象状态
- 把不可预测的细节、噪声、随机性从表示中去掉
- 只保留和规划相关的东西
**类比**：
- 预测明天出门：不需要精确预测每片云、每辆车
- 需要知道：天气、路况、时间——这是"有意义的抽象状态"
**JEPA的目标**：
- 学到和规划相关的隐变量
- 即使无法从中重建逼真画面
- 预测也变得可靠
**推理 vs 生成**：
- 真正推理：内部模拟、操纵心理模型、反事实推断、层级规划
- LLM的CoT："一种非常低效地强迫自回归预测系统接近推理的方式"
## 06 AMI实验室
**Advanced Machine Intelligence Labs**
- Zetta Ventures投资组合公司
- 方向：真实世界AI——工业过程控制、自动化、可穿戴设备、机器人、医疗健康
**目标**：建通用基础模型，应用于任何需要智能系统"运行物理过程"的场景
**举例**：
- 足够好的患者状态预测模型 → 个性化治疗序列规划（如控制血糖）
- 工厂、电网、供应链、交通网络控制
## 07 谁在做同一件事
| 公司/实验室 | 方向 |
|------------|------|
| 李飞飞 World Labs | 3D世界模型，Marble文字/视频转3D环境 |
| Google DeepMind Genie 3 | 实时交互世界模型 |
| 1X Technologies | 互联网视频+人类第一视角操作录像 |
| Generalist AI | 可穿戴设备日常任务数据，50万小时 |
| 英伟达 | 底层平台，让别人定制世界模型 |
| 特斯拉 | 同一模型跑汽车+人形机器人 |
| AMI Labs | JEPA风格抽象表示（差异化） |
## 08 机器人的两道墙
**第一道墙：数据**
- 远程操控数据质量最高但无法并行
- 变通方案：UMI手持夹具、可穿戴设备、跨机器人数据集、仿真
- 互联网视频没有动作标签，难以直接用
**第二道墙：机体锁定**
- 观察直接映射到动作，把知识锁在特定身体层面
- 换机械臂需要大量重新适配
**世界模型同时攻两道墙**：
- 学物理规律（物体掉落、接触力、液体流动）→ 跨身体成立
- 从无动作标签视频吸收知识（目标不是动作指令，是世界状态）
- 适配新机体变成校准问题
## 09 不只是机器人
**应用场景**：
- 控制制造工厂、涡轮发动机、化工流程
- 控制人类细胞
- 为病人规划治疗序列
**全球经济的一大块是跑物理系统的**——工厂、电网、供应链、交通网络、生物医疗。
**当前AI的局限**：LLM做得了辅助信息处理，做不了"如果我这样干预，接下来会发生什么"的判断。
## 10 对我们意味着什么
**架构翻转**：
- 大多数人：LLM是核心，其他是插件
- LeCun：世界模型是核心，LLM只是接口
**SAI**：Superhuman Adaptable Intelligence
- 解决没被训练过要解决的问题
- 面对新问题时能自主找到解法
**关于判断**：
> "让我不安的不是哪种结果，而是：这两种结果我现在都能写出来一套自洽的叙事。这说明我其实不知道。"
## 与现有知识的链接
- → [[entities/估值3000亿63家新实验室杀疯了murati贝佐斯集体押注下一代ai|估值3000亿：63家新实验室]] — World Labs融资背景
- → [[raw/articles/nvidias-jensen-huang-bets-on-this-british-startup-to-build-next-frontier-of-ai|NVIDIA押注]] — AMI Labs 10亿美元融资