--- title: Yann LeCun谈LLM不是智能与世界模型JEPA source_url: https://mp.weixin.qq.com/s/blO6HIfh6Dc1O8fHWnQc8Q author: Annelies Gamble published: 2026-05-12 created: 2026-05-17 updated: 2026-05-17 type: article tags: [yann-lecun, jepa, world-model, ami-labs, llm-critique, embodied-ai, agent] sha256: aca0987f2453e84673b9c2cb3217cd16f8ab4e31b3edff9ca713c149d247edc6 review_value: 8 review_confidence: 8 review_recommendation: worth-reading --- # Yann LeCun谈LLM不是智能与世界模型JEPA ## 核心观点 杨立昆(Yann LeCun):"语言将会成为一个会思考的系统的接口。" 真正的核心是世界模型——能预测后果、能规划、能模拟现实的系统。LLM只是一个接口,而不是智能本身。 ## 01 那个计算:四岁孩子vs LLM - 四岁孩子醒着累计约16000小时 - 视神经每秒传输约1字节/纤维 × 100万根纤维 - 四岁前视觉原始信息量:约10^14字节 - **与现代主流LLM预训练语料量级相同** > "一个小孩,仅仅通过视觉这一个通道,已经吸收了和最大型语言模型在训练阶段等量的原始信息。我们靠着训练文本,永远不可能到达人类级别的AI。" ## 02 说话不等于理解 **LeCun的智能标准**:一个系统想要表现出智能,必须能预测自己行动的后果。 **LLM做不到**: - 只产出token,不做世界状态预测 - 没有"如果我这样做,会发生什么"的内部模拟 - 积累的是陈述性知识,不是对世界的理解 **关键洞察**: - 人类大量知识和思考与语言无关 - "能用语言表达"不等于"有智能" - 对能说话的东西天生有归因智能的偏见 ## 03 LLM能做什么 **有效领域**:编程和数学 - 符号操作本身就是推理的基础 - "预测下一个符号"和"理解逻辑"有重叠 **永远达不到**:需要常识推理和日常规划的问题 ## 04 失败了十年 LeCun的替代方案做了超过15年,前10年基本失败: **失败原因**:用生成式架构在像素层面预测视频 - 物理世界是不可压缩的噪声 - 预测不了精确位置和每帧像素颜色 - 训练系统模拟随机性,而不是学习物理规律 > "当你试图训练一个系统去预测某个情景里的每一个细节,你基本上是在扼杀它——因为你在训练它做一件不可能的事。" ## 05 JEPA是什么 **Joint Embedding Predictive Architecture**:联合嵌入预测架构 **核心思路**: - 不预测像素,学会预测抽象状态 - 把不可预测的细节、噪声、随机性从表示中去掉 - 只保留和规划相关的东西 **类比**: - 预测明天出门:不需要精确预测每片云、每辆车 - 需要知道:天气、路况、时间——这是"有意义的抽象状态" **JEPA的目标**: - 学到和规划相关的隐变量 - 即使无法从中重建逼真画面 - 预测也变得可靠 **推理 vs 生成**: - 真正推理:内部模拟、操纵心理模型、反事实推断、层级规划 - LLM的CoT:"一种非常低效地强迫自回归预测系统接近推理的方式" ## 06 AMI实验室 **Advanced Machine Intelligence Labs** - Zetta Ventures投资组合公司 - 方向:真实世界AI——工业过程控制、自动化、可穿戴设备、机器人、医疗健康 **目标**:建通用基础模型,应用于任何需要智能系统"运行物理过程"的场景 **举例**: - 足够好的患者状态预测模型 → 个性化治疗序列规划(如控制血糖) - 工厂、电网、供应链、交通网络控制 ## 07 谁在做同一件事 | 公司/实验室 | 方向 | |------------|------| | 李飞飞 World Labs | 3D世界模型,Marble文字/视频转3D环境 | | Google DeepMind Genie 3 | 实时交互世界模型 | | 1X Technologies | 互联网视频+人类第一视角操作录像 | | Generalist AI | 可穿戴设备日常任务数据,50万小时 | | 英伟达 | 底层平台,让别人定制世界模型 | | 特斯拉 | 同一模型跑汽车+人形机器人 | | AMI Labs | JEPA风格抽象表示(差异化) | ## 08 机器人的两道墙 **第一道墙:数据** - 远程操控数据质量最高但无法并行 - 变通方案:UMI手持夹具、可穿戴设备、跨机器人数据集、仿真 - 互联网视频没有动作标签,难以直接用 **第二道墙:机体锁定** - 观察直接映射到动作,把知识锁在特定身体层面 - 换机械臂需要大量重新适配 **世界模型同时攻两道墙**: - 学物理规律(物体掉落、接触力、液体流动)→ 跨身体成立 - 从无动作标签视频吸收知识(目标不是动作指令,是世界状态) - 适配新机体变成校准问题 ## 09 不只是机器人 **应用场景**: - 控制制造工厂、涡轮发动机、化工流程 - 控制人类细胞 - 为病人规划治疗序列 **全球经济的一大块是跑物理系统的**——工厂、电网、供应链、交通网络、生物医疗。 **当前AI的局限**:LLM做得了辅助信息处理,做不了"如果我这样干预,接下来会发生什么"的判断。 ## 10 对我们意味着什么 **架构翻转**: - 大多数人:LLM是核心,其他是插件 - LeCun:世界模型是核心,LLM只是接口 **SAI**:Superhuman Adaptable Intelligence - 解决没被训练过要解决的问题 - 面对新问题时能自主找到解法 **关于判断**: > "让我不安的不是哪种结果,而是:这两种结果我现在都能写出来一套自洽的叙事。这说明我其实不知道。" ## 与现有知识的链接 - → [[entities/估值3000亿63家新实验室杀疯了murati贝佐斯集体押注下一代ai|估值3000亿:63家新实验室]] — World Labs融资背景 - → [[raw/articles/nvidias-jensen-huang-bets-on-this-british-startup-to-build-next-frontier-of-ai|NVIDIA押注]] — AMI Labs 10亿美元融资