--- title: thinking-machines-interaction-models-ai-cold source_url: https://mp.weixin.qq.com/s/RLJJoOkn0kP7_ei_QV4oIw publish_date: 2026-05-13 tags: [wechat, article, gpt, harness] review_value: 7 review_confidence: 7 review_recommendation: neutral sha256: c33be07ee92ec5695a788b6210022fcd53d9a9305656951e133dd5376586b926 --- 现有AI都是假实时!Thinking Machines发布交互模型,离真正的贾维斯真的近了 AI寒武纪 2026年5月12日 10:30 江苏 Thinking Machines 发了一个新的交互模型,切入了一个更根本的问题:我们与 AI 交互的方式。它能够同时进行聆听、观察、说话、被打断、作出反应、在后台思考,以及调用工具。这一切并非靠语音转文字、轮次检测和各种智能体技巧拼接而成的流水线,而是一种原生的模型能力! Mira Murati的Thinking Machines Lab刚刚发布了新的研究成果:交互模型(interaction models)。 核心思路:与其把实时交互功能拼接到原本按轮次工作的模型上,不如从头训练一个天生就能处理实时交互的模型。 现在的AI,其实不是真实时 用过语音AI的人都有这种感受:你必须说完,它才开始听。它说完,你才能接话。 问题出在架构层面。今天的模型是单线程感知现实的:用户没说完,模型就什么都感知不到;模型没生成完,感知就冻结,不接收任何新信息。这条人机协作的通道非常窄,人的知识、意图和判断,大量无法传递给模型;模型在做什么,人也很难随时介入理解。 现有的解决方案是在模型外面套一个控制框架(harness),用语音活动检测等组件模拟打断、多模态输入、并发处理。但这些组件本身比模型要笨得多,天然限制了交互能力。比如"当我说错的时候打断我"或者"发现我代码里有bug就告诉我",这类功能靠外挂根本做不到。 更根本的矛盾在于:按照机器学习的苦涩教训,这些手工搭建的系统迟早会被通用能力的进步所超越。要让交互能力随着智能一起扩展,交互本身必须成为模型的一部分。 从头训练,而不是外挂 Thinking Machines的做法是训练一个原生支持实时交互的模型。 系统由两部分组成:一个持续与用户保持双向交换的交互模型,加上一个异步运行的后台模型。 交互模型负责实时感知和响应;当任务需要更深度的推理时,交互模型把任务委派给后台模型,后台模型在完成后把结果流式传回,交互模型再选择合适的时机把结果融入对话,而不是突兀地切换上下文。交互模型在整个过程中始终保持在线。 这样的分工,让用户同时获得两种能力:非思考型模型的响应速度,以及推理模型的规划、工具调用和智能体工作流。 架构细节 时间对齐的微轮次(Micro-Turns) 交互模型以200毫秒为单位连续工作,交替处理200毫秒的输入和生成200毫秒的输出。输入和输出都被当作流来处理,没有人为设定的轮次边界。 借助这个设计,模型可以在说话的同时听,比如西班牙语实时翻译成英语;也可以在看视频的同时说话,比如给体育比赛做实时解说。 无编码器的早期融合(Encoder-free Early Fusion) 大多数全模态模型需要分别训练独立的音频编码器(类似Whisper)和解码器(类似TTS模型)。Thinking Machines的方案是最小化预处理:音频信号以dMel格式输入,经过轻量嵌入层处理;图像切分为40×40的图块,由hMLP编码;音频解码器使用flow head。所有组件从头联合训练,与Transformer一体。 推理优化 200毫秒的分块意味着需要频繁、小批量的prefill和decode,现有的大语言模型推理库并不为此优化,每轮都有大量额外开销。 Thinking Machines实现了流式会话(streaming sessions):客户端把每个200毫秒的分块作为独立请求发送,推理服务器把这些分块追加到GPU显存中的持久序列里,避免频繁的内存重新分配和元数据计算。这一特性已向上游提交至SGLang。同时针对延迟和双向服务的形状做了内核优化,MoE内核采用gather+gemv策略替代标准的grouped gemm。 训练器与采样器对齐 Thinking Machines发现,训练器与采样器的逐位对齐(bitwise alignment)对训练稳定性和各组件调试都很有帮助。团队实现了批量无关的内核,端到端性能开销不超过5%。 在通信内核方面,使用NVLS实现低延迟的All-Reduce和Reduce-Scatter,在Blackwell上具有确定性。注意力机制的主要挑战是Split-KV,通过在decode和prefill之间保持一致的累积顺序来解决。 安全性 实时交互对安全的压力与按轮次交互不同。Thinking Machines的安全工作聚焦于两个方向:一是适合语音场景的拒绝方式;二是长对话中的鲁棒性,使用自动化红队框架生成多轮拒绝数据。 能做什么 - 无缝对话管理:模型隐式跟踪说话者是在思考、让步、自我修正还是在等待回应,无需独立的对话管理组件 - 口头和视觉插话:模型在合适的上下文中主动插话 - 同时发言:用户和模型可以同时说话,比如实时翻译 - 时间感知:模型对已流逝的时间有直接感知 - 同步工具调用、搜索和生成式UI 基准测试 Thinking Machines发布了他们的模型TML-Interaction-Small,一个276B参数、12B激活的MoE模型。 在交互质量方面,使用FD-bench进行评测;在智能方面,使用Audio MultiChallenge基准。结果显示,TML-Interaction-Small是第一个在强智能/指令遵循和强交互性上同时表现优秀的模型。 内部基准: - TimeSpeak:测试模型能否在用户指定的时间点开口说话 - CueSpeak:测试模型是否在正确时机、以语义正确的回应发言 - 视觉主动性:RepCount-A、ProactiveVideoQA、Charades 目前没有任何现有模型能有效完成上述任务,包括GPT Realtime-2和各类思考型高端模型。 局限 - 长会话方面,音频和视频会快速积累上下文 - 低延迟的音视频流式传输需要稳定的网络连接 - TML-Interaction-Small是276B参数的MoE,激活参数12B,团队预计交互能力会随模型规模提升 完整论文与基准细节见:https://thinkymachines.ai/interaction-models