---
title: thinking-machines-interaction-models-ai-cold
source_url: https://mp.weixin.qq.com/s/RLJJoOkn0kP7_ei_QV4oIw
publish_date: 2026-05-13
tags: [wechat, article, gpt, harness]
review_value: 7
review_confidence: 7
review_recommendation: neutral
sha256: c33be07ee92ec5695a788b6210022fcd53d9a9305656951e133dd5376586b926
---
现有AI都是假实时！Thinking Machines发布交互模型，离真正的贾维斯真的近了
AI寒武纪
2026年5月12日 10:30 江苏
Thinking Machines 发了一个新的交互模型，切入了一个更根本的问题：我们与 AI 交互的方式。它能够同时进行聆听、观察、说话、被打断、作出反应、在后台思考，以及调用工具。这一切并非靠语音转文字、轮次检测和各种智能体技巧拼接而成的流水线，而是一种原生的模型能力！
Mira Murati的Thinking Machines Lab刚刚发布了新的研究成果：交互模型（interaction models）。
核心思路：与其把实时交互功能拼接到原本按轮次工作的模型上，不如从头训练一个天生就能处理实时交互的模型。
现在的AI，其实不是真实时
用过语音AI的人都有这种感受：你必须说完，它才开始听。它说完，你才能接话。
问题出在架构层面。今天的模型是单线程感知现实的：用户没说完，模型就什么都感知不到；模型没生成完，感知就冻结，不接收任何新信息。这条人机协作的通道非常窄，人的知识、意图和判断，大量无法传递给模型；模型在做什么，人也很难随时介入理解。
现有的解决方案是在模型外面套一个控制框架（harness），用语音活动检测等组件模拟打断、多模态输入、并发处理。但这些组件本身比模型要笨得多，天然限制了交互能力。比如"当我说错的时候打断我"或者"发现我代码里有bug就告诉我"，这类功能靠外挂根本做不到。
更根本的矛盾在于：按照机器学习的苦涩教训，这些手工搭建的系统迟早会被通用能力的进步所超越。要让交互能力随着智能一起扩展，交互本身必须成为模型的一部分。
从头训练，而不是外挂
Thinking Machines的做法是训练一个原生支持实时交互的模型。
系统由两部分组成：一个持续与用户保持双向交换的交互模型，加上一个异步运行的后台模型。
交互模型负责实时感知和响应；当任务需要更深度的推理时，交互模型把任务委派给后台模型，后台模型在完成后把结果流式传回，交互模型再选择合适的时机把结果融入对话，而不是突兀地切换上下文。交互模型在整个过程中始终保持在线。
这样的分工，让用户同时获得两种能力：非思考型模型的响应速度，以及推理模型的规划、工具调用和智能体工作流。
架构细节
时间对齐的微轮次（Micro-Turns）
交互模型以200毫秒为单位连续工作，交替处理200毫秒的输入和生成200毫秒的输出。输入和输出都被当作流来处理，没有人为设定的轮次边界。
借助这个设计，模型可以在说话的同时听，比如西班牙语实时翻译成英语；也可以在看视频的同时说话，比如给体育比赛做实时解说。
无编码器的早期融合（Encoder-free Early Fusion）
大多数全模态模型需要分别训练独立的音频编码器（类似Whisper）和解码器（类似TTS模型）。Thinking Machines的方案是最小化预处理：音频信号以dMel格式输入，经过轻量嵌入层处理；图像切分为40×40的图块，由hMLP编码；音频解码器使用flow head。所有组件从头联合训练，与Transformer一体。
推理优化
200毫秒的分块意味着需要频繁、小批量的prefill和decode，现有的大语言模型推理库并不为此优化，每轮都有大量额外开销。
Thinking Machines实现了流式会话（streaming sessions）：客户端把每个200毫秒的分块作为独立请求发送，推理服务器把这些分块追加到GPU显存中的持久序列里，避免频繁的内存重新分配和元数据计算。这一特性已向上游提交至SGLang。同时针对延迟和双向服务的形状做了内核优化，MoE内核采用gather+gemv策略替代标准的grouped gemm。
训练器与采样器对齐
Thinking Machines发现，训练器与采样器的逐位对齐（bitwise alignment）对训练稳定性和各组件调试都很有帮助。团队实现了批量无关的内核，端到端性能开销不超过5%。
在通信内核方面，使用NVLS实现低延迟的All-Reduce和Reduce-Scatter，在Blackwell上具有确定性。注意力机制的主要挑战是Split-KV，通过在decode和prefill之间保持一致的累积顺序来解决。
安全性
实时交互对安全的压力与按轮次交互不同。Thinking Machines的安全工作聚焦于两个方向：一是适合语音场景的拒绝方式；二是长对话中的鲁棒性，使用自动化红队框架生成多轮拒绝数据。
能做什么
- 无缝对话管理：模型隐式跟踪说话者是在思考、让步、自我修正还是在等待回应，无需独立的对话管理组件
- 口头和视觉插话：模型在合适的上下文中主动插话
- 同时发言：用户和模型可以同时说话，比如实时翻译
- 时间感知：模型对已流逝的时间有直接感知
- 同步工具调用、搜索和生成式UI
基准测试
Thinking Machines发布了他们的模型TML-Interaction-Small，一个276B参数、12B激活的MoE模型。
在交互质量方面，使用FD-bench进行评测；在智能方面，使用Audio MultiChallenge基准。结果显示，TML-Interaction-Small是第一个在强智能/指令遵循和强交互性上同时表现优秀的模型。
内部基准：
- TimeSpeak：测试模型能否在用户指定的时间点开口说话
- CueSpeak：测试模型是否在正确时机、以语义正确的回应发言
- 视觉主动性：RepCount-A、ProactiveVideoQA、Charades
目前没有任何现有模型能有效完成上述任务，包括GPT Realtime-2和各类思考型高端模型。
局限
- 长会话方面，音频和视频会快速积累上下文
- 低延迟的音视频流式传输需要稳定的网络连接
- TML-Interaction-Small是276B参数的MoE，激活参数12B，团队预计交互能力会随模型规模提升
完整论文与基准细节见：https://thinkymachines.ai/interaction-models