--- title: OpenAI发布新一代实时语音模型,能够像人说话一样进行推理、翻译和转录 source_url: https://mp.weixin.qq.com/s/pTM6oUdJkR7_DUC1il3iOA publish_date: 2026-05-16 tags: [wechat, article, openai, gpt] review_value: 7 review_confidence: 7 review_recommendation: neutral sha256: 1530fa0b5655f4dd482a81278e9b0dbc072d5b74782ec7a50bae6aa225d1f800 --- # OpenAI发布新一代实时语音模型,能够像人说话一样进行推理、翻译和转录 ↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新 OpenAI今天在API中推出三款全新音频模型,面向开发者开放。 这三款模型分别是: ** GPT-Realtime-2 ** :首款具备GPT-5级别推理能力的语音模型,能处理更复杂的请求,并自然地推进对话。 ** GPT-Realtime-Translate ** :实时翻译模型,支持70多种输入语言翻译成13种输出语言,翻译速度与说话者同步。 ** GPT-Realtime-Whisper ** :流式语音转文字模型,在说话的同时实时完成转录。 ### 为什么要做这三款模型 语音正在成为人们使用软件最自然的方式之一。开车时求助、走在机场时改签、用母语获取支持、边做事边完成任务,都不需要停下来打字。 但做出真正好用的语音产品,远不止快速响应或声音自然这么简单。语音智能体需要理解用户的真实意图、持续追踪上下文、处理中途变化的需求、在对话继续的同时调用工具,并以恰当的方式回应。 OpenAI这次推出的三款模型,目标是让实时音频从简单的一问一答,升级成能真正完成工作的语音界面:边听边推理、翻译、转录、执行操作。 ### 语音作为人与产品之间的界面 开发者正在围绕语音AI构建三种模式: ** 语音到行动 ** :用户描述需求,系统推理请求、调用工具、完成任务。比如Zillow正在构建一个助手,能监听并处理类似这样的请求:在我的购房预算内找房,避开繁忙街道,周六安排看房。 ** 系统到语音 ** :软件将上下文转化为实时语音指引。比如旅行应用可以主动告知旅客:你的进港航班延误了,但你仍能赶上转机。我已找到新登机口,规划了最快穿越航站楼的路线,你的行李预计也能转运成功。 ** 语音到语音 ** :AI帮助跨语言、跨任务、跨变化场景的实时对话。比如德国电信正在构建语音支持体验,客户可以用自己最习惯的语言交流,模型实时完成对话翻译。 这几种模式也可以组合使用。比如让旅客全程用语音管理行程:对话式搜索航班和酒店、处理变化(比如航班延误后调整酒店预订)、获取实时安检等待时间、落地后翻译对话。 ### GPT-Realtime-2:让语音模型能推理、能行动 GPT-Realtime-2专为实时语音交互设计,模型在推理请求、调用工具、处理打断或纠正的同时,保持对话连贯进行。 具体能力包括: ** 前置短语 ** :开发者可以启用简短的前置回应,比如让我查一下或稍等我看看,让用户知道智能体正在处理请求。 ** 并行工具调用与透明化 ** :模型可以同时调用多个工具,并用正在查看你的日历或现在帮你查一下这样的短语让操作可感知,让智能体在完成任务的同时保持响应。 ** 更强的恢复能力 ** :出现问题时,模型能说出我现在处理这个有点困难这样的话,而不是无声失败或打断对话。 ** 更长的上下文 ** :上下文窗口从32K扩展到128K,支持更长的连贯会话和更复杂的任务流程。 ** 更强的领域理解 ** :模型能更好地保留专业术语、专有名词、医疗词汇等在生产环境中重要的词汇。 ** 可调节的语气与表达 ** :模型能更好地调整语气,在解决问题时保持平静,在用户沮丧时表现出同理心,在确认成功操作时语气轻快。 ** 可调节的推理强度 ** :开发者可以从minimal、low、medium、high、xhigh五个推理级别中选择,默认为low,在简单交互的低延迟与复杂请求的深度推理之间灵活平衡。 评测数据方面,GPT-Realtime-2(high)在Big Bench Audio音频智能评测上比GPT-Realtime-1.5高出15.2%;GPT-Realtime-2(xhigh)在Audio MultiChallenge指令遵循评测上比GPT-Realtime-1.5高出13.8%,在推理、上下文管理和实时对话控制上均有提升。 ### GPT-Realtime-Translate:构建实时多语言语音体验 GPT-Realtime-Translate帮助开发者构建实时多语言语音体验,每个人都能用自己偏好的语言说话,实时听到翻译后的对话,并查看实时转录文字。支持超过70种输入语言和13种输出语言,适用于客户支持、跨境销售、教育、活动、媒体以及面向全球受众的创作者平台。 对开发者来说,实时翻译需要在保持意义准确的同时跟上说话者的节奏,即便对方说话自然随意、切换语境,或使用地区口音和行业术语。德国电信正在测试该模型用于多语言语音交互,更低的延迟和更强的流畅度让跨语言对话更自然。 Vimeo展示了GPT-Realtime-Translate如何在产品教育视频播放时实时翻译,全球用户可以即时听到自己偏好语言的版本,无需等待单独制作的译制版本。 ### GPT-Realtime-Whisper:低延迟转录 GPT-Realtime-Whisper是专为低延迟语音转文字构建的流式转录模型,在人说话的同时转录音频,让实时产品更快、更响应、更自然,从即时显示的字幕到跟上对话节奏的会议记录,都能覆盖。 该模型让实时语音直接进入业务流程。团队可以为会议、课堂、直播和活动生成字幕;在对话进行时生成记录和摘要;构建需要持续理解用户的语音智能体;为客户支持、医疗、销售、招聘等高频语音场景创建更快速的后续工作流。 ### 定价与上线情况 GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper均已在Realtime API中上线。 定价如下: GPT-Realtime-2:音频输入32美元/百万token(缓存输入0.40美元),音频输出64美元/百万token。 GPT-Realtime-Translate:0.034美元/分钟。 GPT-Realtime-Whisper:0.017美元/分钟。 可在[Playground] https://platform.openai.com/playground 中测试新的实时语音模型。 如需开始构建,可[在Codex中打开此提示] 构建或添加一个使用 `gpt-realtime-2` 模型的最小化 Realtime 2 WebRTC 语音代理。 请参考最新的 OpenAI Realtime API 文档,了解 WebRTC 和会话设置的模式。如果当前文件夹中已包含应用程序,则将其添加到现有应用中;否则,创建一个小的本地 Web 应用。添加一个服务端会话端点,该端点使用 `OPENAI_API_KEY`,并严格按照文档要求将浏览器生成的 SDP 发布到 `/v1/realtime/calls`:使用多部分表单数据字段 `sdp` 和 `session`,而不是文件上传。通过 `RTCPeerConnection` 连接浏览器的麦克风输入和模型音频输出,打开一个 `oai-events` 数据通道,并使用 `session.update` 注册一个示例函数工具:`check_calendar(date, time)`,用于返回所请求的时间是否可用。 保持代码简洁,并包含设置/运行说明。 将GPT-Realtime-2添加到现有应用或启动新项目。 \--end-- 最后记得⭐️我,每天都在更新: /...@作者:你说的完全正确(YAR师)