---
title: OpenAI发布新一代实时语音模型，能够像人说话一样进行推理、翻译和转录
source_url: https://mp.weixin.qq.com/s/pTM6oUdJkR7_DUC1il3iOA
publish_date: 2026-05-16
tags: [wechat, article, openai, gpt]
review_value: 7
review_confidence: 7
review_recommendation: neutral
sha256: 1530fa0b5655f4dd482a81278e9b0dbc072d5b74782ec7a50bae6aa225d1f800
---
# OpenAI发布新一代实时语音模型，能够像人说话一样进行推理、翻译和转录
↑阅读之前记得关注+星标⭐️，😄，每天才能第一时间接收到更新
OpenAI今天在API中推出三款全新音频模型，面向开发者开放。
这三款模型分别是：
** GPT-Realtime-2  ** ：首款具备GPT-5级别推理能力的语音模型，能处理更复杂的请求，并自然地推进对话。
** GPT-Realtime-Translate  ** ：实时翻译模型，支持70多种输入语言翻译成13种输出语言，翻译速度与说话者同步。
** GPT-Realtime-Whisper  ** ：流式语音转文字模型，在说话的同时实时完成转录。
###  为什么要做这三款模型
语音正在成为人们使用软件最自然的方式之一。开车时求助、走在机场时改签、用母语获取支持、边做事边完成任务，都不需要停下来打字。
但做出真正好用的语音产品，远不止快速响应或声音自然这么简单。语音智能体需要理解用户的真实意图、持续追踪上下文、处理中途变化的需求、在对话继续的同时调用工具，并以恰当的方式回应。
OpenAI这次推出的三款模型，目标是让实时音频从简单的一问一答，升级成能真正完成工作的语音界面：边听边推理、翻译、转录、执行操作。
###  语音作为人与产品之间的界面
开发者正在围绕语音AI构建三种模式：
** 语音到行动  ** ：用户描述需求，系统推理请求、调用工具、完成任务。比如Zillow正在构建一个助手，能监听并处理类似这样的请求：在我的购房预算内找房，避开繁忙街道，周六安排看房。
** 系统到语音  ** ：软件将上下文转化为实时语音指引。比如旅行应用可以主动告知旅客：你的进港航班延误了，但你仍能赶上转机。我已找到新登机口，规划了最快穿越航站楼的路线，你的行李预计也能转运成功。
** 语音到语音  ** ：AI帮助跨语言、跨任务、跨变化场景的实时对话。比如德国电信正在构建语音支持体验，客户可以用自己最习惯的语言交流，模型实时完成对话翻译。
这几种模式也可以组合使用。比如让旅客全程用语音管理行程：对话式搜索航班和酒店、处理变化（比如航班延误后调整酒店预订）、获取实时安检等待时间、落地后翻译对话。
###  GPT-Realtime-2：让语音模型能推理、能行动
GPT-Realtime-2专为实时语音交互设计，模型在推理请求、调用工具、处理打断或纠正的同时，保持对话连贯进行。
具体能力包括：
** 前置短语  ** ：开发者可以启用简短的前置回应，比如让我查一下或稍等我看看，让用户知道智能体正在处理请求。
** 并行工具调用与透明化  ** ：模型可以同时调用多个工具，并用正在查看你的日历或现在帮你查一下这样的短语让操作可感知，让智能体在完成任务的同时保持响应。
** 更强的恢复能力  ** ：出现问题时，模型能说出我现在处理这个有点困难这样的话，而不是无声失败或打断对话。
** 更长的上下文  ** ：上下文窗口从32K扩展到128K，支持更长的连贯会话和更复杂的任务流程。
** 更强的领域理解  ** ：模型能更好地保留专业术语、专有名词、医疗词汇等在生产环境中重要的词汇。
** 可调节的语气与表达  ** ：模型能更好地调整语气，在解决问题时保持平静，在用户沮丧时表现出同理心，在确认成功操作时语气轻快。
** 可调节的推理强度  ** ：开发者可以从minimal、low、medium、high、xhigh五个推理级别中选择，默认为low，在简单交互的低延迟与复杂请求的深度推理之间灵活平衡。
评测数据方面，GPT-Realtime-2（high）在Big Bench Audio音频智能评测上比GPT-Realtime-1.5高出15.2%；GPT-Realtime-2（xhigh）在Audio MultiChallenge指令遵循评测上比GPT-Realtime-1.5高出13.8%，在推理、上下文管理和实时对话控制上均有提升。
###  GPT-Realtime-Translate：构建实时多语言语音体验
GPT-Realtime-Translate帮助开发者构建实时多语言语音体验，每个人都能用自己偏好的语言说话，实时听到翻译后的对话，并查看实时转录文字。支持超过70种输入语言和13种输出语言，适用于客户支持、跨境销售、教育、活动、媒体以及面向全球受众的创作者平台。
对开发者来说，实时翻译需要在保持意义准确的同时跟上说话者的节奏，即便对方说话自然随意、切换语境，或使用地区口音和行业术语。德国电信正在测试该模型用于多语言语音交互，更低的延迟和更强的流畅度让跨语言对话更自然。
Vimeo展示了GPT-Realtime-Translate如何在产品教育视频播放时实时翻译，全球用户可以即时听到自己偏好语言的版本，无需等待单独制作的译制版本。
###  GPT-Realtime-Whisper：低延迟转录
GPT-Realtime-Whisper是专为低延迟语音转文字构建的流式转录模型，在人说话的同时转录音频，让实时产品更快、更响应、更自然，从即时显示的字幕到跟上对话节奏的会议记录，都能覆盖。
该模型让实时语音直接进入业务流程。团队可以为会议、课堂、直播和活动生成字幕；在对话进行时生成记录和摘要；构建需要持续理解用户的语音智能体；为客户支持、医疗、销售、招聘等高频语音场景创建更快速的后续工作流。
###  定价与上线情况
GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper均已在Realtime API中上线。
定价如下：
GPT-Realtime-2：音频输入32美元/百万token（缓存输入0.40美元），音频输出64美元/百万token。
GPT-Realtime-Translate：0.034美元/分钟。
GPT-Realtime-Whisper：0.017美元/分钟。
可在[Playground]
https://platform.openai.com/playground
中测试新的实时语音模型。
如需开始构建，可[在Codex中打开此提示]
    构建或添加一个使用 `gpt-realtime-2` 模型的最小化 Realtime 2 WebRTC 语音代理。  
    请参考最新的 OpenAI Realtime API 文档，了解 WebRTC 和会话设置的模式。如果当前文件夹中已包含应用程序，则将其添加到现有应用中；否则，创建一个小的本地 Web 应用。添加一个服务端会话端点，该端点使用 `OPENAI_API_KEY`，并严格按照文档要求将浏览器生成的 SDP 发布到 `/v1/realtime/calls`：使用多部分表单数据字段 `sdp` 和 `session`，而不是文件上传。通过 `RTCPeerConnection` 连接浏览器的麦克风输入和模型音频输出，打开一个 `oai-events` 数据通道，并使用 `session.update` 注册一个示例函数工具：`check_calendar(date, time)`，用于返回所请求的时间是否可用。  
    保持代码简洁，并包含设置/运行说明。
将GPT-Realtime-2添加到现有应用或启动新项目。
\--end--
最后记得⭐️我，每天都在更新：
/...@作者：你说的完全正确（YAR师）