--- title: "GPT-5级推理能力塞进语音模型,OpenAI把同传翻译成本砍穿地板价" type: source source: wechat source_url: https://mp.weixin.qq.com/s/I5dRqYWogmgROkOusRtzTA tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw] review_value: 7 review_confidence: 8 review_recommendation: worth-reading review_stars: 3 created: 2026-05-16 updated: 2026-05-16 sha256: ce9ea49a1f02487346fb14745a76b25e854b9fa4a678e2a1dba3dc1b332b8ffc --- --- source: wechat source_url: https://mp.weixin.qq.com/s/I5dRqYWogmgROkOusRtzTA ingested: 2026-05-16 feed_name: 量子位 wechat_mp_fakeid: MP_WXS_3236757533 source_published: 2026-05-08 --- # GPT-5级推理能力塞进语音模型,OpenAI把同传翻译成本砍穿地板价 ##### 听雨 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI上新三款实时语音模型,不仅集成了 GPT-5 级的推理能力,还重击了一拳同传行业: 能紧跟发言人节奏的 ** 同声传译 ** ,现在每分钟成本 ** 两毛五 ** 。 三款模型分别是 ** GPT-Realtime-2 ** 、 ** GPT-Realtime-Translate ** 、 ** GPT-Realtime-Whisper ** ,把端到端推理语音、同声传译、流式转写三件事打包进了同一套API。 效果有点炸裂。 OpenAI员工Jason Liu对着麦克风说英语, GPT-Realtime-Translate 直接实时把它翻译成了日语。 整个过程流式进行,不需要等说话人说完一整句,翻译就开始跟随输出。 已关注 __ 关注 __ 重播 __ 分享 __ 赞 关闭 __ **观看更多** 更多 __ __ __ __ _退出全屏_ [ __ ](<>) _切换到竖屏全屏_ _退出全屏_ 量子位 已关注 [ __ ](<>) 分享视频 __ ,时长 00:59 0 / 0 00:00 / 00:59 切换到横屏模式 继续播放 进度条,百分之0 __ [ 播放 ](<>) 00:00 / 00:59 00:59 _全屏_ __ 倍速播放中 [ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>) [ 超清 ](<>) [ 流畅 ](<>) 您的浏览器不支持 video 标签 __ 继续观看 GPT-5级推理能力塞进语音模型,OpenAI把同传翻译成本砍穿地板价 观看更多 __ 转载 , GPT-5级推理能力塞进语音模型,OpenAI把同传翻译成本砍穿地板价 __ 量子位 已关注 分享 点赞 在看 __ __ 已同步到看一看 [ 写下你的评论 ](<>) __ [ 视频详情 ](<>) 网友Claire Vo用ChatPRD结合 GPT-Realtime-2 ,对着麦克风说了一句话:帮我写一份产品需求文档。 接下来的十分钟里,她没有碰过一次键盘,仅凭语音对话,AI就生成了一份完整的PRD。 她再用语音要求改格式,AI实时更新。全程对话驱动,没有键盘。 已关注 __ 关注 __ 重播 __ 分享 __ 赞 关闭 __ **观看更多** 更多 __ __ __ __ _退出全屏_ [ __ ](<>) _切换到竖屏全屏_ _退出全屏_ 量子位 已关注 [ __ ](<>) 分享视频 __ ,时长 00:57 0 / 0 00:00 / 00:57 切换到横屏模式 继续播放 进度条,百分之0 __ [ 播放 ](<>) 00:00 / 00:57 00:57 _全屏_ __ 倍速播放中 [ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>) [ 超清 ](<>) [ 流畅 ](<>) 您的浏览器不支持 video 标签 __ 继续观看 GPT-5级推理能力塞进语音模型,OpenAI把同传翻译成本砍穿地板价 观看更多 __ 转载 , GPT-5级推理能力塞进语音模型,OpenAI把同传翻译成本砍穿地板价 __ 量子位 已关注 分享 点赞 在看 __ __ 已同步到看一看 [ 写下你的评论 ](<>) __ [ 视频详情 ](<>) 还有网友Ben Badejo,他把 GPT-Realtime-2 和OpenClaw集成在一起,语音指挥AI操控浏览器:打开Google,跳转到华尔街日报。 AI一边执行,一边还主动汇报进度:正在打开浏览器……现在跳转中。 已关注 __ 关注 __ 重播 __ 分享 __ 赞 关闭 __ **观看更多** 更多 __ __ __ __ _退出全屏_ [ __ ](<>) _切换到竖屏全屏_ _退出全屏_ 量子位 已关注 [ __ ](<>) 分享视频 __ ,时长 01:35 0 / 0 00:00 / 01:35 切换到横屏模式 继续播放 进度条,百分之0 __ [ 播放 ](<>) 00:00 / 01:35 01:35 _全屏_ __ 倍速播放中 [ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>) [ 超清 ](<>) [ 流畅 ](<>) 您的浏览器不支持 video 标签 __ 继续观看 GPT-5级推理能力塞进语音模型,OpenAI把同传翻译成本砍穿地板价 观看更多 __ 转载 , GPT-5级推理能力塞进语音模型,OpenAI把同传翻译成本砍穿地板价 __ 量子位 已关注 分享 点赞 在看 __ __ 已同步到看一看 [ 写下你的评论 ](<>) __ [ 视频详情 ](<>) 他表示,自己三月份就在琢磨如何给自己的龙虾搭建语音对讲系统,现在只需要把OpenClaw连接新的OpenAI模型就行了。 仅仅几分钟就完成了重大升级。 OpenAI这次放出的三款模型,也是各有定位: * ** GPT-Realtime-2 ** :带着GPT-5级推理说人话办人事; * ** GPT-Realtime-Translate ** :能把70多种语言实时翻译成13种语言输出,每分钟约2毛5。 * ** GPT-Realtime-Whisper ** :负责边说话边出文字的低延迟转录。 官方表示,语音正逐渐成为人们使用软件最自然的方式之一。这三款模型一起,把语音从简单的听话回话,推向了真正「能干活的交互界面」—— 这下,大模型真的能像人类一样,跟你边聊天边把活干了。 ## 三款新模型:能听、能译、能推理 ** GPT-Realtime-2 ** 是这次的重头戏。 这是OpenAI ** 首款搭载GPT-5级推理的语音模型 ** ,真正把推理能力塞进了端到端的语音交互里。 最直接的升级是上下文窗口:从32K直接拉到 ** 128K ** ,翻了4倍。 这意味着语音Agent可以支撑更长的对话,处理更复杂的任务流,而不会聊着聊着就忘了前面说了什么。 推理强度还可以5档调节:minimal、low、medium、high、xhigh,默认low。 问个天气用low秒回,丢给它一个商业分析大题用xhigh慢慢推演。 但最体现GPT-5级推理的,是它开始学会 ** 边说话边干活 ** 了。 以前的语音助手,你说一句它回一句,脑子里一次只能想一件事。 GPT-Realtime-2现在支持并行工具调用,可以一边嘴里说着正在查您的日程表,一边后台同时调用地图、日历、租房软件。 已关注 __ 关注 __ 重播 __ 分享 __ 赞 关闭 __ **观看更多** 更多 __ __ __ __ _退出全屏_ [ __ ](<>) _切换到竖屏全屏_ _退出全屏_ 量子位 已关注 [ __ ](<>) 分享视频 __ ,时长 04:03 0 / 0 00:00 / 04:03 切换到横屏模式 继续播放 进度条,百分之0 __ [ 播放 ](<>) 00:00 / 04:03 04:03 _全屏_ __ 倍速播放中 [ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>) [ 超清 ](<>) [ 流畅 ](<>) 您的浏览器不支持 video 标签 __ 继续观看 GPT-5级推理能力塞进语音模型,OpenAI把同传翻译成本砍穿地板价 观看更多 __ 转载 , GPT-5级推理能力塞进语音模型,OpenAI把同传翻译成本砍穿地板价 __ 量子位 已关注 分享 点赞 在看 __ __ 已同步到看一看 [ 写下你的评论 ](<>) __ [ 视频详情 ](<>) 官方demo中,负责人Romain Huet对着手机上的个人助手说一句: > 我马上有个客户会议,能帮我看一下日程吗? 模型会立刻查看日历,回复说12分钟后有一个跟Sablecrest Robotics 的CTO Alex Kim的会议。接着更新CRM,把今天的会议摘要和后续步骤录入系统。 它还学会了Preambles,也就是前置语。后台在拉数据的时候,会先对你说「让我核实一下」,或者「稍等片刻」。 这个看似废话的设计,最大程度缓解了等待时的焦虑。人在思考的时候也会说「呃让我想想」,现在AI也学会了。 语气也是可控的,平静、共情、兴奋,按需切换。 跑分怎么样? Big Bench Audio这项评估音频推理能力的榜单上,GPT-Realtime-2(high档)拿了96.6%,上代是81.4%,提升了15.2个点。 Audio MultiChallenge测多轮对话指令跟随,xhigh档跑出48.5%,上代只有34.7%,又涨了13.8个点。 定价方面,GPT-Realtime-2按token计费,$32/1M音频输入token,$64/1M音频输出token,缓存输入只要$0.40。 和上一代GPT-Realtime-1.5价格持平,但能力大幅跃升。 在企业实测中,Zillow拿最难的对抗性基准跑了一遍, ** 通话成功率从69%直接跳到95% ** ,提升了26个百分点。 Zillow的SVP Josh Weisberg表示: > GPT-Realtime-2在复杂语音交互中的智能和工具调用可靠性最突出,Fair Housing合规性也显著增强。 这意味着语音Agent不再只是接接电话,而是真的能处理高价值、高合规要求的业务场景了。 再来看另外两款模型。 ** GPT-Realtime-Translate ** ,流式同声传译。 真的是把同声传译干到了白菜价。 支持70多种语言输入,13种语言输出。它不是说一句翻译一句的回合制,而是说话人边说母语,系统边实时输出翻译,几乎没有停顿。 定价$0.034/分钟, ** 折合人民币约2毛5 ** 。 按这个价,连续翻译一小时不到15块,甚至比一杯奶茶还便宜。 对口音和方言包容度也很高。印度AI公司BolnaAI拿印地语、泰米尔语、泰卢固语这些口音浓重的语言去测,WER (词错误率) 比其他模型低12.5%,延迟能维持自然对话。 ** GPT-Realtime-Whisper ** ,流式实时转录。 边说话边出文字,低延迟speech-to-text。 定价$0.017/分钟,折合人民币约1毛钱,一小时连续转写不到6块钱。 应用场景主要在实时字幕、会议速记、客服通话记录、课堂笔记。 以后开会,领导刚说完前半句,屏幕上的文字已经跟上了。 ## 同传更有性价比了 OpenAI这三款语音模型,冲击最大的应该是 ** 同声传译 ** 行业。 如果算一笔账: 人工同声传译,英语语种一天收费1.2万到2.1万元;非英语语种,比如日语、韩语、阿拉伯语,1.8万元起。 通常需要2到3名译员轮换,折算下来每小时数千至上万元。 这还不算设备。同传间、耳机、接收器,一套专业设备租一天也要几千。 所以过去能用上同传的,基本是这几种场景:国际峰会、跨国企业董事会、高端医疗会诊、法律仲裁。 普通开发者、中小教育机构、出海创业公司,基本和这个词无缘。 但现在,OpenAI亲自下场把这件事做进了API: GPT-Realtime-Translate,定价是$0.034/分钟,折合 ** 人民币0.25元/分钟 ** 。 按这个价格,连续翻译8小时,总成本不到120块,还不到人工同传两分钟的价钱,其中的差距大约是 ** 66倍 ** 。 人工智能冲击传统行业……又一次具象化了。 不过呢,AI同传和人工同传目前还不是完全替代关系。 更准确来说,OpenAI做的是 ** 「让同传这件事不再是特权」 ** 。 过去只有大型企业、政府机构、高端会议才用得起的服务,现在任何开发者都可以把它接进自己的产品。 一个出海电商客服系统,一个跨国视频会议工具,一个在线教育平台,甚至一个个人Chrome插件,都能拥有实时多语言翻译能力。 可以想见,人类同传的价值会 ** 向上迁移 ** 。文化语境、创意表达、法律精确性、医疗专业性,这些机器短期内还替代不了。 但基础的、高频的、标准化的翻译需求,会被API大规模吞掉。 ## One More Thing 聊了这么多,三款新模型,如何接入呢? 最快的方式是打开OpenAI Playground _ (地址附在下方) _ ,浏览器里直接测,三款模型都可用,不需要写代码。 想接入自己的项目,官方提供了Codex prompt模板,一键把GPT-Realtime-2接进现有App或新建项目。 成本方面,Whisper最便宜,一小时连续转写约1美元;Translate中等,一小时约2美元。 Realtime-2按token计费,实际成本取决于对话量和推理强度,和上一代价格持平。 感兴趣的友友们,快去体验起来吧~ Playground地址: https://platform.openai.com/login?next=%2Faudio%2Frealtime 参考链接: [1]https://x.com/OpenAI/status/2052438194625593804 [2]https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/ [3]https://x.com/jxnlco/status/2052449634266812744 ** 一键三连 ** ** 「点赞」「转发」「小心心」 ** ** 欢迎在评论区留下你的想法! ** — ** 完 ** — ** 5月20日 ** ,我们将在 ** 北京金茂万丽酒店 ** 举办一年一度的中国AIGC产业峰会。 ** 首波嘉宾阵容已公布 ** ! ** 昆仑万维方汉 ** 、 ** 智谱吴玮杰 ** 、 ** EverMind邓亚峰 ** 、 ** 风行在线易正朝 ** 、 ** 百度秒哒朱广翔 ** 、 ** Fusion Fund张璐 ** 、 ** 香港大学黄超 ** 、 ** MarsWave冯雷 ** 都来了,🔍 [ 了解详情 ]() 请你和我们一起,不再只是讨论AI的未来,而是 ** 现在就用起来 ** 。👉 [ 报名参会 ](<>) ** 一键关注 👇 点亮星标 ** ** 科技前沿进展每日见 **