---
title: "GPT-5级推理能力塞进语音模型，OpenAI把同传翻译成本砍穿地板价"
type: source
source: wechat
source_url: https://mp.weixin.qq.com/s/I5dRqYWogmgROkOusRtzTA
tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw]
review_value: 7
review_confidence: 8
review_recommendation: worth-reading
review_stars: 3
created: 2026-05-16
updated: 2026-05-16
sha256: ce9ea49a1f02487346fb14745a76b25e854b9fa4a678e2a1dba3dc1b332b8ffc
---
---
source: wechat
source_url: https://mp.weixin.qq.com/s/I5dRqYWogmgROkOusRtzTA
ingested: 2026-05-16
feed_name: 量子位
wechat_mp_fakeid: MP_WXS_3236757533
source_published: 2026-05-08
---
# GPT-5级推理能力塞进语音模型，OpenAI把同传翻译成本砍穿地板价
#####  听雨 发自 凹非寺
量子位 | 公众号 QbitAI
OpenAI上新三款实时语音模型，不仅集成了  GPT-5  级的推理能力，还重击了一拳同传行业：
能紧跟发言人节奏的  ** 同声传译  ** ，现在每分钟成本  ** 两毛五  ** 。
三款模型分别是  ** GPT-Realtime-2  ** 、  ** GPT-Realtime-Translate  ** 、  ** GPT-Realtime-Whisper  ** ，把端到端推理语音、同声传译、流式转写三件事打包进了同一套API。
效果有点炸裂。
OpenAI员工Jason Liu对着麦克风说英语，  GPT-Realtime-Translate  直接实时把它翻译成了日语。
整个过程流式进行，不需要等说话人说完一整句，翻译就开始跟随输出。
已关注
__
关注
__ 重播  __ 分享  __ 赞
关闭 __
**观看更多**
更多 __
__
__
__
_退出全屏_
[ __ ](<>)
_切换到竖屏全屏_ _退出全屏_
量子位  已关注
[ __ ](<>)
分享视频
__ ，时长  00:59
0  /  0
00:00  /  00:59
切换到横屏模式
继续播放
进度条，百分之0
__
[ 播放 ](<>)
00:00
/
00:59
00:59
_全屏_
__ 倍速播放中
[ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>)
[ 超清 ](<>) [ 流畅 ](<>)
您的浏览器不支持 video 标签
__
继续观看
GPT-5级推理能力塞进语音模型，OpenAI把同传翻译成本砍穿地板价
观看更多 __
转载
,
GPT-5级推理能力塞进语音模型，OpenAI把同传翻译成本砍穿地板价
__
量子位  已关注
分享  点赞  在看
__ __ 已同步到看一看 [ 写下你的评论 ](<>)
__
[ 视频详情 ](<>)
网友Claire Vo用ChatPRD结合  GPT-Realtime-2  ，对着麦克风说了一句话：帮我写一份产品需求文档。
接下来的十分钟里，她没有碰过一次键盘，仅凭语音对话，AI就生成了一份完整的PRD。
她再用语音要求改格式，AI实时更新。全程对话驱动，没有键盘。
已关注
__
关注
__ 重播  __ 分享  __ 赞
关闭 __
**观看更多**
更多 __
__
__
__
_退出全屏_
[ __ ](<>)
_切换到竖屏全屏_ _退出全屏_
量子位  已关注
[ __ ](<>)
分享视频
__ ，时长  00:57
0  /  0
00:00  /  00:57
切换到横屏模式
继续播放
进度条，百分之0
__
[ 播放 ](<>)
00:00
/
00:57
00:57
_全屏_
__ 倍速播放中
[ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>)
[ 超清 ](<>) [ 流畅 ](<>)
您的浏览器不支持 video 标签
__
继续观看
GPT-5级推理能力塞进语音模型，OpenAI把同传翻译成本砍穿地板价
观看更多 __
转载
,
GPT-5级推理能力塞进语音模型，OpenAI把同传翻译成本砍穿地板价
__
量子位  已关注
分享  点赞  在看
__ __ 已同步到看一看 [ 写下你的评论 ](<>)
__
[ 视频详情 ](<>)
还有网友Ben Badejo，他把  GPT-Realtime-2  和OpenClaw集成在一起，语音指挥AI操控浏览器：打开Google，跳转到华尔街日报。
AI一边执行，一边还主动汇报进度：正在打开浏览器……现在跳转中。
已关注
__
关注
__ 重播  __ 分享  __ 赞
关闭 __
**观看更多**
更多 __
__
__
__
_退出全屏_
[ __ ](<>)
_切换到竖屏全屏_ _退出全屏_
量子位  已关注
[ __ ](<>)
分享视频
__ ，时长  01:35
0  /  0
00:00  /  01:35
切换到横屏模式
继续播放
进度条，百分之0
__
[ 播放 ](<>)
00:00
/
01:35
01:35
_全屏_
__ 倍速播放中
[ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>)
[ 超清 ](<>) [ 流畅 ](<>)
您的浏览器不支持 video 标签
__
继续观看
GPT-5级推理能力塞进语音模型，OpenAI把同传翻译成本砍穿地板价
观看更多 __
转载
,
GPT-5级推理能力塞进语音模型，OpenAI把同传翻译成本砍穿地板价
__
量子位  已关注
分享  点赞  在看
__ __ 已同步到看一看 [ 写下你的评论 ](<>)
__
[ 视频详情 ](<>)
他表示，自己三月份就在琢磨如何给自己的龙虾搭建语音对讲系统，现在只需要把OpenClaw连接新的OpenAI模型就行了。
仅仅几分钟就完成了重大升级。
OpenAI这次放出的三款模型，也是各有定位：
* ** GPT-Realtime-2  ** ：带着GPT-5级推理说人话办人事；
* ** GPT-Realtime-Translate  ** ：能把70多种语言实时翻译成13种语言输出，每分钟约2毛5。
* ** GPT-Realtime-Whisper  ** ：负责边说话边出文字的低延迟转录。
官方表示，语音正逐渐成为人们使用软件最自然的方式之一。这三款模型一起，把语音从简单的听话回话，推向了真正「能干活的交互界面」——
这下，大模型真的能像人类一样，跟你边聊天边把活干了。
##  三款新模型：能听、能译、能推理
** GPT-Realtime-2  ** 是这次的重头戏。
这是OpenAI  ** 首款搭载GPT-5级推理的语音模型  ** ，真正把推理能力塞进了端到端的语音交互里。
最直接的升级是上下文窗口：从32K直接拉到  ** 128K  ** ，翻了4倍。
这意味着语音Agent可以支撑更长的对话，处理更复杂的任务流，而不会聊着聊着就忘了前面说了什么。
推理强度还可以5档调节：minimal、low、medium、high、xhigh，默认low。
问个天气用low秒回，丢给它一个商业分析大题用xhigh慢慢推演。
但最体现GPT-5级推理的，是它开始学会  ** 边说话边干活  ** 了。
以前的语音助手，你说一句它回一句，脑子里一次只能想一件事。
GPT-Realtime-2现在支持并行工具调用，可以一边嘴里说着正在查您的日程表，一边后台同时调用地图、日历、租房软件。
已关注
__
关注
__ 重播  __ 分享  __ 赞
关闭 __
**观看更多**
更多 __
__
__
__
_退出全屏_
[ __ ](<>)
_切换到竖屏全屏_ _退出全屏_
量子位  已关注
[ __ ](<>)
分享视频
__ ，时长  04:03
0  /  0
00:00  /  04:03
切换到横屏模式
继续播放
进度条，百分之0
__
[ 播放 ](<>)
00:00
/
04:03
04:03
_全屏_
__ 倍速播放中
[ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>)
[ 超清 ](<>) [ 流畅 ](<>)
您的浏览器不支持 video 标签
__
继续观看
GPT-5级推理能力塞进语音模型，OpenAI把同传翻译成本砍穿地板价
观看更多 __
转载
,
GPT-5级推理能力塞进语音模型，OpenAI把同传翻译成本砍穿地板价
__
量子位  已关注
分享  点赞  在看
__ __ 已同步到看一看 [ 写下你的评论 ](<>)
__
[ 视频详情 ](<>)
官方demo中，负责人Romain Huet对着手机上的个人助手说一句：
> 我马上有个客户会议，能帮我看一下日程吗？
模型会立刻查看日历，回复说12分钟后有一个跟Sablecrest Robotics 的CTO Alex Kim的会议。接着更新CRM，把今天的会议摘要和后续步骤录入系统。
它还学会了Preambles，也就是前置语。后台在拉数据的时候，会先对你说「让我核实一下」，或者「稍等片刻」。
这个看似废话的设计，最大程度缓解了等待时的焦虑。人在思考的时候也会说「呃让我想想」，现在AI也学会了。
语气也是可控的，平静、共情、兴奋，按需切换。
跑分怎么样？
Big Bench Audio这项评估音频推理能力的榜单上，GPT-Realtime-2（high档）拿了96.6%，上代是81.4%，提升了15.2个点。
Audio MultiChallenge测多轮对话指令跟随，xhigh档跑出48.5%，上代只有34.7%，又涨了13.8个点。
定价方面，GPT-Realtime-2按token计费，$32/1M音频输入token，$64/1M音频输出token，缓存输入只要$0.40。
和上一代GPT-Realtime-1.5价格持平，但能力大幅跃升。
在企业实测中，Zillow拿最难的对抗性基准跑了一遍，  ** 通话成功率从69%直接跳到95%  ** ，提升了26个百分点。
Zillow的SVP Josh Weisberg表示：
> GPT-Realtime-2在复杂语音交互中的智能和工具调用可靠性最突出，Fair Housing合规性也显著增强。
这意味着语音Agent不再只是接接电话，而是真的能处理高价值、高合规要求的业务场景了。
再来看另外两款模型。
** GPT-Realtime-Translate  ** ，流式同声传译。
真的是把同声传译干到了白菜价。
支持70多种语言输入，13种语言输出。它不是说一句翻译一句的回合制，而是说话人边说母语，系统边实时输出翻译，几乎没有停顿。
定价$0.034/分钟，  ** 折合人民币约2毛5  ** 。
按这个价，连续翻译一小时不到15块，甚至比一杯奶茶还便宜。
对口音和方言包容度也很高。印度AI公司BolnaAI拿印地语、泰米尔语、泰卢固语这些口音浓重的语言去测，WER  （词错误率）  比其他模型低12.5%，延迟能维持自然对话。
** GPT-Realtime-Whisper  ** ，流式实时转录。
边说话边出文字，低延迟speech-to-text。
定价$0.017/分钟，折合人民币约1毛钱，一小时连续转写不到6块钱。
应用场景主要在实时字幕、会议速记、客服通话记录、课堂笔记。
以后开会，领导刚说完前半句，屏幕上的文字已经跟上了。
##  同传更有性价比了
OpenAI这三款语音模型，冲击最大的应该是  ** 同声传译  ** 行业。
如果算一笔账：
人工同声传译，英语语种一天收费1.2万到2.1万元；非英语语种，比如日语、韩语、阿拉伯语，1.8万元起。
通常需要2到3名译员轮换，折算下来每小时数千至上万元。
这还不算设备。同传间、耳机、接收器，一套专业设备租一天也要几千。
所以过去能用上同传的，基本是这几种场景：国际峰会、跨国企业董事会、高端医疗会诊、法律仲裁。
普通开发者、中小教育机构、出海创业公司，基本和这个词无缘。
但现在，OpenAI亲自下场把这件事做进了API：
GPT-Realtime-Translate，定价是$0.034/分钟，折合  ** 人民币0.25元/分钟  ** 。
按这个价格，连续翻译8小时，总成本不到120块，还不到人工同传两分钟的价钱，其中的差距大约是  ** 66倍  ** 。
人工智能冲击传统行业……又一次具象化了。
不过呢，AI同传和人工同传目前还不是完全替代关系。
更准确来说，OpenAI做的是  ** 「让同传这件事不再是特权」  ** 。
过去只有大型企业、政府机构、高端会议才用得起的服务，现在任何开发者都可以把它接进自己的产品。
一个出海电商客服系统，一个跨国视频会议工具，一个在线教育平台，甚至一个个人Chrome插件，都能拥有实时多语言翻译能力。
可以想见，人类同传的价值会  ** 向上迁移  ** 。文化语境、创意表达、法律精确性、医疗专业性，这些机器短期内还替代不了。
但基础的、高频的、标准化的翻译需求，会被API大规模吞掉。
##  One More Thing
聊了这么多，三款新模型，如何接入呢？
最快的方式是打开OpenAI Playground  _ （地址附在下方）  _ ，浏览器里直接测，三款模型都可用，不需要写代码。
想接入自己的项目，官方提供了Codex prompt模板，一键把GPT-Realtime-2接进现有App或新建项目。
成本方面，Whisper最便宜，一小时连续转写约1美元；Translate中等，一小时约2美元。
Realtime-2按token计费，实际成本取决于对话量和推理强度，和上一代价格持平。
感兴趣的友友们，快去体验起来吧~
Playground地址：
https://platform.openai.com/login?next=%2Faudio%2Frealtime
参考链接：
[1]https://x.com/OpenAI/status/2052438194625593804
[2]https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
[3]https://x.com/jxnlco/status/2052449634266812744
** 一键三连  ** ** 「点赞」「转发」「小心心」  **
** 欢迎在评论区留下你的想法！  **
—  ** 完  ** —
** 5月20日  ** ，我们将在  ** 北京金茂万丽酒店  ** 举办一年一度的中国AIGC产业峰会。
** 首波嘉宾阵容已公布  ** ！  ** 昆仑万维方汉  ** 、  ** 智谱吴玮杰  ** 、  ** EverMind邓亚峰  ** 、  ** 风行在线易正朝  ** 、  ** 百度秒哒朱广翔  ** 、  ** Fusion Fund张璐  ** 、  ** 香港大学黄超  ** 、  ** MarsWave冯雷  ** 都来了，🔍 [ 了解详情 ](<https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247886574&idx=1&sn=024a34d77b8261cc9fb061c83d19cb6a&scene=21#wechat_redirect>)
请你和我们一起，不再只是讨论AI的未来，而是  ** 现在就用起来  ** 。👉  [ 报名参会 ](<>)
** 一键关注 👇 点亮星标  **
** 科技前沿进展每日见  **