---
title: "刚刚，OpenAI 放出三个语音模型，顺便杀死了「同传」"
type: source
source: wechat
source_url: https://mp.weixin.qq.com/s/R7jRMttQJHoPnh0SZg1IVg
tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw]
review_value: 8
review_confidence: 8
review_recommendation: strong
review_stars: 4
created: 2026-05-16
updated: 2026-05-16
sha256: c6e580ef4148ce4aed7e40ef6e04393f657e99c012f5efe7590c2b1c17d316d2
---
---
source: wechat
source_url: https://mp.weixin.qq.com/s/R7jRMttQJHoPnh0SZg1IVg
ingested: 2026-05-16
feed_name: AGI Hunt
wechat_mp_fakeid: MP_WXS_3087832081
source_published: 2026-05-07
---
# 刚刚，OpenAI 放出三个语音模型，顺便杀死了「同传」
刚刚，  OpenAI 放出了三个全新的实时语音模型，其中一个翻译模型，能把 70 多种语言实时翻译成 13 种语言输出，每分钟成本 2 毛钱。
同声传译这个行业，现在可能，要迎来它的终局了。
OpenAI GPT-Realtime-2  01
##  发了什么
这次发布的三个模型，分别对应语音交互的三大场景：对话、翻译、转录。
** GPT-Realtime-2  ** ，是 OpenAI 目前最强的语音模型，具备 GPT-5 级别的推理能力。它能边听边想，在对话中实时解决复杂问题。可以理解为：一个能打电话的 GPT-5。
** GPT-Realtime-Translate  ** ，实时语音翻译。支持 70 多种语言输入，翻译成 13 种语言输出，翻译的同时还能保留说话者的语调和情感。
** GPT-Realtime-Whisper  ** ，实时语音转文字。一边说话一边出字幕，适合做实时字幕、会议记录。
三个模型，三个场景
三个模型都通过 Realtime API 对外开放，开发者可以用 WebRTC、WebSocket 或 SIP 接入。
02
##  能干活的嘴
GPT-Realtime-2 是 OpenAI 推出的第二代实时语音模型，也是目前 Realtime API 中推理能力最强的一个。
OpenAI 对它的定位是：  让语音 Agent 从「能聊天」变成「能干活」  。
它的几个关键升级：
•  ** GPT-5 级推理  ** ：能在语音对话中处理复杂的多步推理任务，不再只是简单的问答
•  ** 更好的工具调用  ** ：可以精准地调用外部工具，比如查数据库、调 API，这意味着语音 Agent 可以真正「做事」了
•  ** 自然的对话处理  ** ：能处理打断、话题切换，不会因为你插了句嘴就丢了上下文
•  ** 128K 上下文窗口  ** ：之前的 gpt-realtime 只有 32K，现在翻了四倍
•  ** 更像人的声音  ** ：语音合成的自然度和表现力都有提升，能更好地理解和执行系统指令
用过 ChatGPT 语音模式的应该都很有感受，相比于直接的 chat，语音版的智能很差，几乎不怎么思考，更不会调用工具。
因为工具调用需要时间，语音场景又对延迟极度敏感，所以之前索性就做了一个很简单的版本。  能聊天就行，  干活就  别指望它了。
但现在，这个问题解决了。
GPT-Realtime-2 能边聊边想边调工具了，你说出一个需求，它可以完成日历查找、更新完 CRM，直接动嘴就把事儿办了。
03
##  定价
文本 token 的价格是 $4/$16（输入/输出，每百万 token）。
音频 token 则是 $32/$64。
GPT-Realtime-Translate 的翻译功能单独计价，  ** 每分钟 $0.034  ** ，大约人民币 2 毛 5。
这个价格后面会详细说，因为它对同传行业，可能会是毁灭性的  冲击  。
04
##  实际案例
OpenAI 在博客里，提到了几个已经在用的企业：
** 德国电信  ** 正在基于 GPT-Realtime-Translate 打造客服系统，让客户用自己最舒服的语言沟通，模型负责实时翻译。
** Priceline  ** 在做一个旅行语音助手，旅客落地后可以直接用语音管理行程，语言不通也没关系，模型实时翻译。
** Vimeo  ** 也在合作中，具体做的是视频相关的实时语音场景。
05
##  视频 Demo
OpenAI 同步放出了一段 4 分钟的演示视频，展示了翻译和语音 Agent 两个场景。
已关注
__
关注
__ 重播  __ 分享  __ 赞
关闭 __
**观看更多**
更多 __
__
__
__
_退出全屏_
[ __ ](<>)
_切换到竖屏全屏_ _退出全屏_
AGI Hunt  已关注
[ __ ](<>)
分享视频
__ ，时长  04:03
0  /  0
00:00  /  04:03
切换到横屏模式
继续播放
进度条，百分之0
__
[ 播放 ](<>)
00:00
/
04:03
04:03
_全屏_
__ 倍速播放中
[ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>)
[ 超清 ](<>) [ 流畅 ](<>)
您的浏览器不支持 video 标签
__
继续观看
刚刚，OpenAI 放出三个语音模型，顺便杀死了「同传」
观看更多 __
转载
,
刚刚，OpenAI 放出三个语音模型，顺便杀死了「同传」
__
AGI Hunt  已关注
分享  点赞  在看
__ __ 已同步到看一看 [ 写下你的评论 ](<>)
__
[ 视频详情 ](<>)
先看翻译功能  。
Demo 里一个人用法语发言，模型实时把法语翻译成英语输出，音频直接从笔记本电脑捕获，没有任何后期编辑。
效果可以说是，非常惊艳。
模型会一边听一边翻译，等关键词（比如动词）出现后立即开始输出，听起来像两个人在自然对话。
如果你中途突然切换成德语，模型也能无缝跟上，毫无卡顿。碰到 GPT、OpenAI、computer use 这类技术术语，也一样能准确处理。
再看语音 Agent。
Demo 中对着手机上的个人助手说一句：
> “  我马上有个客户会议，能帮我看一下日程吗？
模型会立刻查看日历，回复说 12 分钟后有一个跟 Sablecrest Robotics 的 CTO Alex Kim 的会议。接着让它更新 CRM，把今天的会议摘要和后续步骤录入系统。
这里有个细节：模型在执行这些操作的时候，不是沉默地处理完再一次性给结果，而是会主动跟你说「让我拉一下最新的上下文，然后更新你的 CRM」。
这个「边干活边汇报」的能力叫 preamble，是 GPT-Realtime-2 的一个关键设计。以前的语音 Agent 调工具的时候，用户只能干等着，不知道它在干嘛。
现在它会边推理边跟你说话，体验完全不一样了。
Demo 中称：
> “  语音，现在可以真正成为主要交互界面了。
06
##  杀死同传
接下来聊聊这次发布里，我觉得可能最值得展开一说的部分。
GPT-Realtime-Translate 这个模型，看起来只是三个新模型中的一个，但它所指向的行业，是一个曾经站在翻译界金字塔顶端的职业：
同声传译。
07
##  塔尖职业
同声传译，也就是「  同传  」，是翻译行业中公认难度最高、门槛最高、薪资也最高的工种。
它的工作方式上大体是这样的：  在国际会议或外交场合，译员坐在隔音的口译室里，戴着耳机听台上的发言，几乎同时把听到的内容翻译成另一种语言，对着麦克风说出来。
台下的听众，则通过耳机接收翻译。
注意是「  几乎同时  」。
发言者说完一句话，译员大约只落后两三秒。
全球 95% 的高端国际会议，都采用同声传译。联合国安理会、世界经济论坛、G20 峰会，台上领导人侃侃而谈的背后，都有同传译员在口译室里高速运转。
** 这个职业，日薪过万。  **
北京市场上，英语同传一天的报酬在 1.2 万到 2.1 万人民币之间。一个译员如果一年接 100 天活儿，年收入可以达到 50 万甚至更高。
但这钱，真的不好赚。
08
##  20 分钟一换
高薪的背后，同传的精神压力其实非常之大。大到了什么程度呢？
同传的高压工作
一般来说，同一语言需要 2 到 3 名译员组成一组，每 15 到 20 分钟轮换一次。
因为人的大脑在同传状态下是满负荷运行的：你要同时完成「听、理解、记忆、翻译、表达」这五个动作，而且不能停，不能回头，说出去的话收不回来。
2009 年的联合国大会上，就发生过一件著名的事。
利比亚领导人卡扎菲上台发言，原定 15 分钟的演讲，他整整讲了 96 分钟。内容天马行空，从「  新型流感是某个国家施放的细菌武器  」讲到怒撕《联合国宪章》。
他的私人阿拉伯语同传译员在坚持了 75 分钟后，终于心理状态彻底崩溃，当场直接放弃了翻译，并对着麦克风喊了一句：
> “  我受不了了。
联合国不得不临时调派其他译员来接替。
这个  事  故在翻译界，也算是一大故事了。
09
##  十年磨一剑
而想成为一名合格的同传译员，门槛高得吓人。
联合国招聘同传，要求英语、法语、俄语、西班牙语的译员必须精通至少三门联合国官方语言。中文和阿拉伯语译员则必须精通英语或法语。
而且，  光语言好还不够  。你还得通过联合国的同传考试：六场演讲，没有原文稿，涵盖政治、经济、人权、环境等各种议题，不同语速、不同口音、不同风格，一场一场翻过去。
有考生说，光是备考就花了七个月，每天密集练习。
国内的情况也类似。北京语言大学的同传专业每年只招 15 人，三个学期的魔鬼训练，第一学期给稿子翻，第二学期不给稿子翻，第三学期不给稿子也不给译文，直接模拟现场采访。
但，毕业了就能上岗吗？
也未必  。客户选人看的是你参加过什么级别的会议，新人……根本没什么机会。
同传培养之路
** 全球专业的同声传译人才总共也就 2000 多人。据不完全统计，  ** 中国的  ** 顶级同传也就只有 30 人左右。  **
这些人，每一个都是十年以上的积累，每一场会议都是如履薄冰。
10
##  两毛五
然后……OpenAI 发了个 API。
GPT-Realtime-Translate，每分钟 $0.034，折合人民币大约 2 毛 5。
一个同传译员一天的报酬是 1.2 万到 2.1 万元。按 8 小时工作制算，每分钟成本大约 25 到 44 元。
AI 翻译 vs 人类同传
** AI 翻译的成本，是人类同传的百分之一。  **
而且 AI 不需要休息，不需要每 20 分钟换人，不会心理崩溃，支持 70 多种输入语言，7×24 小时待命。
更不会吼出那声：  老子不干了！
当然了，目前的 GPT-Realtime-Translate 还算不上完美的「同声传译」。
从 Demo 中来看，它已经能在说话者还在讲的时候就开始翻译，会等关键词（比如动词）出现后立即输出。但 OpenAI 的技术文档把它标注为 turn-based：理想状态下说话者短暂停顿，模型处理效果最好。
实际体验介于「逐句翻译」和「同声传译」之间。
偶尔也会出现幻觉，比如产生一些无意义的声音，或者干脆沉默不翻译。
OpenAI 在技术文档里写的是：
> “  随着模型变得更快、更高效，这个延迟会显著降低，翻译会变得更加无缝。
而且更为关键的是，它在翻译时能保留说话者的情感、语调和语速。
OpenAI 在 Cookbook 文档声称：这让它「  比以往任何时候都更接近一个现场翻译  」（live interpreter）。
级联翻译 vs 端到端
传统的翻译方案是级联式的：先语音转文字，再文字翻译，再文字转语音。每一步都会丢失信息，语调没了，情感没了，停顿节奏也没了。
GPT-Realtime-Translate 则是端到端处理原始音频，跳过了中间的文字步骤，自然能保留更多声音本身的特征。
** 同传这个行业，倒不是今天才被威胁的。  **
字节在去年 7 月发布的豆包同传大模型 Seed LiveInterpret 2.0，已经在延迟和准确率上接近人类水平。科大讯飞的同传产品也做了好几年了。
连联合国妇女署都已经在采购 AI 翻译口译软件。
但 OpenAI 这次不一样。它把实时翻译做成了一个标准化的 API，每分钟 2 毛 5，任何开发者都能轻松接入。
它直接跳过了实验室 demo 阶段，把「杀死同传」这件事，做成了一个可以大规模部署的廉价产品。
11
##  还有 Whisper
GPT-Realtime-Whisper 也顺便聊几句。
Whisper 各位应该不太陌生了，OpenAI 之前就有开源的语音识别模型 Whisper。但这次的 GPT-Realtime-Whisper 是流式版本：  一边说话，一边出文字，延迟极低  。
适合场景有哪些呢？
实时字幕、会议实时记录、直播实时转写。
如果说 GPT-Realtime-Translate 威胁的是同传，那 GPT-Realtime-Whisper 威胁的就是  速记员  。
这俩加在一起，会议行业的服务商们，可能要重新想想生存模式了……
12
##  AI 语音基础设施
三个模型，三个场景，可以说 OpenAI 这次是直接把语音 AI 的基础设施一次性铺齐了。
对话有 GPT-Realtime-2，翻译有 GPT-Realtime-Translate，转录有 GPT-Realtime-Whisper。
而拿到这三块积木，能搭出什么样的产品，  就看各位的了。
◇ ◆ ◇
相关链接：
OpenAI 博客：https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
OpenAI Realtime API 文档：https://developers.openai.com/api/docs/guides/realtime
GPT-Realtime 模型文档：https://developers.openai.com/api/docs/models/gpt-realtime
OpenAI Realtime Translation Cookbook：https://developers.openai.com/cookbook/examples/voice_solutions/one_way_translation_using_realtime_api