--- title: "刚刚,OpenAI 放出三个语音模型,顺便杀死了「同传」" type: source source: wechat source_url: https://mp.weixin.qq.com/s/R7jRMttQJHoPnh0SZg1IVg tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw] review_value: 8 review_confidence: 8 review_recommendation: strong review_stars: 4 created: 2026-05-16 updated: 2026-05-16 sha256: c6e580ef4148ce4aed7e40ef6e04393f657e99c012f5efe7590c2b1c17d316d2 --- --- source: wechat source_url: https://mp.weixin.qq.com/s/R7jRMttQJHoPnh0SZg1IVg ingested: 2026-05-16 feed_name: AGI Hunt wechat_mp_fakeid: MP_WXS_3087832081 source_published: 2026-05-07 --- # 刚刚,OpenAI 放出三个语音模型,顺便杀死了「同传」 刚刚, OpenAI 放出了三个全新的实时语音模型,其中一个翻译模型,能把 70 多种语言实时翻译成 13 种语言输出,每分钟成本 2 毛钱。 同声传译这个行业,现在可能,要迎来它的终局了。 OpenAI GPT-Realtime-2 01 ## 发了什么 这次发布的三个模型,分别对应语音交互的三大场景:对话、翻译、转录。 ** GPT-Realtime-2 ** ,是 OpenAI 目前最强的语音模型,具备 GPT-5 级别的推理能力。它能边听边想,在对话中实时解决复杂问题。可以理解为:一个能打电话的 GPT-5。 ** GPT-Realtime-Translate ** ,实时语音翻译。支持 70 多种语言输入,翻译成 13 种语言输出,翻译的同时还能保留说话者的语调和情感。 ** GPT-Realtime-Whisper ** ,实时语音转文字。一边说话一边出字幕,适合做实时字幕、会议记录。 三个模型,三个场景 三个模型都通过 Realtime API 对外开放,开发者可以用 WebRTC、WebSocket 或 SIP 接入。 02 ## 能干活的嘴 GPT-Realtime-2 是 OpenAI 推出的第二代实时语音模型,也是目前 Realtime API 中推理能力最强的一个。 OpenAI 对它的定位是: 让语音 Agent 从「能聊天」变成「能干活」 。 它的几个关键升级: • ** GPT-5 级推理 ** :能在语音对话中处理复杂的多步推理任务,不再只是简单的问答 • ** 更好的工具调用 ** :可以精准地调用外部工具,比如查数据库、调 API,这意味着语音 Agent 可以真正「做事」了 • ** 自然的对话处理 ** :能处理打断、话题切换,不会因为你插了句嘴就丢了上下文 • ** 128K 上下文窗口 ** :之前的 gpt-realtime 只有 32K,现在翻了四倍 • ** 更像人的声音 ** :语音合成的自然度和表现力都有提升,能更好地理解和执行系统指令 用过 ChatGPT 语音模式的应该都很有感受,相比于直接的 chat,语音版的智能很差,几乎不怎么思考,更不会调用工具。 因为工具调用需要时间,语音场景又对延迟极度敏感,所以之前索性就做了一个很简单的版本。 能聊天就行, 干活就 别指望它了。 但现在,这个问题解决了。 GPT-Realtime-2 能边聊边想边调工具了,你说出一个需求,它可以完成日历查找、更新完 CRM,直接动嘴就把事儿办了。 03 ## 定价 文本 token 的价格是 $4/$16(输入/输出,每百万 token)。 音频 token 则是 $32/$64。 GPT-Realtime-Translate 的翻译功能单独计价, ** 每分钟 $0.034 ** ,大约人民币 2 毛 5。 这个价格后面会详细说,因为它对同传行业,可能会是毁灭性的 冲击 。 04 ## 实际案例 OpenAI 在博客里,提到了几个已经在用的企业: ** 德国电信 ** 正在基于 GPT-Realtime-Translate 打造客服系统,让客户用自己最舒服的语言沟通,模型负责实时翻译。 ** Priceline ** 在做一个旅行语音助手,旅客落地后可以直接用语音管理行程,语言不通也没关系,模型实时翻译。 ** Vimeo ** 也在合作中,具体做的是视频相关的实时语音场景。 05 ## 视频 Demo OpenAI 同步放出了一段 4 分钟的演示视频,展示了翻译和语音 Agent 两个场景。 已关注 __ 关注 __ 重播 __ 分享 __ 赞 关闭 __ **观看更多** 更多 __ __ __ __ _退出全屏_ [ __ ](<>) _切换到竖屏全屏_ _退出全屏_ AGI Hunt 已关注 [ __ ](<>) 分享视频 __ ,时长 04:03 0 / 0 00:00 / 04:03 切换到横屏模式 继续播放 进度条,百分之0 __ [ 播放 ](<>) 00:00 / 04:03 04:03 _全屏_ __ 倍速播放中 [ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>) [ 超清 ](<>) [ 流畅 ](<>) 您的浏览器不支持 video 标签 __ 继续观看 刚刚,OpenAI 放出三个语音模型,顺便杀死了「同传」 观看更多 __ 转载 , 刚刚,OpenAI 放出三个语音模型,顺便杀死了「同传」 __ AGI Hunt 已关注 分享 点赞 在看 __ __ 已同步到看一看 [ 写下你的评论 ](<>) __ [ 视频详情 ](<>) 先看翻译功能 。 Demo 里一个人用法语发言,模型实时把法语翻译成英语输出,音频直接从笔记本电脑捕获,没有任何后期编辑。 效果可以说是,非常惊艳。 模型会一边听一边翻译,等关键词(比如动词)出现后立即开始输出,听起来像两个人在自然对话。 如果你中途突然切换成德语,模型也能无缝跟上,毫无卡顿。碰到 GPT、OpenAI、computer use 这类技术术语,也一样能准确处理。 再看语音 Agent。 Demo 中对着手机上的个人助手说一句: > “ 我马上有个客户会议,能帮我看一下日程吗? 模型会立刻查看日历,回复说 12 分钟后有一个跟 Sablecrest Robotics 的 CTO Alex Kim 的会议。接着让它更新 CRM,把今天的会议摘要和后续步骤录入系统。 这里有个细节:模型在执行这些操作的时候,不是沉默地处理完再一次性给结果,而是会主动跟你说「让我拉一下最新的上下文,然后更新你的 CRM」。 这个「边干活边汇报」的能力叫 preamble,是 GPT-Realtime-2 的一个关键设计。以前的语音 Agent 调工具的时候,用户只能干等着,不知道它在干嘛。 现在它会边推理边跟你说话,体验完全不一样了。 Demo 中称: > “ 语音,现在可以真正成为主要交互界面了。 06 ## 杀死同传 接下来聊聊这次发布里,我觉得可能最值得展开一说的部分。 GPT-Realtime-Translate 这个模型,看起来只是三个新模型中的一个,但它所指向的行业,是一个曾经站在翻译界金字塔顶端的职业: 同声传译。 07 ## 塔尖职业 同声传译,也就是「 同传 」,是翻译行业中公认难度最高、门槛最高、薪资也最高的工种。 它的工作方式上大体是这样的: 在国际会议或外交场合,译员坐在隔音的口译室里,戴着耳机听台上的发言,几乎同时把听到的内容翻译成另一种语言,对着麦克风说出来。 台下的听众,则通过耳机接收翻译。 注意是「 几乎同时 」。 发言者说完一句话,译员大约只落后两三秒。 全球 95% 的高端国际会议,都采用同声传译。联合国安理会、世界经济论坛、G20 峰会,台上领导人侃侃而谈的背后,都有同传译员在口译室里高速运转。 ** 这个职业,日薪过万。 ** 北京市场上,英语同传一天的报酬在 1.2 万到 2.1 万人民币之间。一个译员如果一年接 100 天活儿,年收入可以达到 50 万甚至更高。 但这钱,真的不好赚。 08 ## 20 分钟一换 高薪的背后,同传的精神压力其实非常之大。大到了什么程度呢? 同传的高压工作 一般来说,同一语言需要 2 到 3 名译员组成一组,每 15 到 20 分钟轮换一次。 因为人的大脑在同传状态下是满负荷运行的:你要同时完成「听、理解、记忆、翻译、表达」这五个动作,而且不能停,不能回头,说出去的话收不回来。 2009 年的联合国大会上,就发生过一件著名的事。 利比亚领导人卡扎菲上台发言,原定 15 分钟的演讲,他整整讲了 96 分钟。内容天马行空,从「 新型流感是某个国家施放的细菌武器 」讲到怒撕《联合国宪章》。 他的私人阿拉伯语同传译员在坚持了 75 分钟后,终于心理状态彻底崩溃,当场直接放弃了翻译,并对着麦克风喊了一句: > “ 我受不了了。 联合国不得不临时调派其他译员来接替。 这个 事 故在翻译界,也算是一大故事了。 09 ## 十年磨一剑 而想成为一名合格的同传译员,门槛高得吓人。 联合国招聘同传,要求英语、法语、俄语、西班牙语的译员必须精通至少三门联合国官方语言。中文和阿拉伯语译员则必须精通英语或法语。 而且, 光语言好还不够 。你还得通过联合国的同传考试:六场演讲,没有原文稿,涵盖政治、经济、人权、环境等各种议题,不同语速、不同口音、不同风格,一场一场翻过去。 有考生说,光是备考就花了七个月,每天密集练习。 国内的情况也类似。北京语言大学的同传专业每年只招 15 人,三个学期的魔鬼训练,第一学期给稿子翻,第二学期不给稿子翻,第三学期不给稿子也不给译文,直接模拟现场采访。 但,毕业了就能上岗吗? 也未必 。客户选人看的是你参加过什么级别的会议,新人……根本没什么机会。 同传培养之路 ** 全球专业的同声传译人才总共也就 2000 多人。据不完全统计, ** 中国的 ** 顶级同传也就只有 30 人左右。 ** 这些人,每一个都是十年以上的积累,每一场会议都是如履薄冰。 10 ## 两毛五 然后……OpenAI 发了个 API。 GPT-Realtime-Translate,每分钟 $0.034,折合人民币大约 2 毛 5。 一个同传译员一天的报酬是 1.2 万到 2.1 万元。按 8 小时工作制算,每分钟成本大约 25 到 44 元。 AI 翻译 vs 人类同传 ** AI 翻译的成本,是人类同传的百分之一。 ** 而且 AI 不需要休息,不需要每 20 分钟换人,不会心理崩溃,支持 70 多种输入语言,7×24 小时待命。 更不会吼出那声: 老子不干了! 当然了,目前的 GPT-Realtime-Translate 还算不上完美的「同声传译」。 从 Demo 中来看,它已经能在说话者还在讲的时候就开始翻译,会等关键词(比如动词)出现后立即输出。但 OpenAI 的技术文档把它标注为 turn-based:理想状态下说话者短暂停顿,模型处理效果最好。 实际体验介于「逐句翻译」和「同声传译」之间。 偶尔也会出现幻觉,比如产生一些无意义的声音,或者干脆沉默不翻译。 OpenAI 在技术文档里写的是: > “ 随着模型变得更快、更高效,这个延迟会显著降低,翻译会变得更加无缝。 而且更为关键的是,它在翻译时能保留说话者的情感、语调和语速。 OpenAI 在 Cookbook 文档声称:这让它「 比以往任何时候都更接近一个现场翻译 」(live interpreter)。 级联翻译 vs 端到端 传统的翻译方案是级联式的:先语音转文字,再文字翻译,再文字转语音。每一步都会丢失信息,语调没了,情感没了,停顿节奏也没了。 GPT-Realtime-Translate 则是端到端处理原始音频,跳过了中间的文字步骤,自然能保留更多声音本身的特征。 ** 同传这个行业,倒不是今天才被威胁的。 ** 字节在去年 7 月发布的豆包同传大模型 Seed LiveInterpret 2.0,已经在延迟和准确率上接近人类水平。科大讯飞的同传产品也做了好几年了。 连联合国妇女署都已经在采购 AI 翻译口译软件。 但 OpenAI 这次不一样。它把实时翻译做成了一个标准化的 API,每分钟 2 毛 5,任何开发者都能轻松接入。 它直接跳过了实验室 demo 阶段,把「杀死同传」这件事,做成了一个可以大规模部署的廉价产品。 11 ## 还有 Whisper GPT-Realtime-Whisper 也顺便聊几句。 Whisper 各位应该不太陌生了,OpenAI 之前就有开源的语音识别模型 Whisper。但这次的 GPT-Realtime-Whisper 是流式版本: 一边说话,一边出文字,延迟极低 。 适合场景有哪些呢? 实时字幕、会议实时记录、直播实时转写。 如果说 GPT-Realtime-Translate 威胁的是同传,那 GPT-Realtime-Whisper 威胁的就是 速记员 。 这俩加在一起,会议行业的服务商们,可能要重新想想生存模式了…… 12 ## AI 语音基础设施 三个模型,三个场景,可以说 OpenAI 这次是直接把语音 AI 的基础设施一次性铺齐了。 对话有 GPT-Realtime-2,翻译有 GPT-Realtime-Translate,转录有 GPT-Realtime-Whisper。 而拿到这三块积木,能搭出什么样的产品, 就看各位的了。 ◇ ◆ ◇ 相关链接: OpenAI 博客:https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/ OpenAI Realtime API 文档:https://developers.openai.com/api/docs/guides/realtime GPT-Realtime 模型文档:https://developers.openai.com/api/docs/models/gpt-realtime OpenAI Realtime Translation Cookbook:https://developers.openai.com/cookbook/examples/voice_solutions/one_way_translation_using_realtime_api