---
title: 腾讯混元新里程碑：Hy3 preview 发布开源，Agent 表现全面提升
type: article
source: wechat
source_url: https://mp.weixin.qq.com/s/Bz1XiZrXeYlGGuE6UBdq5A
tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw]
feed_name: 腾讯技术工程
source_published: 2026-04-23
created: 2026-05-19
review_value: 7
review_confidence: 8
review_recommendation: worth-reading
sha256: 16f00a6eaebd7c529b4fbd9b6f818cd2ad15ac94f770cb29a7f7a78a3aae19b0
---
---
# 腾讯混元新里程碑：Hy3 preview 发布开源，Agent 表现全面提升
** 4 月 23 日，  ** 腾讯混元  Hy3 preview 语言模型发布并开源  。  这是一个快慢思考融合的混合专家模型，总参数  295B，激活参数 21B，最大支持 256K 上下文长度。  这  是  混元  重建后训练的第一个模型，也是混元迄今最智能的模型，在复杂推理、指令遵循、上下文学习、代码、智能体等能力  及推理性能上  实现了大幅的提升  。
2026 年2月，腾讯混元重建了预训练和强化学习的基础设施  ，  以及模型追求实用性的三个原则  ：
1、  能力体系化：  不推崇  “偏科”，因为即使是代码智能体  的单一应用，  也  涉及  推理、长文  、  指令  、对话、代码、工具等多种能力的  深度协同  。
2、  评测  真实性  ：  主动跳出易被  “刷榜”的公开  榜单  ，通过  自建题目、最新  考试、  人工评测、  产品  众测等多种方式评估和改进模型  的  “真实战斗力”。
3、  性价比  追求  ：实用性离不开商业合理性  ，深度协同模型架构和推理框架的设计  ，大幅降低任务成本，让智能用得起、用得好。
Hy3 preview可以视为混元快速探索实用性大模型、解决真实世界问题的一个开端。
腾讯首席  AI科学家姚顺雨表示，Hy3 preview是混元大模型重建的第一步。我们希望通过这次开源和发布，获得来自开源社区和用户的真实反馈，帮助我们提升 Hy3 正式版的实用性。与此同时，我们也在继续扩大预训练和强化学习的规模，提升模型的智能上限，并通过与腾讯  众多  产品的深  度  C  o  -D  esign，  持续提升  模型在真实场景中的  综合  表现，  并开始  探索特色  模型  能力。
目前，  Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享  等  首发上线，微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。另外，  Hy3 preview 支持接入流行的开源智能体产品，如 OpenClaw、OpenCode、KiloCode 等，并已上架腾讯云大模型服务平台 TokenHub。
###  ** Hy3 preview主打全面实用性，Agent能力大幅提升  **
多个测评结果显示，  Hy3 preview 模型能力全面提升。
** 1  、出色的  ** ** 上下文  ** ** 学习和指令遵循能力  **
在各种真实的生产与生活场景，理解杂乱冗长的上下文并遵从复杂多变的规则是模型的首要挑战。基于  腾讯  业务场景的灵感，  腾讯混元  提出了  CL-bench和 CL-bench-Life 来创新性地评估模型的上下文学习能力，并在 Hy3 preview 显著地提升了模型上下文学习和指令遵循能力。
** 2  、  ** ** 复杂推理能力  ** ** 突出，清华数学博士资格考试国内分数最高  **
复杂推理能力是模型解决各种问题的基础。  H  y  3  preview  在  FrontierScience-Olympiad、IMOAnswerBench 等高难度  理工科推理任务  中表现突出，并在最新的清华大学求真书院数学博资考  (26春) 和 全国中学生生物学联赛(CHSBO 2025) 中取得优异成绩  ，展现了可泛化的强推理能力。
** 3  、代码与智能体提升最为显著，  ** ** 展现出  ** ** 高性价比  **
代码和智能体是  Hy3 preview 提升最为显著的方向。得益于预训练及强化学习框架的重建和强化学习任务规模的提升，腾讯混元以较快的速度  在  SWE-Bench Verified、Terminal-Bench 2.0 等主流  代码智能体  基准以及  BrowseComp、WideSearch 等  主流搜索智能体基准  中取得了有竞争力的  结果。
在数字世界中，  代码  关注的是模型在开发环境中的执行能力，  搜索  则聚焦于开放信息空间中的检索、筛选与整合能力  ，  两者共同决定了模型在复杂  智能体  场景  （例如  OpenClaw  ）  中是否真正具备可用性。  Hy3  p  review 在 ClawEval  和  WildClawBench 等评测中表现突出，表明  我们的智能体  能力  正在稳步  走向  全面与实用。
除了公开榜单，腾讯混元还  进一步构建  了多个内部的评测集  ，对模型在  真实  开发场景中的表现进行评估。结果表明，无论是在后端工程任务  集  H  y  -Backend，贴近真实  用户  开发  交互  的  H  y  -Vibe Bench，  还是高难度软件工程开发任务集  Hy-SWE Max 上，  H  y  3  preview 均体现出了强竞争力  。
比较各个开源模型的大小与智能体综合表现，  Hy3  p  review  展现出  高性价比。
###  ** 腾讯核心业务已全面接入，多主线AI 产品验证收益明显  **
正式上线之前，  Hy3 preview在腾讯主要AI 业务进行了产品测试，获得明显正收益。
在  元宝  端，  混元与元宝进行了深度  Co-Design。一方面  ，  针对性地提升了模型在意图理解精准度、文本创作质量、深度搜索等硬核指标上的表现；另一方面  ，  对文风、文笔、情商、内容组织和内容专业度上进行了精细化调优。模型与产品的深度协同，为用户带来了更智能且更具  “活人感”的交互体验。
在  ima知识库问答和通用问答两个场景下，测试结果显示，H  y  3 preview 处理长文的能力出色，特别是检索类任务，在回答信息的准确性、覆盖度和全面性上表现较好。
在  CodeBuddy  、  WorkBuddy产品上，Hy3 preview 首 token 延迟降低 54%、端到端时长降低 47%、成功率提升至 99.99%+  。  实际用户环境中  ，  H  y3  preview 已稳定驱动最长 495 步的复杂 Agent 工作流，覆盖文档处理、数据分析、知识检索、MCP 工具链编排等多样化办公场景。
在公众号  AI分身和 AI 客服的场景专项评测中，Hy3 preview 展现出相比 Hy  2  更全面的能力升级。新模型在用户意图理解、复杂上下文承接和知识信息组织方面表现更成熟，面对模糊提问、短句追问和多轮对话时，能够更准确地把握用户诉求，并输出更清晰、更稳定的回复。结合知识库、用户记忆与上下文生成回答时更贴合  AI 分身和 AI 客服的角色，过度脑补、主观代入和情绪化表达显著减少，使整体交互体验更贴近“可信、自然、高效”的回复目标。
在  和平精英  AI NPC 场景评测  中  ，  和平精英  团队  第一时间在  Hy3 preview上线后基于  AI NPC 场景中完成接入并开展评测，整体表现令人印象深刻。在游戏局外的人设扮演场景中，Hy3 Preview 不仅能够精准理解角色设定，还能针对开放性问题输出高度关联、富有增量价值的内容，带来了更加真实、自然、沉浸的对话体验。而在游戏局内的复杂对战场景中，模型回复节奏贴近真实玩家聊天体验，展现出优秀的稳定性与出色的拟人化扮演能力，整体效果表现亮眼。
在  腾讯文档  AI  PPT 场景，较上一版本（H  y  2）取得了显著进步：生成成功率提升 20%，评测得分提升 10%，同时生成耗时缩短 20%。整体而言，新模型在评测场景中表现优异，在模版选择，色彩匹配，生成大纲，补充内容多个阶段，均体现出优秀的表现，无幻觉，契合主题，视觉效果好。
在  QQ AI助手  小  Q产品评测中，  较上一  版本  ，在长文本首字节时延、整体响应速度与流式输出效率方面显著优化；核心能力上，数学推理表现提升尤为明显，多场景指令遵循与泛化能力进一步增强；在工具调用推理及多轮指代消解方面表现更稳定高效，在  OpenClaw官方PinchBench QQ智能体场景测试中取得突出效果，综合体验实现明显跃升。
###  ** 推理效率提升40%，同等成本智能密度最优  **
得益于模型和推理框架上的深度协同，以及在推理框架、算子性能、量化算法等全方面优化，整体推理效率提升  40%，Hy3 preview的成本相比上一代模型大幅下降。
在腾讯云大模型服务平台  TokenHub 上，Hy3 preview 输入价格最低1.2元/百万tokens，输入命中缓存价格0.4元/百万tokens  ，  输出价格最低  4元/百万tokens。同时，腾讯云联合混元推出定制的 Hy3 preview Token Plan 套餐，个人版定价最低28元/月，为Agent开发和打造“龙虾”应用的提供更具性价比选择。