--- title: "腾讯研究院AI速递 20260506" source: wechat source_url: https://mp.weixin.qq.com/s/WnZgd6MlAM1jJ_b3u5eSEA tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw] review_value: 8 review_confidence: 9 review_recommendation: strong review_stars: 4 date: 2026-05-13 sha256: 7e3d45979589b233a29e4f9ade7a07844773edf711e7cdd503fb345b1188c4ab --- --- source: wechat source_url: https://mp.weixin.qq.com/s/WnZgd6MlAM1jJ_b3u5eSEA ingested: 2026-05-12 feed_name: 腾讯研究院 wechat_mp_fakeid: MP_WXS_2399148061 source_published: 2026-05-05 --- # 腾讯研究院AI速递 20260506 生成式AI 一、马斯克Grok 4.3悄然上线,性价比突出 , 但不及顶尖 1.xAI低调发布Grok 4.3,Intelligence Index达53分,超过Claude Sonnet 4.6,自家模型线中最强; 2.API输入价格1.25美元/百万Token、输出2.50美元/百万Token,比上代降40%至60%,输出速度约196 Token/秒; 3.准确率提升但非幻觉率下降,仍落后GPT-5.5与Claude Opus 4.7,适合性价比工作场景,不适合高风险任务。 [ https://mp.weixin.qq.com/s/-ewhh9yqowqFdieLSecrJA ]() 二、OpenAI升级Codex,从代码助手蜕变通用电脑管家 1.OpenAI重磅升级Codex,新增Slack与Google Workspace全家桶集成,从代码工具进化为通用电脑操控Agent; 2.实测中Codex全自动调用Adobe Audition、Photoshop、Firefly完成音频修复、封面设计与AI视频生成,全程零人工操作; 3.奥特曼称其迎来「ChatGPT时刻」,开发者纷纷弃用Claude Code转投Codex,重新定义「使用电脑」这件事。 [ https://mp.weixin.qq.com/s/jiYeOInJRNDDKuBP_OWoMw ]() 三、DeepSeek识图模式技术揭秘,视觉原语「边指边想」 1.DeepSeek发布多模态技术报告,识图模式采用284B参数、13B激活模型,基座为DeepSeek-V4-Flash; 2.创新点在于将语言推理升级为「语言逻辑+空间坐标」双轨思维,模型能在思考时直接框定视觉锚点; 3.通过三级压缩将KV缓存视觉条目压缩7000余倍,多项视觉QA任务超越GPT-5.4、Claude-Sonnet-4.6等模型。 [ https://mp.weixin.qq.com/s/Uulx9T1PsAiEiwi9OMTZqQ ]() 四、腾讯混元发布CL-Bench Life,测AI生活上下文理解 1.腾讯混元推出CL-Bench Life基准,含405个真实生活任务、5348条人工评分标准,专测AI日常上下文学习能力; 2.涵盖沟通社交、碎片信息修订、行为活动轨迹三大类场景,覆盖群聊、笔记、健身记录等真实生活情境; 3.前沿模型平均仅解决14.5%的任务,最强GPT-5.5也只完成22.2%,主要错因是上下文误用而非长文推理不足。 [ https://mp.weixin.qq.com/s/V-EEcYS_QIgsHFibBRJ4UA ]() 五、Anthropic与OpenAI同日宣布合资公司,驻场 服务 1.Anthropic联手黑石、高盛等募资15亿美元,OpenAI携TPG、贝恩等成立DeployCo,规模100亿美元; 2.两家共同放弃传统企业销售模式,借助私募基金被投企业资源进行「驻场工程师」式AI部署; 3.驻场服务毛利率仅30%-50%低于API八成,独立拆分既能加速落地又可保住母公司IPO估值倍数。 [ https://mp.weixin.qq.com/s/xRGWUa6AcEmm8msGOskrwQ ]() 前沿科技 六、宇树科技发布双臂人形机器人R1,2.69万元起售 1.宇树科技4月30日发布双臂人形机器人R1系列,2.69万元起售,主打上半身双臂操作,下半身可选固定底座或移动底盘; 2.整机15至31自由度,手臂提供5×2和7×2两种方案,机身与头部各搭载8核CPU、头部算力10TOPS; 3.推出R1-A5、R1-A7及对应D版共四个版本,标配2kg手臂负载、±0.1mm末端精度,末端支持双指、三指、五指灵巧手快换。 [ https://mp.weixin.qq.com/s/u6q6BWhyqOMAzOudx9RxgA ]() 报告观点 七、智谱 团队 解析Coding Agent推理痛点与系统级优化 1.智谱GLM-5系列在高并发长上下文Coding Agent场景出现乱码、复读等异常,源于推理基础设施竞态Bug; 2.团队定位并修复PD分离架构KV Cache竞态、HiCache加载时序缺失两个底层问题,异常率从万分之十几降至万分之三; 3.推出KV Cache分层存储方案LayerSplit,在40K-120K长上下文请求中吞吐提升10%至132%。 [ https://mp.weixin.qq.com/s/9YdGXrqCPr90yDpdFf5Txg ]() 八、Karpathy 发 表 新见解,人类唯一护城河 最 终 或 只剩理解 1.Karpathy在红杉峰会指出大模型让某些旧软件失去存在理由,安装脚本将被「.md说明文档」取代; 2.提出「锯齿智能」概念,模型能力差异源于实验室对可验证领域的资源倾斜,垂直领域仍是创业机会; 3.强调未来神经网络或成主计算层,CPU将退居辅助;人类不可外包的核心是「理解」而非「思考」。 [ https://mp.weixin.qq.com/s/S_Fr1S7erx24DTyl8PlSIA ]() 九、a16z对话Roblox产品经理,公司未来 应 「小而美」 1.Roblox产品负责人Peter Yang认为应用将逐步消亡,Agent成为主流交互入口,工具型App首当其冲; 2.主张未来公司应保持小规模,将10%的产品团队压缩至2-3%核心成员,配Agent助手协同工作; 3.提出「快慢结合」节奏论,局部最优解阶段借Agent高速登顶,跨越认知山丘则需慢下来探索。 [ https://mp.weixin.qq.com/s/gwpfzrVbenZi8djz29yHRw ]() 👇加入AGI数据库,AI智能问答 👇订阅下方合集,获取每日推送