--- title: "腾讯研究院AI速递 20260430" source_url: https://mp.weixin.qq.com/s/E9FFy3r5KWA1Ja5pyWBBrg tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw] source_type: wechat provenance_state: extracted sha256: 6f9c10d0c29e4081c29a9623bb22f8d137b204bb2a4027aa458749322ca11bfc --- ---

生成式AI

一、Claude打通Adobe等8大创意软件,三所艺术院校同步试点

1. Anthropic与Blender、Adobe、Autodesk等合作推出一批MCP连接器,涵盖3D建模、平面设计、音乐制作等创意领域,让Claude直接操作专业创意软件;

2. Claude可充当创意辅导工具、编写脚本插件、桥接多软件流水线,并推出Claude Design产品用于探索软件设计方向;

3. Anthropic加入Blender开发基金支持开源,同时与罗德岛设计学院等三所艺术院校合作试点AI创意教育。

https://mp.weixin.qq.com/s/RfuAI1097GHsMyHlEnV9ew

二、英伟达发布全模态Nemotron 3 Nano Omni,吞吐量达同类9倍

1. 英伟达推出多模态推理模型Nemotron 3 Nano Omni,将文本、视觉、语音融合至单一模型,吞吐量达同类开放模型9倍,多项榜单排名前列;

2. 模型采用Mamba与Transformer混合MoE架构,动态激活专家网络,内存和计算效率最高提升4倍,适配边缘部署场景;

3. 模型开源开放商用授权,已被富士康、Palantir等早期采用,英伟达借此完善从硬件到模型的全栈AI布局。

https://mp.weixin.qq.com/s/JuYJvpP0Mv5c2OH2XOK-Ag

三、5.2万星开源Ghostty宣布迁离GitHub,18年老用户含泪告别

1. HashiCorp联合创始人Mitchell Hashimoto宣布将5.2万星开源终端项目Ghostty迁离GitHub,核心原因是平台故障频发严重影响日常开发工作;

2. Mitchell作为GitHub 18年老用户,记录显示近一个月几乎每天都遇到平台故障,写博文时因Actions崩溃已停工两小时;

3. 社区将问题归因于AI自动化泛滥消耗基础设施资源,此事件引发开发者对平台过度追求商业增长而忽视基础体验的广泛反思。

https://mp.weixin.qq.com/s/wqMtvFW0qtsGqplnXSfvDA

四、DeepSeek上线识图模式开启灰测,多模态视觉理解正式落地

1. DeepSeek上线识图模式并开始灰测,网页版和App均可体验,标志着其多模态视觉理解能力正式落地;

2. 实测显示DeepSeek识图时具备深度推理能力,会主动追问背景、联想隐喻并自我纠正,思考过程类似人类认知习惯;

3. 常规图片识别准确率较高,但数手指等极限测试仍有失误,且暂不支持联网搜索和HEIF格式文件。

https://mp.weixin.qq.com/s/G9RdEV6yk6xQo8UcTXG-Ow

五、阶跃星辰发布Step Image Edit 2,3.5B参数超越12B级大模型

1. 阶跃星辰发布轻量级图像生成编辑模型Step Image Edit 2,参数仅3.5B却超越12B-20B级开源模型,单次生图仅需0.5-2秒;

2. 模型采用多专家自演化学习和分布匹配强化学习两大创新,实现轻量级参数下的跨量级性能突破;

3. 训练数据超五千万条,自研排版系统生成两千万条文字专项数据,在KRIS-Bench轻量级榜单排名第一,限时免费体验中。

https://mp.weixin.qq.com/s/iHlnN2YGafxWweVLCP2--g

六、腾讯混元开源手机端离线翻译模型,仅0.4G支持33种语言

1. 腾讯混元开源离线翻译模型Hy-MT1.5-1.8B-1.25bit,将支持33种语言的翻译大模型压缩至440MB,可在手机本地离线运行,翻译质量超越谷歌翻译;

2. 采用Sherry稀疏三值量化技术实现1.25-bit极致压缩,该方案已被ACL 2026录用,配合专用STQ内核适配手机CPU;

3. 完全本地处理无需联网,零隐私泄露风险,已开源全部模型权重和代码,提供安卓Demo可直接下载体验。

https://mp.weixin.qq.com/s/GMl4FiB8HRwqZc-1_T9XOw

七、ima正式上线copilot知识Agent,内置记忆系统全场景伴随

1. ima正式推出知识Agent——copilot,内置记忆系统包含设定、用户档案、长期记忆和经验技巧四大模块,可跨场景连续调用减少重复输入;

2. copilot支持全场景感知,以浮窗形式伴随用户浏览网页、文件和知识库,无需额外上传即可理解当前内容并完成处理;

3. 同步上线Skills生态,内置知识库操作、笔记管理、报告生成等官方技能,并支持用户自行添加技能和接入第三方模型API。

https://mp.weixin.qq.com/s/fxaw_xjIn5iyBXKSQtswDg

八、亚马逊推出桌面AI助手Amazon Quick,打通全域办公应用

1. 亚马逊云科技推出桌面端AI助手Amazon Quick,常驻后台运行,深度联通本地文件、邮箱、日程及Microsoft 365、Slack、Salesforce等主流办公平台;

2. 产品支持自然语言生成演示文稿、数据看板和智能应用,能主动识别待办事项和日程冲突,从被动应答升级为主动预判式办公;

3. 3M、宝马、纽约人寿等已规模化部署,实测显示文档制作时长缩减80%,研发测试周期缩短67%。

https://mp.weixin.qq.com/s/lWCx-4w4xpSFHFxfhD7glQ

前沿科技

九、银河通用发布跨本体世界动作模型LDA-1B, 具身规模化

1. 银河通用发布1.6B参数的跨本体世界-动作基础模型LDA-1B,首次实现虚实共融、人机混合、有无标注的全类数据统一高效利用,成果登顶机器人顶会RSS;

2. 模型在单一扩散框架内融合策略学习、前向/逆向动力学和视觉预测四大能力,性能超越GR00T-N1.6和π0.5等顶尖模型最高达48%;

3. 仅需1小时后训练即可适配不同机器人本体,已面向工厂和家庭两大核心场景落地,代码已全面开源。

https://mp.weixin.qq.com/s/TKw0wRSZyQKvU8b7SJ80gQ

十、 生数科技发布通用世界行动模型Motubrain 多本体适配

1. 生数科技正式发布通用世界行动模型Motubrain,基于UniDiffuser框架统一建模视频与动作模态,定位具身智能机器人通用大脑,具备多本体适配、多任务泛化与长程任务执行能力;

2. 模型采用视频、动作、语言三流MoT架构,可完成10个原子动作级别的复杂长程任务,在WorldArena与RoboTwin 2.0两大国际榜单同时夺冠;

3. 公司已与无界动力、深朴智能、星尘智能等具身智能企业达成战略合作,推动世界模型从技术验证走向真实产业落地。

https://mp.weixin.qq.com/s/ip2Bgqs6T5wRFA2WW8abkg

👇加入AGI数据库,AI智能问答

👇订阅下方合集,获取每日推送