--- title: 商汤开源 SenseNova-U1:一个模型,同时「看懂」和「画懂」 source_url: https://mp.weixin.qq.com/s/BhrUm_mfg9-peSsceEIVhw publish_date: 2026-04-29 tags: [wechat, article, llm, openclaw, nova] review_value: 7 review_confidence: 7 review_recommendation: neutral sha256: 7601b088776ed1453585cdf7031052833e92964428fa52fe88f7bf8248f49908 --- # 商汤开源 SenseNova-U1:一个模型,同时「看懂」和「画懂」 **来源**:量子位(转载自商汤官方)| 发自凹非寺 **摘要**:商汤开源了一个理解生成统一模型 SenseNova-U1,底层采用 NEO-unify 架构——不需要视觉编码器(VE)和变分自编码器(VAE),模型直接吃像素吐像素。8B 参数端侧可跑,38B MoE 版提供更强能力。核心亮点是连续性图文创作:文字和图片在同一输出中自然交叠,而非拼接生成,解决了传统多模型架构角色形象走样的问题。支持信息图、海报、教程图、漫画分镜等场景,在多项开源基准上登顶。对应 OpenClaw Skill 体系,可直接调用。 ## 核心能力:连续性图文创作 所谓连续性图文创作,就是文字和图片在一段输出里自然交叠,而不是文字归文字、图片归图片。这听起来很简单,但实际上很难——文字保留语义、图片保留像素细节,这两件事在传统架构里几乎是天敌。 U1 的做法是让两者在同一个表征空间里共享上下文,语义丰富性和像素级视觉保真度第一次同时拿住。 典型场景: - **操作教学**:煎牛排从食材准备到装盘,每一步都有图,牛排形象全程一致 - **漫画分镜**:输入"三只小猪盖房子"7个字,输出一整组连环画 - **信息图**:输入简历信息,自动生成手绘风格海报 - **产品爆炸图**:相机被拆解为镜头组、反光镜、快门、传感器等悬浮标注图 - **图像推理**:给一杯热茶让它推理一小时后的样子,模型先做物理约束推导再出图 ## NEO-unify 架构:三步实现"看画合一" 在传统多模态模型中,视觉编码器(VE)负责看,变分自编码器(VAE)负责画,理解归理解,生成归生成,中间靠适配器拼起来。 NEO-unify 把这两个东西都拿掉了——不需要 VE,不需要 VAE,模型直接吃像素,直接吐像素。具体分三步: 1. **引入近似无损的视觉接口**:把图像的输入和输出统一成同一种表示 2. **用 Mixture-of-Transformer 做主干**:理解和生成共享同一套底层 3. **文本走自回归,视觉走像素流匹配**:两套目标函数在同一个学习框架里跑完 ## 模型规格 | 规格 | 参数量 | 类型 | 说明 | |------|--------|------|------| | SenseNova-U1-8B-MoT | 8B | 端侧可跑 | 小尺寸版本 | | SenseNova-U1-3AB-MoT | 38B | MoE 架构 | 更大能力 | 配套推理栈:LightLLM 跑理解,LightX2V 跑生成。以 H100/H200 单节点为例,生成一张 2048×2048 的图端到端约 9 秒。 ## 开源地址 - GitHub: https://github.com/OpenSenseNova/SenseNova-U1 - HuggingFace: (同期开源) - Skill: https://github.com/OpenSenseNova/SenseNova-Skills ## 已知局限(README 自述) - 上下文最长 32K - 人物在复杂场景里的细节有时不够稳 - 长文字渲染偶尔出现拼写或排版错误 - 连续性图文创作目前还是 beta ## Skill 生态 商汤开源了 SenseNova-Skills 技能包,覆盖: - sn-infographic(87种版式、66种风格) - 图像生成、PPT制作、Excel数据分析、深度研究、跨平台搜索 可挂进 OpenClaw,一句 `/skill sn-infographic "提示词"` 出图。