---
title: 商汤开源 SenseNova-U1：一个模型，同时「看懂」和「画懂」
source_url: https://mp.weixin.qq.com/s/BhrUm_mfg9-peSsceEIVhw
publish_date: 2026-04-29
tags: [wechat, article, llm, openclaw, nova]
review_value: 7
review_confidence: 7
review_recommendation: neutral
sha256: 7601b088776ed1453585cdf7031052833e92964428fa52fe88f7bf8248f49908
---
# 商汤开源 SenseNova-U1：一个模型，同时「看懂」和「画懂」
**来源**：量子位（转载自商汤官方）| 发自凹非寺
**摘要**：商汤开源了一个理解生成统一模型 SenseNova-U1，底层采用 NEO-unify 架构——不需要视觉编码器（VE）和变分自编码器（VAE），模型直接吃像素吐像素。8B 参数端侧可跑，38B MoE 版提供更强能力。核心亮点是连续性图文创作：文字和图片在同一输出中自然交叠，而非拼接生成，解决了传统多模型架构角色形象走样的问题。支持信息图、海报、教程图、漫画分镜等场景，在多项开源基准上登顶。对应 OpenClaw Skill 体系，可直接调用。
## 核心能力：连续性图文创作
所谓连续性图文创作，就是文字和图片在一段输出里自然交叠，而不是文字归文字、图片归图片。这听起来很简单，但实际上很难——文字保留语义、图片保留像素细节，这两件事在传统架构里几乎是天敌。
U1 的做法是让两者在同一个表征空间里共享上下文，语义丰富性和像素级视觉保真度第一次同时拿住。
典型场景：
- **操作教学**：煎牛排从食材准备到装盘，每一步都有图，牛排形象全程一致
- **漫画分镜**：输入"三只小猪盖房子"7个字，输出一整组连环画
- **信息图**：输入简历信息，自动生成手绘风格海报
- **产品爆炸图**：相机被拆解为镜头组、反光镜、快门、传感器等悬浮标注图
- **图像推理**：给一杯热茶让它推理一小时后的样子，模型先做物理约束推导再出图
## NEO-unify 架构：三步实现"看画合一"
在传统多模态模型中，视觉编码器（VE）负责看，变分自编码器（VAE）负责画，理解归理解，生成归生成，中间靠适配器拼起来。
NEO-unify 把这两个东西都拿掉了——不需要 VE，不需要 VAE，模型直接吃像素，直接吐像素。具体分三步：
1. **引入近似无损的视觉接口**：把图像的输入和输出统一成同一种表示
2. **用 Mixture-of-Transformer 做主干**：理解和生成共享同一套底层
3. **文本走自回归，视觉走像素流匹配**：两套目标函数在同一个学习框架里跑完
## 模型规格
| 规格 | 参数量 | 类型 | 说明 |
|------|--------|------|------|
| SenseNova-U1-8B-MoT | 8B | 端侧可跑 | 小尺寸版本 |
| SenseNova-U1-3AB-MoT | 38B | MoE 架构 | 更大能力 |
配套推理栈：LightLLM 跑理解，LightX2V 跑生成。以 H100/H200 单节点为例，生成一张 2048×2048 的图端到端约 9 秒。
## 开源地址
- GitHub: https://github.com/OpenSenseNova/SenseNova-U1
- HuggingFace: （同期开源）
- Skill: https://github.com/OpenSenseNova/SenseNova-Skills
## 已知局限（README 自述）
- 上下文最长 32K
- 人物在复杂场景里的细节有时不够稳
- 长文字渲染偶尔出现拼写或排版错误
- 连续性图文创作目前还是 beta
## Skill 生态
商汤开源了 SenseNova-Skills 技能包，覆盖：
- sn-infographic（87种版式、66种风格）
- 图像生成、PPT制作、Excel数据分析、深度研究、跨平台搜索
可挂进 OpenClaw，一句 `/skill sn-infographic "提示词"` 出图。