--- title: "Gemma 4 12B:Google 多模态本地模型 —— 扔掉编码器" source_url: "https://mp.weixin.qq.com/s/uRbZY55iXTbaY2vToJkJcw" publish_date: 2026-06-04 tags: [wechat, article, gemma, gemma-4, multimodal, local-model, encoder-free, mtp, google, deepmind, edge-ai, native-audio] review_value: 8 review_confidence: 7 review_recommendation: moderate sha256: pending --- # Gemma 4 12B:Google 多模态本地模型 —— 扔掉编码器 > 整理:Hermes Agent > 原文:https://mp.weixin.qq.com/s/uRbZY55iXTbaY2vToJkJcw > 来源:微信公众号转载 > 关键词:Gemma 4 12B / 多模态 / 本地可跑 / 扔掉编码器 / MTP ## 一句话定位 **Google DeepMind 发布 Gemma 4 12B**——把多模态智能装进笔记本电脑的本地模型。**架构创新:扔掉视觉/音频编码器**(视觉用极轻量嵌入模块、音频原始信号直接投影到文本 token 维度空间)。**硬件门槛:16GB 显存或统一内存**(MacBook Air M5 可跑)。Apache 2.0 + 多框架支持。 > "**把原本需要高端服务器才能跑的多模态智能,装进你的笔记本电脑里。**" ## 1. 定位:填补 Gemma 家族关键空缺 - **比边缘端 E4B 更强** - **比 26B 混合专家(MoE)模型更轻** - **整个 Gemma 4 系列里,第一个支持原生音频输入的中等规模模型** ## 2. 性能与硬件门槛 **性能**: - Gemma 4 12B 在标准评测基准上**接近 26B MoE 模型** - **总内存占用还不到 26B MoE 的一半** **硬件门槛**: - 只需 **16GB 显存或统一内存** - 消费级笔记本电脑即可运行 - **入门级 MacBook Air(M5)就能跑** > "**多模态理解加上 Agent 能力,直接在本地跑,不用联网,不依赖云端。**"^[raw/articles/gemma-4-12b-google-multimodal-local.md] ## 3. 本地体验入口 - **LM Studio**(作者首选) - **Ollama** - **Google AI Edge Gallery App** - **Google AI Edge Eloquent 应用**(直接看完全离线的语音转录 / 格式化 / 翻译效果) - **LiteRT-LM CLI** > "**我已经第一时间通过 LM Studio 安装了,以后就算断网,本地也有真正的多模态模型了,没有任何 token 焦虑**——不过最好上 32g 内存,16g 虽然可以跑,但是 token 速度很慢;另外中文表达默认好像是粤语表达方式,所以问问题之前要求用简体中文来回答;**知识截止日期 2025 年 1 月**。" ## 4. 核心技术创新:扔掉编码器 > "**这是 Gemma 4 12B 最值得说的地方。**" ### 传统多模态模型的处理方式 - 先用**专门的编码器**把图像、音频"翻译"成模型能懂的表示 - 再把这些表示传给语言模型主体 - **编码器越多,延迟越高,内存占用也越大** ### Gemma 4 12B 的突破 **视觉处理**: - 用**一个极轻量的嵌入模块**替换了原来的视觉编码器 - 这个模块**只包含一次矩阵乘法、位置嵌入和归一化操作** - 视觉信息直接进入语言模型主干,**让大模型自己去做视觉理解** **音频处理(更彻底)**: - **音频编码器被完全移除** - **原始音频信号直接被投影到与文本 token 相同的维度空间里** > "**这种统一、无编码器的架构,带来的直接好处是:延迟更低,内存更省。**"^[raw/articles/gemma-4-12b-google-multimodal-local.md] ## 5. 速度优化:MTP 草稿器 **Gemma 4 12B 内置了多 Token 预测(MTP)草稿器**,专门用来降低推理延迟。 - 目前**谷歌已经用到自家全系模型**了 - **在实际使用中意味着响应更快** ## 6. 开放 + 生态 **许可证**:**Apache 2.0** **权重下载**:Hugging Face + Kaggle(预训练 + 指令微调) **支持的推理框架**: - Hugging Face Transformers - llama.cpp - **MLX**(Apple Silicon 优化) - SGLang - vLLM **微调支持**:Unsloth **生产部署**: - Gemini 企业级智能体平台模型花园 - Cloud Run - GKE **官方 Gemma 技能库(Skills Repository)**——专门为开发者用 Gemma 模型构建智能体工作流提供支持 ## 7. 核心金句 - "**把原本需要高端服务器才能跑的多模态智能,装进你的笔记本电脑里。**" - "**多模态理解加上 Agent 能力,直接在本地跑,不用联网,不依赖云端。**" - "**以后就算断网,本地也有真正的多模态模型了,没有任何 token 焦虑**" - "**这种统一、无编码器的架构,带来的直接好处是:延迟更低,内存更省。**" ## 8. 与已有 wiki 实体的关系 ### vs PilotDeck / Kimi Work / 高德 / Rein - 这些是**框架 / 智能体 OS / 架构** - **Gemma 4 12B 是底层模型**(可在 LM Studio / Ollama / vLLM 等框架上跑) - 共同点:都强调"本地 / 离线可用" ### vs Microsoft MAI-Thinking-1 - 微软 MAI = **云端推理模型**(350 亿活跃参数 / 1 万亿总参数 / SWE Bench Pro) - **Gemma 4 12B = 本地多模态模型**(12B 参数 / 16GB 显存 / 多模态) - 共同点:都是大厂自研模型;**Gemma 4 走开源 + 本地路线,MAI 走企业级云端路线** ### vs ANOLISA - ANOLISA 是阿里 Agentic OS(基于 Linux + ECS) - **Gemma 4 12B 可作为本地多模态底座在 ANOLISA 这类 Agentic OS 上跑** ## 9. 启示 1. **"扔掉编码器" 是多模态架构新趋势** —— 视觉用轻量嵌入 / 音频原始信号直接投影 = 延迟更低、内存更省 2. **本地多模态已成现实** —— 16GB 显存 + MacBook Air M5 = "本地多模态" 3. **Apache 2.0 + 多框架支持** = 开源生态完整(Hugging Face / llama.cpp / MLX / SGLang / vLLM / Unsloth) 4. **MTP 多 Token 预测**成为业界标准延迟优化手段 5. **断网场景有真正多模态** = "没有任何 token 焦虑" + 数据隐私保护 6. **入门级 MacBook 可跑** = **Agent + 本地模型** 真正进入消费级市场 ## 10. 局限 / 待验证 - 文章主要是产品 release 介绍,详细 benchmark 表未给出 - "**接近 26B MoE**" 的具体基准测试清单未列 - 16GB 内存下"token 速度很慢"的具体延迟数据未给 - 知识截止日期 **2025-01**(约 1 年半前),对长尾知识覆盖度可能受限 - 中文表达"默认好像是粤语表达方式"的修复版本 / 后续训练情况未说明 - MTP 草稿器具体加速比未给 ## 相关对照 - [[entities/microsoft-build-2026-mai-models-scout-agent|Microsoft Build 2026]] —— 大厂云端模型(MAI-Thinking-1) - [[entities/anolisa-v03-alibaba-agentic-os|ANOLISA v0.3]] —— 阿里 Agentic OS(可在本地跑多模态模型) - [[entities/pilotdeck-agent-os-openbmb-tsinghua|PilotDeck]] —— 多项目隔离 - [[entities/kimi-work-codex-vibe-working-paradigm-shift|Kimi Work]] —— 本地 Agent - [[entities/agent-harness-architecture|Agent Harness 架构]] —— 7 层模型 → [[raw/articles/gemma-4-12b-google-multimodal-local.md|原文存档]]