--- title: "Google出手统一全模态检索:Gemini Embedding 2把文本、图片、音频和视频压进同一向量空间" source: wechat source_url: https://mp.weixin.qq.com/s/oZnzy6QxriNclm-UTGh7VQ author: Hyman的杂货铺 feed_name: Hyman的杂货铺 review_value: 8 review_confidence: 8 review_recommendation: strong review_stars: 4 date: 2026-05-28 created: 2026-05-28 updated: 2026-05-28 tags: [gemini, embedding, multimodal, vector-search, rag, text-image-audio-video, google, deepmind, model-soup] type: article provenance_state: synthesized sha256: 04f57b8a690ee3bf57e5965a05fa4e5445949dc692d31604aedc387f7a88cc09 --- # Google出手统一全模态检索:Gemini Embedding 2把文本、图片、音频和视频压进同一向量空间 > **来源**:Hyman的杂货铺,2026年5月28日 > **背景**:Google DeepMind 论文《Gemini Embedding 2: Generalist Multimodal Embedding Models》,arXiv 2605.27295,把文本/图片/音频/视频及混合输入映射到同一 3072 维向量空间。 ## 一句话 Google 做了个原生多模态 embedding 模型,把文本、图片、音频、视频及混合输入统一压到同一向量空间,在 MSCOCO R@1=62.9、Vatex NDCG@10=68.8、MTEB 多语言均分=69.9、MTEB Code=84.0 等基准上达到 SOTA。 ## 为什么这件事重要 过去每个模态单独配一套 encoder:文本一套模型、图文检索一套模型、语音先 ASR 再 embedding、视频还要额外抽帧。 Gemini Embedding 2 盯住的是:**一个模型原生处理多模态输入,减少中间模态转换,统一向量空间用于召回/聚类/分类/排序**。 ## 模型架构 1. **从 Gemini 初始化**:建立在 Gemini 多模态理解能力之上 2. **原生格式转换**:文本/图像/视频/音频直接进 Gemini 输入接口,不再额外预处理 3. **双向 Transformer**:关键点——生成模型是单向注意力,embedding 需要双向上下文看完整输入 4. **Mean Pooling + 线性投影**:输出 3072 维向量,支持 Matryoshka Representation Learning(优化前 768/1536 维) ## 训练配方(两阶段) | 阶段 | 内容 | 特点 | |------|------|------| | **Pre-Fine-Tuning (PFT)** | 图片、文本、代码任务,大 batch 训练抗噪声 | 把模型从「偏生成」往「偏编码」拉 | | **Fine-Tuning (FT)** | 文本/代码/文档/图片/音频/视频,带 hard negative | 往真正的多模态统一空间精修 | **目标函数**:NCE 风格对比学习,batch 内负例 **两个工程细节**: - 文本任务字符串随机丢弃:避免过度依赖 prompt 提示,提升跨模态鲁棒性 - **Model Soup**:权重平均多任务训练结果,对冲跷跷板效应 ## 关键实验结果 ### 多模态检索 | 任务 | 指标 | 数值 | |------|------|------| | 图像到图像检索 | GUIEC R@1 | 79.4 | | 文本到图像 | MSCOCO R@1 | 62.9 | | 文本到图像 | Flickr30k | 89.1 | | 文本到视频 | Vatex NDCG@10 | 68.8 | | 文档检索 | ViDoRe V2 NDCG@10 | 64.9 | ### 文本能力没有塌掉 | 任务 | 指标 | |------|------| | MTEB Multilingual task mean | 69.9 | | MTEB Code | 84.0 | | CoIR | 82.3 | **多模态扩展没有拖垮文本能力,反而让它更强**。 ### 原生音频 vs ASR 流水线 | 方法 | MRR@10 | |------|--------| | 原生音频 | 73.99 | | ASR 再 embedding | 70.40 | **跨语种差距更大**:原生 72.56 vs ASR 67.55(差 5 个点)。ASR 过早做离散决定,一落错就失去原始声学线索。 ### 专业领域泛化 | 领域 | R@5 | |------|-----| | MicroVQA(显微/生物) | 79.3 | | ArtCap(艺术) | 67.7 | | AstroLLaVA(天文) | 64.4 | | Recipe1M 食材检索 | 90.2 | **曲线平——说明学到了通用的跨模态对齐能力,不是某类专项**。 ## 合成数据与 model soup - **合成数据**:用 Gemini 生成高质量代码检索训练数据,MTEB Code 相对上一代提升 15.8 个点 - **Model soup**:视频任务加领域数据微调后,MSR-VTT 从 68.2→76.1,Vatex 从 69.2→79.5,但 YouCook2 轻微掉到 55.3——多任务典型跷跷板效应。参数平均后比直接微调更稳。 ## 对 RAG/搜索/推荐的意义 **RAG**:知识源可以更杂——图片、PDF、音频、视频不再必须先转文本,原始内容信息有机会保住。 **搜索**:统一向量空间让跨模态召回更容易——文本搜视频、截图搜文档、图文混合查询。 **推荐**:item 表示更完整——短视频/封面图/字幕/配音/评论摘要可以统一到同一 embedding 空间。 ## 局限 1. 论文展示的是统一 embedding 底座,但索引更新、长视频切片、超长文档分页、权限隔离等工程问题还得自己扛 2. 还没走到完整 agent 工作流——离端到端 agent 还隔着编排、工具调用、反馈学习 3. 数据治理问题不会因模型变强而自动解决 ## 一句话总结 Gemini Embedding 2 真正往前推的工程方向:**用一个统一向量空间接住文本/图片/音频/视频和混合输入,把检索系统里原本四分五裂的前处理链路往回收**。 --- *论文:arXiv 2605.27295*