--- source_url: "https://mp.weixin.qq.com/s/iIJ5na1kZRS6Hks2edLZ-A" ingested: 2026-06-26 sha256: 11bea1f86d62a9be --- sha256: faded897c2bdf240 --- title: "视频 RAG 中分块策略:基于停顿、滑动窗口与基于 LLM 的方法" source: wechat source_url: https://mp.weixin.qq.com/s/iIJ5na1kZRS6Hks2edLZ-A author: 数据派THU feed_name: 数据派THU original_author: Rishav Aich original_source: DeepHub IMBA date: 2026-06-09 created: 2026-06-09 updated: 2026-06-09 review_value: 7 review_confidence: 8 review_recommendation: worth-reading review_stars: 4 type: article provenance_state: extracted tags: [video-rag, multimodal-rag, chunking-strategy, pause-based-chunking, sliding-window, llm-topic-chunking, multi-granularity-pipeline, deephub-imba] sha256: 3fd4f11dfd7f6ca32750e9c645b9b8ca4f0fe62f6ad88165f949651ec1bc5c01 --- # 视频 RAG 中分块策略:基于停顿、滑动窗口与基于 LLM 的方法 > DeepHub IMBA 作者 Rishav Aich 原文,数据派THU 2026-06-09 17:00 翻译转发。 ## 核心问题 **"这个视频整体在讲什么?"** —— 系统出现幻觉或返回泛泛的答案。检索器只看到孤立的短片段,**看不到整体**。问题不在 LLM,而在分块策略本身。 视频天然是多模态、带时间维度的交互流,包含画面切换和语音对话。不能依赖段落/换行符/固定 Token 切分。 ## 三种分块策略 ### 1. 基于停顿的分块 (Pause-Based Chunking) **机制**:比较前一段结束时间与后一段开始时间间隔,超过阈值则切分。利用说话人话题切换、幻灯片切换时的**天然停顿**。 **两类结构性缺陷**: - **块 1**:「CI/CD 把……的过程自动化」 / **块 2**:「……构建、测试和部署软件。」—— 检索只取块 1 时 LLM 收到不完整句子 - 快节奏教程视频**几乎没有停顿**,切出块要么过大要么过小 **补丁**:带重叠的滑动窗口(5 秒或若干句话重叠),保留相邻分块上下文。 **回退策略**(无明显停顿 + 音频连续时): 1. 检查停顿 → 有则用时间边界 2. 片段无停顿 + 超过最大长度(如 200 词)→ 按句子边界切分 ### 2. 基于 LLM 的主题分块 (LLM-Based Topic Chunking) **机制**:把细粒度分块送入 LLM,让它对片段**聚类 + 摘要**,归纳出有意义的主题(生成 topic / summary / start / end / key_terms 元数据 JSON)。 **示例 JSON schema**: ```json { "topic": "Introduction to CI/CD Fundamentals", "summary": "Covers the basic definition of CI/CD...", "start": 0, "end": 120, "key_terms": ["CI/CD", "deployment", "build stage"] } ``` ### 3. 复合 Pipeline (生产级 RAG 同时用) - **细粒度分块** → 存入向量数据库,用于**具体信息检索**(时间戳、精确答案) - **主题分块** → 用于**全局检索 + 摘要类任务** - 端到端 pipeline:原始视频 → 停顿分块 → 滑动窗口补充 → LLM 主题聚类 → 双粒度索引 ## 一句话总结 **分块不只是数据预处理的前置步骤——数据被切分的方式决定了检索系统对它的理解程度**。从简单均匀切分转向利用自然停顿 + LLM 驱动主题分段的多层多模态架构,Agent 才能拿到回答具体技术问题和宽泛主题问题所需的上下文。 ## 核心论断 > 文本的 RAG 我们都已经很熟悉了,但是如果数据以原始视频转录文本的形式存储,没有合适的时间结构,那么相比标准的 PDF 或文本文档,**如何检索视频里面的内容呢**?—— 这个问题引出视频 RAG 独立子领域。