---
source_url: "https://mp.weixin.qq.com/s/iIJ5na1kZRS6Hks2edLZ-A"
ingested: 2026-06-26
sha256: 11bea1f86d62a9be
---
sha256: faded897c2bdf240
---
title: "视频 RAG 中分块策略：基于停顿、滑动窗口与基于 LLM 的方法"
source: wechat
source_url: https://mp.weixin.qq.com/s/iIJ5na1kZRS6Hks2edLZ-A
author: 数据派THU
feed_name: 数据派THU
original_author: Rishav Aich
original_source: DeepHub IMBA
date: 2026-06-09
created: 2026-06-09
updated: 2026-06-09
review_value: 7
review_confidence: 8
review_recommendation: worth-reading
review_stars: 4
type: article
provenance_state: extracted
tags: [video-rag, multimodal-rag, chunking-strategy, pause-based-chunking, sliding-window, llm-topic-chunking, multi-granularity-pipeline, deephub-imba]
sha256: 3fd4f11dfd7f6ca32750e9c645b9b8ca4f0fe62f6ad88165f949651ec1bc5c01
---

# 视频 RAG 中分块策略：基于停顿、滑动窗口与基于 LLM 的方法

> DeepHub IMBA 作者 Rishav Aich 原文，数据派THU 2026-06-09 17:00 翻译转发。

## 核心问题

**"这个视频整体在讲什么？"** —— 系统出现幻觉或返回泛泛的答案。检索器只看到孤立的短片段，**看不到整体**。问题不在 LLM，而在分块策略本身。

视频天然是多模态、带时间维度的交互流，包含画面切换和语音对话。不能依赖段落/换行符/固定 Token 切分。

## 三种分块策略

### 1. 基于停顿的分块 (Pause-Based Chunking)

**机制**：比较前一段结束时间与后一段开始时间间隔，超过阈值则切分。利用说话人话题切换、幻灯片切换时的**天然停顿**。

**两类结构性缺陷**：
- **块 1**：「CI/CD 把……的过程自动化」 / **块 2**：「……构建、测试和部署软件。」—— 检索只取块 1 时 LLM 收到不完整句子
- 快节奏教程视频**几乎没有停顿**，切出块要么过大要么过小

**补丁**：带重叠的滑动窗口（5 秒或若干句话重叠），保留相邻分块上下文。

**回退策略**（无明显停顿 + 音频连续时）：
1. 检查停顿 → 有则用时间边界
2. 片段无停顿 + 超过最大长度（如 200 词）→ 按句子边界切分

### 2. 基于 LLM 的主题分块 (LLM-Based Topic Chunking)

**机制**：把细粒度分块送入 LLM，让它对片段**聚类 + 摘要**，归纳出有意义的主题（生成 topic / summary / start / end / key_terms 元数据 JSON）。

**示例 JSON schema**：
```json
{
  "topic": "Introduction to CI/CD Fundamentals",
  "summary": "Covers the basic definition of CI/CD...",
  "start": 0,
  "end": 120,
  "key_terms": ["CI/CD", "deployment", "build stage"]
}
```

### 3. 复合 Pipeline (生产级 RAG 同时用)

- **细粒度分块** → 存入向量数据库，用于**具体信息检索**（时间戳、精确答案）
- **主题分块** → 用于**全局检索 + 摘要类任务**
- 端到端 pipeline：原始视频 → 停顿分块 → 滑动窗口补充 → LLM 主题聚类 → 双粒度索引

## 一句话总结

**分块不只是数据预处理的前置步骤——数据被切分的方式决定了检索系统对它的理解程度**。从简单均匀切分转向利用自然停顿 + LLM 驱动主题分段的多层多模态架构，Agent 才能拿到回答具体技术问题和宽泛主题问题所需的上下文。

## 核心论断

> 文本的 RAG 我们都已经很熟悉了，但是如果数据以原始视频转录文本的形式存储，没有合适的时间结构，那么相比标准的 PDF 或文本文档，**如何检索视频里面的内容呢**？—— 这个问题引出视频 RAG 独立子领域。