---
sha256: 539ffc388d4ea28c52f83cf246b9cdc95d88d803c3cb9f42d446d0ccb468ab80
source: "https://mp.weixin.qq.com/s/i4X6rTw55E_q4F114jJiPg"
title: "5分钟AI长视频不翻车！国产开源框架杀到全球第一梯队"
author: 梦瑶 闻乐
publisher: 量子位 QbitAI
date: 2026-06-07
type: article
ingested: 2026-06-07
review_value: 8
review_confidence: 8
review_recommendation: strong
review_stars: 4
---

# 5分钟AI长视频不翻车！国产开源框架杀到全球第一梯队

> 作者：梦瑶 闻乐（量子位 QbitAI） · 发布：2026-06-07

AIGC 发展到今天，生成几秒钟的 AI 视频真的已经不算新鲜事儿了。但难的地方在于，让同一个角色在几分钟里始终保持一致——多镜头切换，脸可能变了，换场景，衣服发型开始漂；人物开口，音色前后接不上。

问题不在模型「不会造梦」，而在于它很难「记住」这个梦。也正因如此，**长视频生成**迟迟未能进入全行业的生产流程，更别说大规模商业化。

在长视频生成集体卡壳的当下，京东开源长音视频生成框架 **JoyAI-Echo** 杀入全球长视频生成领域「第一梯队」，把长视频创作里**角色一致性、音色稳定性、生成速度**和**画面质量**等生成痛点一把梭哈。

## 三层技术栈：记忆 + 后训练 + 超分

### 1. 跨模态音视频记忆库：角色再也不"变脸"

**问题根源**：现有模型缺乏真正意义上的长期记忆能力。行业里传统方案通常依赖上下文窗口保存历史信息，但随着视频长度增加，早期内容会逐渐被后续信息稀释。

**JoyAI-Echo 做法**：直接在框架里塞进了一套**「跨模态音视频记忆库」**——记录的不只是人物长相，还会同步记录说话人的音色，并将两者绑定在一起。

- 当角色首次登场时，系统会提取其视觉特征和声音特征写入记忆库
- 后续每生成一个镜头，都会从记忆库中调取这些信息作为参考
- 兼顾效果和效率：保留故事开头的关键镜头 + 最近生成的镜头（**不无限扩展记忆**）
- 5 分钟视频，角色的身份、外观和声音依然保持高度一致

**核心思想**：不是让模型拥有更大的记忆力，而是让模型学会**像人一样记忆**——只保留最重要的信息，并在需要的时候准确调用。

### 2. 记忆驱动后训练：速度提升 7.5 倍

整个流程主要分为三步：

1. **SFT 监督微调**：让模型学习高质量音视频生成能力
2. **人类反馈强化学习（RLHF）**：进一步优化人物一致性、画面质量以及音画同步效果
3. **DMD（Distribution Matching Distillation）**：将复杂的大模型能力压缩到更高效的推理模型中

**DMD 是最关键的一环**——仅 DMD 相关优化就带来了约 **7.5 倍**的推理速度提升。

**DMD 工作机制**：
- 让一个能力更强、但推理速度较慢的教师模型完成完整生成流程
- 让一个更轻量的学生模型去学习和复现教师模型的生成结果
- 原本需要大量扩散步骤才能完成的生成任务，被压缩成更少的推理步骤

**"跨模态音视频记忆库"解决的是"不要忘"，"记忆驱动后训练"解决的是"别太慢"**——两者结合，让 JoyAI-Echo 真正具备了迈向长视频生产工具的基础能力。

### 3. 轻量化实时超分：高清输出不卡顿

**行业问题**：当前业内通常采用"视频生成+离线超分"两阶段架构——视频先生成，再交给独立超分模型处理。这种方案虽然也能提高分辨率，但**额外引入了一轮推理流程**，不仅增加等待时间，还容易造成生成结果和超分结果的偏差。

**JoyAI-Echo 创新**：把超分能力**直接塞进生成链路里**——系统先生成 720P 视频和对应音频，再通过轻量化实时超分模块**一步完成高清视频和音频细节增强**。

- 整个超分过程只需要**一次向前推理**
- 直接输出 1K 甚至 2K 分辨率结果
- 画面细节更丰富，音频质量也同步优化
- 不会明显增加生成延迟

## Director Agent：AI 视频导演搭子

现实中的影视制作从来不是一次完成的。过去 AI 视频生成大多停留在一次性出片阶段，从剧本、分镜到拍摄、审片，再到返工和重拍，每一个环节都需要反复打磨。**如果其中某个镜头出现问题，创作者往往只能重新生成整条视频**。

JoyAI-Echo 给视频模型配了一位「AI 导演」——**Director Agent**，整个技术链路拆成**三阶段**：

### 策划阶段：「编剧兼导演」

- 理解用户意图
- 将一句自然语言需求扩展成完整的故事框架
- 补充角色设定、场景信息和叙事逻辑
- 进一步拆解为镜头级规划
- 生成符合模型训练格式的结构化条件

### 生成阶段：「现场导演」

- 根据当前镜头内容，从已经生成的历史镜头中**检索最相关的信息**
- 将参考内容与当前剧本状态一起整理成模型需要的输入条件
- 让生成模型能够准确调用角色、场景和剧情上下文

### 点评修改阶段：「审片环节」

- 用户反馈或自动评价模型发现问题
- 快速定位到具体镜头
- 重新调整对应条件和记忆信息
- **Agent 只对受影响的部分进行重生成，而不需要推倒重来**
- 修改后的结果同步更新到后续剧情中，确保整个故事始终保持连贯一致

## 评测结果：杀入全球第一梯队

### 用户盲测（长视频任务）

| 指标 | JoyAI-Echo | 备注 |
|------|-----------|------|
| 视频画面偏好 | **63.6%** | 用户盲测 |
| 音频质量偏好 | **81.7%** | 优势最大维度 |
| 提示词遵循偏好 | **80.6%** | |
| IP 一致性偏好 | **59.4%** | |

### 人像短视频赛道（与主流视频模型对比）

- 视觉美学用户偏好：**58.8% vs 26.5%**（直接翻倍）

### 关键指标

- **语音准确率：0.8646**（全面领先行业）
- 跨镜头一致性：行业领先
- 长视频任务：与代表性长视频模型对比，用户 63.6% 偏好 JoyAI-Echo

## 开源意义

与许多闭源模型不同，JoyAI-Echo 选择了「开源」——这意味着长视频生成不再只是少数头部公司的专属能力，而开始成为一个能够被开发者、创作者和研究者共同验证、调用和迭代的开放工具。

**应用场景**：虚拟 IP 故事、数字人内容、品牌营销视频、教育课件、知识讲解、游戏动画、互动剧情——**高一致性、可控、可迭代的长视频生产**都能够成为可能。

## 上线信息

- **GitHub**：https://github.com/jd-opensource/JoyAI-Echo
- **项目主页**：https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/
- **发布方**：京东（jd-opensource 组织）
- **定位**：长视频生成"全球第一梯队"