--- sha256: 539ffc388d4ea28c52f83cf246b9cdc95d88d803c3cb9f42d446d0ccb468ab80 source: "https://mp.weixin.qq.com/s/i4X6rTw55E_q4F114jJiPg" title: "5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队" author: 梦瑶 闻乐 publisher: 量子位 QbitAI date: 2026-06-07 type: article ingested: 2026-06-07 review_value: 8 review_confidence: 8 review_recommendation: strong review_stars: 4 --- # 5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队 > 作者:梦瑶 闻乐(量子位 QbitAI) · 发布:2026-06-07 AIGC 发展到今天,生成几秒钟的 AI 视频真的已经不算新鲜事儿了。但难的地方在于,让同一个角色在几分钟里始终保持一致——多镜头切换,脸可能变了,换场景,衣服发型开始漂;人物开口,音色前后接不上。 问题不在模型「不会造梦」,而在于它很难「记住」这个梦。也正因如此,**长视频生成**迟迟未能进入全行业的生产流程,更别说大规模商业化。 在长视频生成集体卡壳的当下,京东开源长音视频生成框架 **JoyAI-Echo** 杀入全球长视频生成领域「第一梯队」,把长视频创作里**角色一致性、音色稳定性、生成速度**和**画面质量**等生成痛点一把梭哈。 ## 三层技术栈:记忆 + 后训练 + 超分 ### 1. 跨模态音视频记忆库:角色再也不"变脸" **问题根源**:现有模型缺乏真正意义上的长期记忆能力。行业里传统方案通常依赖上下文窗口保存历史信息,但随着视频长度增加,早期内容会逐渐被后续信息稀释。 **JoyAI-Echo 做法**:直接在框架里塞进了一套**「跨模态音视频记忆库」**——记录的不只是人物长相,还会同步记录说话人的音色,并将两者绑定在一起。 - 当角色首次登场时,系统会提取其视觉特征和声音特征写入记忆库 - 后续每生成一个镜头,都会从记忆库中调取这些信息作为参考 - 兼顾效果和效率:保留故事开头的关键镜头 + 最近生成的镜头(**不无限扩展记忆**) - 5 分钟视频,角色的身份、外观和声音依然保持高度一致 **核心思想**:不是让模型拥有更大的记忆力,而是让模型学会**像人一样记忆**——只保留最重要的信息,并在需要的时候准确调用。 ### 2. 记忆驱动后训练:速度提升 7.5 倍 整个流程主要分为三步: 1. **SFT 监督微调**:让模型学习高质量音视频生成能力 2. **人类反馈强化学习(RLHF)**:进一步优化人物一致性、画面质量以及音画同步效果 3. **DMD(Distribution Matching Distillation)**:将复杂的大模型能力压缩到更高效的推理模型中 **DMD 是最关键的一环**——仅 DMD 相关优化就带来了约 **7.5 倍**的推理速度提升。 **DMD 工作机制**: - 让一个能力更强、但推理速度较慢的教师模型完成完整生成流程 - 让一个更轻量的学生模型去学习和复现教师模型的生成结果 - 原本需要大量扩散步骤才能完成的生成任务,被压缩成更少的推理步骤 **"跨模态音视频记忆库"解决的是"不要忘","记忆驱动后训练"解决的是"别太慢"**——两者结合,让 JoyAI-Echo 真正具备了迈向长视频生产工具的基础能力。 ### 3. 轻量化实时超分:高清输出不卡顿 **行业问题**:当前业内通常采用"视频生成+离线超分"两阶段架构——视频先生成,再交给独立超分模型处理。这种方案虽然也能提高分辨率,但**额外引入了一轮推理流程**,不仅增加等待时间,还容易造成生成结果和超分结果的偏差。 **JoyAI-Echo 创新**:把超分能力**直接塞进生成链路里**——系统先生成 720P 视频和对应音频,再通过轻量化实时超分模块**一步完成高清视频和音频细节增强**。 - 整个超分过程只需要**一次向前推理** - 直接输出 1K 甚至 2K 分辨率结果 - 画面细节更丰富,音频质量也同步优化 - 不会明显增加生成延迟 ## Director Agent:AI 视频导演搭子 现实中的影视制作从来不是一次完成的。过去 AI 视频生成大多停留在一次性出片阶段,从剧本、分镜到拍摄、审片,再到返工和重拍,每一个环节都需要反复打磨。**如果其中某个镜头出现问题,创作者往往只能重新生成整条视频**。 JoyAI-Echo 给视频模型配了一位「AI 导演」——**Director Agent**,整个技术链路拆成**三阶段**: ### 策划阶段:「编剧兼导演」 - 理解用户意图 - 将一句自然语言需求扩展成完整的故事框架 - 补充角色设定、场景信息和叙事逻辑 - 进一步拆解为镜头级规划 - 生成符合模型训练格式的结构化条件 ### 生成阶段:「现场导演」 - 根据当前镜头内容,从已经生成的历史镜头中**检索最相关的信息** - 将参考内容与当前剧本状态一起整理成模型需要的输入条件 - 让生成模型能够准确调用角色、场景和剧情上下文 ### 点评修改阶段:「审片环节」 - 用户反馈或自动评价模型发现问题 - 快速定位到具体镜头 - 重新调整对应条件和记忆信息 - **Agent 只对受影响的部分进行重生成,而不需要推倒重来** - 修改后的结果同步更新到后续剧情中,确保整个故事始终保持连贯一致 ## 评测结果:杀入全球第一梯队 ### 用户盲测(长视频任务) | 指标 | JoyAI-Echo | 备注 | |------|-----------|------| | 视频画面偏好 | **63.6%** | 用户盲测 | | 音频质量偏好 | **81.7%** | 优势最大维度 | | 提示词遵循偏好 | **80.6%** | | | IP 一致性偏好 | **59.4%** | | ### 人像短视频赛道(与主流视频模型对比) - 视觉美学用户偏好:**58.8% vs 26.5%**(直接翻倍) ### 关键指标 - **语音准确率:0.8646**(全面领先行业) - 跨镜头一致性:行业领先 - 长视频任务:与代表性长视频模型对比,用户 63.6% 偏好 JoyAI-Echo ## 开源意义 与许多闭源模型不同,JoyAI-Echo 选择了「开源」——这意味着长视频生成不再只是少数头部公司的专属能力,而开始成为一个能够被开发者、创作者和研究者共同验证、调用和迭代的开放工具。 **应用场景**:虚拟 IP 故事、数字人内容、品牌营销视频、教育课件、知识讲解、游戏动画、互动剧情——**高一致性、可控、可迭代的长视频生产**都能够成为可能。 ## 上线信息 - **GitHub**:https://github.com/jd-opensource/JoyAI-Echo - **项目主页**:https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/ - **发布方**:京东(jd-opensource 组织) - **定位**:长视频生成"全球第一梯队"