--- title: "CVPR 2026 Highlight|让AI像电影人一样「看」视频,8B小模型反超GPT-5与Gemini-3.1-Pro" type: source source: wechat source_url: https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw] review_value: 8 review_confidence: 8 review_recommendation: strong review_stars: 4 created: 2026-05-16 updated: 2026-05-16 sha256: c67742d25f6dc9d5f26dc2739f7e63a49f09e6de11463d7c524e8c13a777c7e8 --- --- source: wechat source_url: https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA ingested: 2026-05-15 feed_name: 机器之心 wechat_mp_fakeid: MP_WXS_3073282833 source_published: 2026-05-08 --- # CVPR 2026 Highlight|让AI像电影人一样「看」视频,8B小模型反超GPT-5与Gemini-3.1-Pro 团队一作林之秋(Zhiqiu Lin)是卡内基梅隆大学(CMU)机器人研究所的博士,研究方向涵盖视觉 - 语言大模型的评估、数据与生成;前作 CameraBench 曾获 NeurIPS’25 Spotlight(Top 3%)。二作 Chancharik Mitra 即将前往麻省理工学院(MIT)攻读博士,专注于多模态大模型。本工作由 CMU 与哈佛大学合作完成。 先来做一个小实验:把希区柯克变焦(dolly zoom)、拉焦(rack focus)、荷兰角(Dutch angle)或变速剪辑(speed ramp)这几个词,输入到大部分主流视频生成器里。结果几乎都一样,你只会得到一个普通的推镜,或一段平庸的慢动作。 原因很简单:这些技法对应着电影人之间通用的一套「 镜头语言 」,而当前的视觉 - 语言大模型几乎听不懂。 已关注 __ 关注 __ 重播 __ 分享 __ 赞 关闭 __ **观看更多** 更多 __ __ __ __ _退出全屏_ [ __ ](<>) _切换到竖屏全屏_ _退出全屏_ 机器之心 已关注 [ __ ](<>) 分享视频 __ ,时长 00:05 0 / 0 00:00 / 00:05 切换到横屏模式 继续播放 进度条,百分之0 __ [ 播放 ](<>) 00:00 / 00:05 00:05 _全屏_ __ 倍速播放中 [ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>) [ 超清 ](<>) [ 流畅 ](<>) 您的浏览器不支持 video 标签 __ 继续观看 CVPR 2026 Highlight|让AI像电影人一样「看」视频,8B小模型反超GPT-5与Gemini-3.1-Pro 观看更多 __ 转载 , CVPR 2026 Highlight|让AI像电影人一样「看」视频,8B小模型反超GPT-5与Gemini-3.1-Pro __ 机器之心 已关注 分享 点赞 在看 __ __ 已同步到看一看 [ 写下你的评论 ](<>) __ [ 视频详情 ](<>) 近日,由 CMU 联合哈佛大学组成的研究团队推出了 CHAI(Critique-based Human-AI Oversight) ,一整套从「标注体系」「可扩展监督」到「后训练方法」再到「视频生成」的完整方案。该工作已被 CVPR 2026 接收为 Highlight 论文(Top 3%) 。 * 📄 论文链接:https://arxiv.org/abs/2604.21718 * 💻 代码:https://github.com/chancharikmitra/CHAI 图 1:CHAI 的整体方案。上半(红)是过往视频字幕工作的三大短板:缺乏统一规范、仅用人类或模型标注、仅凭输出对比做后训练;下半(蓝)是 CHAI 的对应方案:精准的结构化规范、可扩展的人机监督、基于显式偏好与批改的后训练,最终反哺出更专业的视频生成。 概述:CHAI 的四块拼图 CHAI 不是一个单独的模型,而是一整套面向 精准视频语言 的落地方案,由四块拼图组成: 1. 标注体系(Specification) :覆盖主体、场景、动作、空间构图和移动、镜头参数和运动 5 大维度,由 200+ 个与职业摄影师共同设计的视觉基元支撑。 2. 可扩展监督(Scalable Oversight) :让 LLM 起草字幕,由人类专家给出批改(critique),指出错误并提供修正,再交由 AI 改写。这一过程让 AI 负责写作,人类专注纠错,各司其长。 3. 后训练方法(Post-Training) :基于(初稿,批改,终稿),同时训练字幕、奖励模型与批改模型。团队训练的 Qwen3-VL-8B 开源小模型得以反超闭源的 Gemini-3.1-Pro 与 GPT-5。 4. 更好的视频生成(Better Generation) :用后训练好的模型重新对专业视频打字幕,再微调 Wan2.2,使其能听懂长达 400 英文词的电影级指令,精准生成希区柯克变焦、拉焦、荷兰角、变速、等距视角等专业摄影技法。 一、标注体系:把电影人的镜头语言写下来 过去的视频文本数据集(如 ActivityNet、MSR-VTT、PerceptionLM)由于缺乏字幕规范,常见问题包括:混淆 dolly-in(推轨)与 zoom-in(变焦),遗漏关键相机与变焦细节,用「 氛围感足」「 让人热血沸腾」等主观描述代替客观视觉内容。 电影人以及更广泛的视频创作者则没有这个问题。他们用拉焦(rack focus)、荷兰角(Dutch angle)、中景(medium full shot)这样的专业术语在片场与团队实现了精准的沟通、协作。 CHAI 正是把这套影视行业内的通用词汇整理成了一套清晰的标注体系 。 图 2:与 100+ 位职业视频创作者历时一年共建的标注体系。左(红):过往数据集的三类典型问题,包括术语含混、信息缺失、主观描述;右(蓝):CHAI 的结构化标注体系及配套的标注规则与教程。 CHAI 的字幕标注覆盖 5 大维度: * 🧑 主体(Subject) :类型、外观、姿态、主体关系等 * 🏞️ 场景(Scene) :视角、叠加元素、环境、时间等 * 🏃 动作(Motion) :动作行为、人物互动、群体动态等 * 📐 空间构图和移动(Spatial) :景别、画面位置、纵深、空间运动等 * 🎥 镜头参数和运动(Camera) :机位高度、角度、焦距、聚焦、稳定度、运动轨迹等 图 3:CHAI 的视频语言分类体系:各一级维度进一步细分为多个子维度,并由 200 余个视觉与运动基元支撑,实现对视频内容的精细化表达。 二、可扩展监督:AI 起草,人类批改 规范告诉你「描述什么」,但「 谁来写 」仍是个问题。 人类亲手写的字幕常见问题有:错别字、语法错误、事件顺序混乱。模型写的字幕:行文流畅,却经常凭空捏造画面里没有的物体和动作(模型幻觉)。 CHAI 的核心思路是可扩展监督(Scalable Oversight):让模型负责写作,让人类专注发现字幕中的视觉与动作错误,各司其长 。 CHAI 的标注流程由此被重新设计为「 AI— 专家 —AI」的 三段式协作 :模型先按既定规范生成一份覆盖全面的「 pre-caption」初稿,专家随后在初稿基础上指出错误并提出修改建议(critique),无需从零撰写字幕;模型再依据专家的批改意见进行改写,生成准确的「 post-caption」终稿。 同时,CHAI 引入同行评审奖励机制:标注越准确,奖励越高;审核纠错同样有奖励。这一举措显著提升了标注的质量。 图 4:左(红):传统纯人工或纯模型标注的三类问题,包括视觉幻觉、行文糟糕、细节不准;右(蓝):CHAI 的可扩展监督框架。AI 基于基元生成初稿(pre-caption),人类用批改(critique)把幻觉与细节错误指出来,再由 AI 生成终稿(post-caption);标注员与审核员之间则通过同行评审奖励机制相互制衡。 把标注员工作重心从「写作」转向「校对」,他们对单个视频的认知负担得以显著降低,却能产出准确度更高的 200–400 词长字幕。 三、后训练效果:8B 小模型反超 GPT-5 与 Gemini-3.1-Pro CHAI 流水线产出的不只是字幕,而是( pre-caption, critique, post-caption )三元组:一份数据,同时可以训练三种模型能力,包括字幕生成、奖励建模、批改生成。 CHAI 团队发现: 批改的质量,决定了模型能力 。 图 5:一条好的批改必须同时满足三个属性:准确(precision)、完整(recall)、有建设性(constructive)。CHAI 的标注机制通过强制标注员撰写高质量批改,直接指导模型改写,自然实现了这三点。 为了证明这一点,团队做了一组对比实验:分别削弱批改的某一项属性,观察对下游任务的影响。 研究得出三项关键结论。其一,在模型训练时加入奖励(reward)和批改(critique)的数据能够显著提升 SFT 与 RL 的效果,仅 8B 参数的 Qwen3-VL 经过后训练,便在多项关键评测上反超闭源的 Gemini-3.1-Pro 与 GPT-5。其二,批改质量是真正的瓶颈所在,准确性、完整性、和建设性三者缺一不可;然而过往工作(如 OpenAI GDC、MM-RLHF)所收集的批改样本中,超过 50% 属于非建设性反馈。其三,推理时扩展(Inference-Time Scaling)同样适用于这一框架,以同一份奖励模型进行 best-of-N 选择,无需新增数据,性能即可持续提升。 四、更准的理解 → 更好的生成 视频字幕做得更准之后,最直接的下游应用就是 视频生成 。 研究团队用后训练好的字幕模型,重新对大规模专业视频(电影、广告、MV、游戏画面)进行打标,再以这些数据微调 Wan2.2。结果:模型可以听懂长达 400 词的电影级指令,对那些开源生成器(Wan2.2)普遍翻车的技法实现精准生成。 图 6:在重新打标的专业视频上微调后,Wan2.2 对详细的电影级指令显著更忠实,可以精准执行希区柯克变焦(上)、保持 2.5D 等距视角(下)等过往视频模型频繁失败的复杂技法。 下面是更多团队展示的「电影技法」生成样例: 已关注 __ 关注 __ 重播 __ 分享 __ 赞 关闭 __ **观看更多** 更多 __ __ __ __ _退出全屏_ [ __ ](<>) _切换到竖屏全屏_ _退出全屏_ 机器之心 已关注 [ __ ](<>) 分享视频 __ ,时长 00:05 0 / 0 00:00 / 00:05 切换到横屏模式 继续播放 进度条,百分之0 __ [ 播放 ](<>) 00:00 / 00:05 00:05 _全屏_ __ 倍速播放中 [ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>) [ 超清 ](<>) [ 流畅 ](<>) 您的浏览器不支持 video 标签 __ 继续观看 CVPR 2026 Highlight|让AI像电影人一样「看」视频,8B小模型反超GPT-5与Gemini-3.1-Pro 观看更多 __ 转载 , CVPR 2026 Highlight|让AI像电影人一样「看」视频,8B小模型反超GPT-5与Gemini-3.1-Pro __ 机器之心 已关注 分享 点赞 在看 __ __ 已同步到看一看 [ 写下你的评论 ](<>) __ [ 视频详情 ](<>) 荷兰角(Dutch Angle) 画面地平线倾斜 已关注 __ 关注 __ 重播 __ 分享 __ 赞 关闭 __ **观看更多** 更多 __ __ __ __ _退出全屏_ [ __ ](<>) _切换到竖屏全屏_ _退出全屏_ 机器之心 已关注 [ __ ](<>) 分享视频 __ ,时长 00:05 0 / 0 00:00 / 00:05 切换到横屏模式 继续播放 进度条,百分之0 __ [ 播放 ](<>) 00:00 / 00:05 00:05 _全屏_ __ 倍速播放中 [ 0.5倍 ](<>) [ 0.75倍 ](<>) [ 1.0倍 ](<>) [ 1.5倍 ](<>) [ 2.0倍 ](<>) [ 超清 ](<>) [ 流畅 ](<>) 您的浏览器不支持 video 标签 __ 继续观看 CVPR 2026 Highlight|让AI像电影人一样「看」视频,8B小模型反超GPT-5与Gemini-3.1-Pro 观看更多 __ 转载 , CVPR 2026 Highlight|让AI像电影人一样「看」视频,8B小模型反超GPT-5与Gemini-3.1-Pro __ 机器之心 已关注 分享 点赞 在看 __ __ 已同步到看一看 [ 写下你的评论 ](<>) __ [ 视频详情 ](<>) 拉焦(Rack Focus) 焦点在不同平面切换 为什么不用众包?为什么过去的标注总是失败? 在请来职业创作者之前,团队也尝试过众包工人。结果?众包标注员仍然分不清 推轨(dolly-in)与 变焦 (zoom-in)、把全景镜头(full shot)叫成 特写(close-up shot)、把鱼眼镜头(fisheye lens)造成的建筑物变形描述成「圆形的建筑」。 图 7:众包标注员描述常见镜头技法时的典型错误。把鸟瞰镜头叫「鸟瞰视图」、把鱼眼镜头看作「圆形建筑」、把推焦镜头描述为「推轨镜头」等,反映出他们缺乏对镜头语言的基本视觉词汇。 为进一步验证这一判断,团队系统评估了 2016 至 2025 年间发布的 8 个公开视频 - 文本数据集(包括 MSR-VTT、PerceptionLM、Dream1K 等),结果指向两类反复出现的问题。其一源于标注规则缺失,术语含混、关键信息缺失;其二源于监督不足,导致行文混乱与细节失真。无论扩大模型规模还是增加数据体量,都难以解决,根本问题在于流程,必须从数据标注源头入手。这一发现直接促成了 CHAI 团队和 100+ 位职业视频创作者的长期合作。 写在最后:开源生态 为了支持后续研究与产业落地,CHAI 团队完整开源了:标注体系、培训教材、标注平台、质控流程、数据、代码与模型。 🌐 项目主页:https://linzhiqiu.github.io/papers/chai/ CHAI 是该 CMU 团队「 精准视频语言」研究计划中的一环。同期推进的还有两项工作:CameraBench(NeurIPS'25 Spotlight,入选率前 3%)作为相机运动理解的前作基准,包含约 3000 个专家标注视频、一套完整的运动基元分类体系,以及对 SfM 与 VLM 方法的系统性评测;Moodio 与 CameraBench-Pro(2026 年 5 月发布)则在此基础上更进一步,基于 225 个电影级基元与 150 万余条专业标注,面向专业视频制作场景打造 AI 协作工具。 © THE END 转载请联系本公众号获得授权 投稿或寻求报道:liyazhou@jiqizhixin.com