---
source: wechat
source_url: https://mp.weixin.qq.com/s/DN78uVqng8oAt3zw_in7HA
tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw]
title: "CVPR冠军代码开源：小米SVOR破解视频消除三大顽疾，连人带影一键抹除"
ingested: 2026-05-12
review_value: 7
review_confidence: 8
review_recommendation: worth-reading
sha256: 0bd15801b71abce7d5809d4c5747dac9ec1384604993f53414c5cdc7f9fc01c8
---
# CVPR冠军代码开源！小米SVOR破解视频消除三大“顽疾”，连人带影一键抹除
#####  小米大模型应用团队 投稿
量子位 | 公众号 QbitAI
视频目标消除是一个非常实用的技术：当你在美丽的风景里拍了一段视频或livephoto，而回看的时候发现画面中有不希望出现的内容  _ （比如路人)  _ ，这时景色已经变换无法再次拍摄，甚至已经离开了拍摄地点，视频消除技术可以挽救你的不完美视频。
在实际研发视频消除任务的过程中，小米大模型应用团队发现了一个普遍存在的问题：
现有的方法大多在理想条件下设计和验证，而真实世界的视频远比论文里的测试场景复杂——模型识别的掩码边缘不够准、物体消除后阴影仍然留在画面里、目标快速移动时逐帧处理频繁“跟丢”导致闪烁……这些问题让许多SOTA方法在真实使用中显得力不从心。
为此，团队提出了  ** SVOR  _ (Stable Video Object Removal)  _ 框架  ** ，专门针对这三类“不完美条件”设计了对应的解决方案：用MUSE窗口化联合策略解决运动抖动，用DA-Seg去噪感知分割提升遮罩容错能力，并通过课程式两阶段训练让模型真正学会处理阴影和反射残留。
最终，SVOR在多个标准数据集和退化遮罩基准上均达到了新的SOTA水平，并在CVPR 2026物理感知视频实例消除挑战赛中从18支参赛队伍中脱颖而出，荣获第一名。代码现已完整开源。
##  视频物体消除，到底难在哪？
先说说这个任务的痛点。
在视频编辑与内容创作中，“消除不想要的元素”一直是个高频刚需。然而，当团队将各类方法从论文迁移到真实场景时，往往会遇到重重挑战：用户随手绘制的掩码不够精细；物体虽然去掉了，影子却留了下来；目标一旦快速移动，消除区域还会出现明显的闪烁——这些“不完美”，让许多SOTA模型在实际视频面前显得力不从心。
原因是很多已有的视频消除工作都在完美条件下开展的，但问题在于，  ** 现实世界的视频哪有那么多完美条件？  **
物体在动，光线在变，阴影忽隐忽现，遮罩边缘歪歪扭扭……现有的方法要么留下残影，要么画面闪烁，要么干脆把不该删的也删了。
结合真实世界的使用场景，小米大模型应用团队总结了三类“不完美”：
如图，第一类不完美是  ** 阴影残留  ** ，即物体没了，影子还在；
第二类不完美是  ** 运动抖动  ** ，即快速移动的物体，容易漏帧；
第三类不完美是  ** 遮罩缺陷  ** ，即AI识别的边界不准，影响修复效果。
##  三大核心技术，环环相扣
SVOR的核心思路很务实：  ** 先解决不完美条件下的可用性，再追求极致效果。  **
具体来说，团队设计了三个关键技术：
###  1\.  ** MUSE：让快速运动不再漏帧  **
MUSE  _ (Mask Union for Stable Erasure)  _ ，中文可以叫”窗口化联合策略”。
它主要解决的是  ** 运动抖动  ** 问题。打个比方：如果一个物体在视频里快速移动，每一帧的位置都不一样，传统的逐帧处理很容易”跟丢”，导致物体一闪一闪的。
MUSE的做法很聪明：  ** 它不把每一帧单独看，而是看一个时间窗口内的整体情况。  **
就像你拍视频的时候，即使物体在动，你也能凭肉眼追踪它的轨迹。MUSE也是这个思路——通过时间窗口内的遮罩联合，确保快速运动的物体能被完整消除，不再出现”闪一闪又出现”的尴尬。
######  ** △  ** 使用MUSE训练和推理，可以明显改善快速运动突变帧消除失效的问题
######  ** △  ** 使用MUSE可以免训练地改善已有方法对快速运动突变帧消除失效的问题
######  ** △  ** 使用MUSE后，抖动掩码也能稳定消除
###  2\. DA-Seg：遮罩不完美？没关系
** DA-Seg  ** _ (Denoising-Aware Segmentation)  _ ，去噪感知分割。
这个模块专门对付  ** 遮罩缺陷  ** 。现实中，AI识别的物体边界往往没那么准，有点偏差是常态。
DA-Seg相当于给系统配了个“纠错机制”：即使遮罩不完美，它也能智能修正，不影响最终的修复质量。
可以理解为，它让SVOR有了  ** “容错能力”  ** 。
如图，在分割掩码有缺失的情况下，团队的方法在DA-Seg的加持下可用持续稳定的补全缺失掩码，得到更稳定的分割
######  ** △  ** DA-Seg加持，再也不怕分割有缺陷了
###  3\. 课程式两阶段训练：从理论到实战
第三个关键是训练策略。小米采用了  ** 课程式两阶段训练  ** ：
* ** 第一阶段  ** 用真实背景视频自监督预训练，让模型学习自然的时序规律
* ** 第二阶段  ** 用合成数据精调，专门处理阴影和反射
这种“先学走路再学跑步”的策略，让模型跨场景适应能力极强。
######  ** △  ** 两阶段训练，连人带影一并消除
##  性能有多强？
说再多技术细节，不如看数据。
在多个标准数据集和退化遮罩基准上，  ** SVOR都达到了新的SOTA水平。  **
更关键的是，SVOR对  ** 不完美条件  ** 的容忍度远超现有方法。这意味着它在真实场景中的可用性大大提升。
对于不同群体，SVOR的价值各不相同：
* ** 视频创作者：  ** 以后去路人、去杂物会更自然，告别“一眼假”。
* ** 开发者：  ** 代码已经开源(Apache 2.0协议)，可以直接用。
* ** 整个行业：  ** 视频修复从“实验室玩具”真正走向实用化。
而且，小米选择开源这个决策本身就很值得关注。在视频AI这个赛道，开源意味着生态共建，意味着更多创新应用会涌现出来。
团队相信，视频编辑工具的下一个突破，来自对“真实使用条件”的尊重。SVOR的开源，希望能帮助开发者、创作者和研究者，在实际应用中真正解决视频消除的落地难题。
##  CVPR视频消除大赛冠军
基于SVOR的方案在CVPR 2026物理感知视频实例消除挑战赛  _ (https://xiangbogaobarry.github.io/PVIX-CVPR-VGBE-2026/)  _ 中，从18支参赛队伍中脱颖而出，荣获  ** 第一名  ** (见结果榜单，Team name: higher)，在物理感知、人工评分和总分上大幅领先其他参赛队伍。
######  ** △  ** 结果榜单:  _ https://docs.google.com/spreadsheets/d/18qfBQesVNpHadUP_cdL6T8hPGH_cXrnJ94Z5H-zuibs  _
##  One More Thing
论文已经发布在arXiv，项目代码也已开源，  ** 甚至贴心准备好skill供大家直接调用  ** ，如果你感兴趣，可以让你的龙虾跑起来了  _ (Claude Code、OpenCode等工具同样可以直接使用)  _ 。
* _ 论文：https://arxiv.org/abs/2603.09283  _
* _ GitHub：https://github.com/xiaomi-research/svor  _
* _ Skill：https://clawhub.ai/wangfei1204/mi-visionforge-svor  _
视频物体消除的“最后一公里”问题，小米SVOR给出了自己的答案。
此外，团队在视频消除的评测方案上也做了较多工作，包括评测数据收集整理和创新性评测方法，将在合适的时间进行开源，敬请期待。
** 你最想用这项技术消除视频里的什么？  **
欢迎在评论区留言讨论。
** 一键三连  ** ** 「点赞」「转发」「小心心」  **
** 欢迎在评论区留下你的想法！  **
—  ** 完  ** —
我们正在招聘一名眼疾手快、关注AI的  ** 学术编辑实习生  ** 🎓
感兴趣的小伙伴欢迎关注 👉 [ 了解详情 ](<https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247833875&idx=1&sn=e744ebb30d66f8ced88f55cdb8fb07b6&scene=21#wechat_redirect>)
****
** **
**** 🌟 点亮星标 🌟  ** **
** 科技前沿进展每日见  **