--- source: wechat source_url: http://mp.weixin.qq.com/s?__biz=MzU1MzE2NzIzMg==&mid=2247502346&idx=1&sn=b8985e0242992be3780ebe060606413c&chksm=fbf47ae5cc83f3f30335e4b265fe7547d5b86265fee9d2ce2653302b8ea4e0374684f84bb1e2#rd ingested: 2026-07-03 feed_name: 京东技术 wechat_mp_fakeid: MP_WXS_3553167232 source_published: 2026-06-22 sha256: 4d7fde34f193326469cc0740cdb1a03658fe038e5b515c1439273fc6a35867c7 --- # 全球首个!京东全栈开源JoyAI-VL-Interaction,让大模型从"一问一答"走向"边看边说" 一场火灾发生的瞬间,监控系统可以实时发出警报;独居老人在家摔倒,AI可以马上提醒远方的亲人;视障人士外出,智能眼镜随时解读附近环境、指明方向……这些看似科幻的场景,在AI时代可能很快会成为现实。 近日,京东开源实时视频视觉语言交互模型JoyAI-VL-Interaction,这也是全球首个全栈开源的interaction模型和系统,并获得vLLM-Omni的day-0原生支持。它让大模型从"一问一答"走向"边看边说",开发者基于这套框架,可以快速搭建能持续观察、自主判断、即时响应的实景AI助手。 代码:https://github.com/jd-opensource/JoyAI-VL-Interaction 模型:https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview 数据集:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction ## 三重突破 相比传统模型,JoyAI-VL-Interaction有三重突破: 1. 主动判断,而非被动回答。传统模型通常要等用户发起问题才开始处理当前画面,而JoyAI-VL-Interaction可以持续观察视频流,自主判断什么时候该说话,什么时候该沉默。比如用户设置"裁判出示红牌时提醒我",模型就会持续值守画面,并在事件发生时自动预警。 2. 实时响应,而非事后总结。传统视频理解更多是上传完整视频后再分析,而JoyAI-VL-Interaction面向正在发生的视频流,画面变化时就能响应。 3. 适时智能体委托,同时保持观察和交互。当模型遇到生成代码、调用工具、复杂推理等任务时,可以交给后台大模型或Agent。前台模型继续观察现场,后台模型处理复杂任务,结果返回后再自然接回对话。形成"前台实时助手+后台智能大脑"的协作系统。 ## 开源一套系统,而不只是一个模型 JoyAI-VL-Interaction每秒都会做一次判断,即"什么时候说话"成为模型自己学会的能力。模型会自己判断:继续观察、保持沉默、发现关键事件主动回应、遇到复杂任务交给后台Agent处理。 JoyAI-VL-Interaction支持摄像头、直播流、监控流等多种视频输入,支持语音输入输出、可视化界面、长期记忆、后台模型接口和vLLM部署方案。ASR、TTS、可视化界面、后台模型、外部工具和业务模块都可以按需替换。 ## 评测数据 在覆盖监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景中,58个真人盲评: - 对比豆包视频通话助手:总体胜率77.6% - 对比Gemini视频通话助手:总体胜率87.9% - 监控预警场景对两个基线均取得100%胜率 ## 京东AI基建布局 今年京东在模型基建方面取得多项进展: - 3月:开源基础大模型JoyAI-LLM Flash Instruct - 4月:开源图像模型JoyAI-Image-Edit - 6月3日:开源长视频生成模型JoyAI-Echo - 6月22日:开源JoyAI-VL-Interaction(实时视频交互模型) JoyAI-VL-Interaction获得了vLLM-Omni的day-0原生支持,已原生合入vLLM-Omni主线。