---
source: newsletter
source_url: https://arxiv.org/abs/2606.17030
ingested: 2026-06-18
sha256: 6984b09805e324aaa4876777b282bec2727a197d47f16a5cc072e5ef55c34d8d
---


Published Time: Wed, 17 Jun 2026 01:07:18 GMT

Markdown Content:
Authors:[Jie Zhang](https://arxiv.org/search/cs?searchtype=author&query=Zhang,+J), [Xiaoyue Chen](https://arxiv.org/search/cs?searchtype=author&query=Chen,+X), [Anzhe Chen](https://arxiv.org/search/cs?searchtype=author&query=Chen,+A), [Deqing Li](https://arxiv.org/search/cs?searchtype=author&query=Li,+D), [Gengze Zhou](https://arxiv.org/search/cs?searchtype=author&query=Zhou,+G), [Hale Yin](https://arxiv.org/search/cs?searchtype=author&query=Yin,+H), [Haoqi Yuan](https://arxiv.org/search/cs?searchtype=author&query=Yuan,+H), [Haoyang Li](https://arxiv.org/search/cs?searchtype=author&query=Li,+H), [Jiahao Li](https://arxiv.org/search/cs?searchtype=author&query=Li,+J), [Jiazhao Zhang](https://arxiv.org/search/cs?searchtype=author&query=Zhang,+J), [Jingren Zhou](https://arxiv.org/search/cs?searchtype=author&query=Zhou,+J), [Kaiyuan Gao](https://arxiv.org/search/cs?searchtype=author&query=Gao,+K), [Kun Yan](https://arxiv.org/search/cs?searchtype=author&query=Yan,+K), [Lihan Jiang](https://arxiv.org/search/cs?searchtype=author&query=Jiang,+L), [Ningyuan Tang](https://arxiv.org/search/cs?searchtype=author&query=Tang,+N), [Pei Lin](https://arxiv.org/search/cs?searchtype=author&query=Lin,+P), [Qihang Peng](https://arxiv.org/search/cs?searchtype=author&query=Peng,+Q), [Shengming Yin](https://arxiv.org/search/cs?searchtype=author&query=Yin,+S), [Tianhe Wu](https://arxiv.org/search/cs?searchtype=author&query=Wu,+T), [Tianyi Yan](https://arxiv.org/search/cs?searchtype=author&query=Yan,+T), [Xiao Xu](https://arxiv.org/search/cs?searchtype=author&query=Xu,+X), [Yan Shu](https://arxiv.org/search/cs?searchtype=author&query=Shu,+Y), [Yanran Zhang](https://arxiv.org/search/cs?searchtype=author&query=Zhang,+Y), [Ye Wang](https://arxiv.org/search/cs?searchtype=author&query=Wang,+Y), [Yi Wang](https://arxiv.org/search/cs?searchtype=author&query=Wang,+Y), [Yilei Chen](https://arxiv.org/search/cs?searchtype=author&query=Chen,+Y), [Yixian Xu](https://arxiv.org/search/cs?searchtype=author&query=Xu,+Y), [Yiyang Huang](https://arxiv.org/search/cs?searchtype=author&query=Huang,+Y), [Yuxiang Chen](https://arxiv.org/search/cs?searchtype=author&query=Chen,+Y), [Zekai Zhang](https://arxiv.org/search/cs?searchtype=author&query=Zhang,+Z), [Zhendong Wang](https://arxiv.org/search/cs?searchtype=author&query=Wang,+Z), [Zixing Lei](https://arxiv.org/search/cs?searchtype=author&query=Lei,+Z), [Zhixuan Liang](https://arxiv.org/search/cs?searchtype=author&query=Liang,+Z), [Zihao Liu](https://arxiv.org/search/cs?searchtype=author&query=Liu,+Z), [Zikai Zhou](https://arxiv.org/search/cs?searchtype=author&query=Zhou,+Z), [Chenxu Lv](https://arxiv.org/search/cs?searchtype=author&query=Lv,+C), [Xiong-Hui Chen](https://arxiv.org/search/cs?searchtype=author&query=Chen,+X), [Chenfei Wu](https://arxiv.org/search/cs?searchtype=author&query=Wu,+C)

[View PDF](https://arxiv.org/pdf/2606.17030)

> Abstract:We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.

Subjects:Computer Vision and Pattern Recognition (cs.CV)
Cite as:[arXiv:2606.17030](https://arxiv.org/abs/2606.17030) [cs.CV]
(or [arXiv:2606.17030v2](https://arxiv.org/abs/2606.17030v2) [cs.CV] for this version)
[https://doi.org/10.48550/arXiv.2606.17030](https://doi.org/10.48550/arXiv.2606.17030)

arXiv-issued DOI via DataCite

## Submission history

From: Shengming Yin [[view email](https://arxiv.org/show-email/5ef86a59/2606.17030)] 

**[[v1]](https://arxiv.org/abs/2606.17030v1)** Mon, 15 Jun 2026 17:52:31 UTC (19,155 KB)

**[v2]** Tue, 16 Jun 2026 16:55:52 UTC (19,155 KB)