您的位置:首页 > 手游攻略 > LiveWorld - 阿德莱德大学等推出的生成式视频世界模型
LiveWorld - 阿德莱德大学等推出的生成式视频世界模型
作者:互联网 时间: 2026-07-02 08:39:15
LiveWorld是什么
LiveWorld 是阿德莱德大学、澳大利亚国立大学等机构联合推出的生成式视频世界模型,核心解决视野外动态问题,当物体离开相机视野后,传统模型会将其状态冻结, LiveWorld 通过显式解耦世界演化与观察渲染,让动态实体在不可见时仍能持续推进,实现真正的 4D 世界模拟。

LiveWorld的主要功能
- 动态实体检测:基于 Qwen3-VL 和 SAM3 自动识别视频中的活动人、动物、车辆等动态实体。
- 虚拟监视器注册:为每个新发现的动态实体注册固定视角的 Monitor,持续跟踪其状态变化。
- 视野外动态演化:当相机移开后,Monitor 仍在后台推进实体动作(如狗吃完食物走开),而非冻结状态。
- 静态环境积累:通过 Stream3R SLAM 框架将静态背景增量融合为全局 3D 点云,提供空间基础。
- 状态感知渲染:将演化后的动态 4D 点云与静态 3D 点云投影到目标相机轨迹,生成连贯观察帧。
- 外观一致性保持:通过 Appearance LoRA 检索历史参考帧,确保长序列中实体身份和纹理不漂移。
LiveWorld的技术原理
- 世界状态解耦:将世界表示为静态 3D 背景 + 动态 4D 实体的结构化近似,而非直接预测 2D 帧。
- 演化-渲染分离:世界先通过演化算子更新全局状态,再通过渲染算子结合相机位姿生成观察,二者解耦。
- Monitor 机制:在固定锚点位置部署虚拟监视器,用 Evolution Engine自主推进局部事件。
- SLAM 空间记忆:采用前馈式 SLAM 框架 Stream3R 实时融合静态背景,支持长期重访和视角变换。
- 状态注入生成:通过 State Adapter 将投影后的几何条件注入视频扩散模型,约束物体位置、结构与运动。
- 闭环流水线:观察新区域 → 注册动态事件 → 后台推进状态 → 最新状态渲染,形成持续循环。

微信关注回复“开源”,加入AI开源项目交流群
如何使用LiveWorld
- 环境准备:从 GitHub 克隆 LiveWorld 代码仓库并安装 PyTorch、Stream3R、Qwen3-VL、SAM3 及 Wan2.1-14B-T2V 等依赖环境。
- 输入配置:提供一段前置视频帧作为初始观察,并定义目标相机轨迹与描述动态实体后续行为的文本提示。
- 动态检测:系统调用 Qwen3-VL 和 SAM3 自动扫描前置帧,识别其中的人、动物或车辆等活跃动态实体。
- 监视器注册:每个新发现的实体会在其所在位置注册一个固定视角的虚拟 Monitor,作为后续视野外演化的锚点。
- 视野外演化:当相机沿轨迹移开时,Monitor 仍在后台使用 Evolution Engine 生成该区域的后续视频,推进实体动作而非冻结状态。
- 静态记忆构建:系统并行运行 Stream3R SLAM,将历史观察中的背景区域增量融合为全局静态 3D 点云。
- 状态渲染:当相机到达目标位置时,系统将演化后的动态 4D 点云与静态 3D 点云投影到目标视角,通过 State Adapter 和 Appearance LoRA 生成最终观察帧。
LiveWorld的核心优势
- 突破静态世界假设:首次形式化并解决”视野外动态”问题,打破现有模型只有视野内才演化的局限。
- 长时序事件一致性:在 LiveBench 基准的第二次重访中,VQA-Acc 达到 54.620,远超 Spatia等竞品。
- 多事件并行推进:支持多个 Monitor 同时在视野外演化不同事件,Full Succ. 指标达 26%。
- 新视角几何一致:动态点云 Chamfer Distance 降至 0.135,新视角重访时仍能保持正确的空间位置。
- 模块化可扩展:静态记忆、动态演化、状态渲染三大模块协同,可独立优化和替换。
LiveWorld的项目地址
- 项目官网:https://zichengduan.github.io/pages/LiveWorld/index.html
- GitHub仓库:https://github.com/ZichengDuan/LiveWorld
- HuggingFace模型库:https://huggingface.co/ZichengD/LiveWorld
- arXiv技术论文:https://arxiv.org/pdf/2603.07145
LiveWorld的同类竞品对比
对比维度 | LiveWorld | Matrix-Game-2.0 | 视野外动态✅ 支持持续推进,实体离开视野后仍后台演化❌ 不支持,状态冻结在最后一次被观察到的时刻
世界表示显式 3D 静态点云 + 4D 动态实体点云隐式 3D 表示,直接从 2D 历史帧预测
Same-Pose 第二次重访 VQA-Acc54.6205.012Different-Pose 第二次重访 VQA-Acc49.4784.132动态实体一致性 (DINO₂ₙᵈ)0.7210.122动态点云空间一致性 (CD₂ₙᵈ)0.1356.236技术架构演化与渲染显式解耦,闭环流水线二者耦合,单一视频生成器直接预测
多事件并行处理✅ 支持多个 Monitor 同时推进❌ 缺乏独立演化机制,无法并行处理
静态背景一致性优秀(SLAM 增量积累)一般(依赖隐式记忆,易漂移)
LiveWorld的应用场景
- 智能体训练:为具身智能体提供持续演化、可交互的虚拟环境,支持视野外事件推理。
- 自动驾驶仿真:模拟交通场景中不可见区域(如盲区)的动态变化,提升决策安全性。
- 交互式游戏:构建开放世界游戏,玩家离开后 NPC 和事件仍按逻辑持续推进。
- 合成数据生成:生成带有长期时序一致性和复杂事件逻辑的大规模训练数据。
- 机器人导航规划:支持机器人在探索过程中维护对未观察区域动态状态的信念。