世界模型与视频生成
世界模型(World Model)是具身智能的核心能力之一:通过内部模拟预测未来状态,使机器人能够"想象"动作的后果。本文从数学定义出发,梳理世界模型在机器人领域的应用,以及与视频生成技术的融合。
1. 世界模型的数学定义
1.1 基本形式
世界模型的核心是学习环境的状态转移函数:
其中 \(s_t\) 为时刻 \(t\) 的环境状态,\(a_t\) 为智能体的动作。
但在实际的机器人场景中,我们通常无法直接获取环境的完整状态 \(s_t\),只能获得观测 \(o_t\)(如图像)。因此需要引入潜在状态空间(latent state space):
1.2 完整目标
训练世界模型通常联合优化多个目标:
其中:
- \(\mathcal{L}_{\text{recon}} = \|o_t - \hat{o}_t\|^2\):重建损失
- \(\mathcal{L}_{\text{KL}} = D_{\text{KL}}(q(z_t|o_t) \| p(z_t|z_{t-1}, a_{t-1}))\):后验与先验的一致性
- \(\mathcal{L}_{\text{reward}} = \|r_t - \hat{r}_t\|^2\):奖励预测损失
- \(\mathcal{L}_{\text{dyn}}\):动力学预测的准确性
1.3 世界模型在机器人中的用途
graph TB
WM[世界模型<br/>p(s_t+1 | s_t, a_t)]
WM --> U1[模型预测控制 MPC<br/>在线规划最优动作序列]
WM --> U2[想象训练<br/>在模型内部生成虚拟经验]
WM --> U3[安全检查<br/>预测动作后果是否安全]
WM --> U4[Sim2Real<br/>学习到的模型弥补仿真差距]
WM --> U5[视频预测<br/>生成未来场景辅助决策]
U1 --> A1["选择使 Σ r(st,at) 最大化的动作序列"]
U2 --> A2["Dreamer: 在潜在空间中训练RL策略"]
U5 --> A3["视觉规划: 先想象目标画面再行动"]
2. Dreamer系列:从仿真到实机
2.1 Dreamer架构演进
Dreamer系列是世界模型在RL中最成功的应用之一。其核心思想是在学习到的潜在世界模型中进行"想象"训练:
Dreamer v1 (2020):
- 学习潜在动力学模型(RSSM: Recurrent State-Space Model)
- 在潜在空间中通过想象轨迹训练Actor-Critic
- 大幅提升样本效率
Dreamer v2 (2021):
- 离散化潜在状态(categorical latents)
- 改进价值函数估计
- Atari上首次超越无模型方法
Dreamer v3 (2023):
- 通用超参数,无需针对不同任务调参
- Symlog编码处理不同量级的奖励
- 在150+任务上表现优异
RSSM的数学形式:
其中 \(h_t\) 是确定性的循环状态,\(z_t\) 是随机状态。
2.2 DayDreamer (2022):Dreamer上实机
DayDreamer(Hafner et al., 2022)首次将Dreamer成功应用于真实机器人:
| 平台 | 任务 | 训练时间 | 说明 |
|---|---|---|---|
| A1四足机器人 | 站立、行走 | 1小时真实交互 | 从零学习步态 |
| UR5机械臂 | 物体操作 | ~30分钟 | 桌面抓取 |
| Shadow Hand | 灵巧手旋转 | ~40分钟 | 手内操作 |
关键实现细节:
- 在真实机器人上收集少量数据
- 训练RSSM世界模型
- 在世界模型中通过想象训练策略(无需真实交互)
- 部署策略到真实机器人,收集更多数据
- 重复上述过程
3. 视频生成作为世界模型
3.1 从像素空间预测未来
近年来一个重要趋势是将视频生成模型视为世界模型。核心观点:如果一个模型能准确预测给定动作后的未来视频帧,那么它就隐式地学习了环境的物理规律。
形式化表达:
其中 \(o\) 为图像帧,\(a\) 为动作,\(H\) 为预测时间步长。
3.2 关键模型
UniSim (Google DeepMind, 2023)
定位:通用交互式模拟器
核心思想:用视频扩散模型模拟任意环境的动态变化,支持多种类型的"动作"输入:
- 机器人末端执行器运动
- 自由形式的文本描述("打开抽屉")
- 相机运动轨迹
架构:基于视频扩散模型(Video Diffusion Model),以前几帧图像和动作描述为条件
应用:
- 用于训练机器人策略(模拟器替代)
- 数据增广:生成不同条件下的训练数据
- 评估:在模型中测试策略的鲁棒性
Genie (Google DeepMind, 2024)
定位:生成式交互环境
核心思想:从互联网视频中无监督学习可控的交互式环境
架构:
- Video Tokenizer:将视频帧编码为离散token
- Latent Action Model (LAM):从连续帧中推断潜在动作
- Dynamics Model:给定当前帧和潜在动作,预测下一帧
graph LR
V1[视频帧 t] --> VT[Video Tokenizer]
V2[视频帧 t+1] --> VT
VT --> LAM[Latent Action Model]
LAM --> LA[潜在动作 â_t]
VT --> DM[Dynamics Model]
LA --> DM
DM --> VT2[预测帧 t+1的token]
VT2 --> DEC[Decoder]
DEC --> PRED[预测视频帧]
关键创新:不需要动作标注!从纯视频数据中学习交互式世界模型。
规模:11B参数,在200K小时互联网视频上训练
Cosmos (NVIDIA, 2025)
定位:物理AI世界基础模型
核心架构:
- Cosmos Tokenizer:将视频压缩为连续和离散两种token形式
- Cosmos World Foundation Model (WFM):基于扩散Transformer和自回归Transformer两种架构
- Post-training:支持针对特定机器人场景微调
两种架构:
| 特性 | Diffusion WFM | Autoregressive WFM |
|---|---|---|
| 生成方式 | 扩散去噪 | 逐token生成 |
| 质量 | 高 | 中-高 |
| 速度 | 较慢 | 较快 |
| 可控性 | 通过条件控制 | 通过prompt控制 |
| 参数量 | 7B-14B | 4B-12B |
关键贡献:
- 开源最大规模的物理世界视频生成模型
- 支持从文本、图像、动作等多种条件生成
- 专注物理准确性(重力、碰撞、流体)
Genesis (2024)
定位:可微分物理模拟器
核心思想:与上述学习式世界模型不同,Genesis走的是可微分物理仿真路线:
通过可微分的物理引擎,可以直接通过梯度反传来优化控制策略。
特点:
- 支持刚体、软体、流体、布料等多种物理材质
- 比传统物理模拟器快10-80倍(GPU并行)
- 支持自动生成机器人训练场景
- 可微分使得可以直接通过梯度优化策略
4. 技术对比分析
4.1 潜在空间模型 vs 像素空间模型
graph TB
subgraph 潜在空间世界模型
L1[观测] --> L2[编码器]
L2 --> L3[潜在状态 z]
L3 --> L4[潜在动力学模型]
L4 --> L5[预测潜在状态]
L5 --> L6[解码器]
L6 --> L7[预测观测]
end
subgraph 像素空间世界模型
P1[观测] --> P2[视频扩散/自回归模型]
P2 --> P3[直接预测未来帧]
end
style 潜在空间世界模型 fill:#e3f2fd
style 像素空间世界模型 fill:#fff3e0
| 维度 | 潜在空间(Dreamer系列) | 像素空间(UniSim, Cosmos) |
|---|---|---|
| 代表 | Dreamer v3, TD-MPC | UniSim, Genie, Cosmos |
| 压缩 | 编码器压缩 | Token化/扩散 |
| 预测精度 | 中(重建有损) | 高(直接预测像素) |
| 计算开销 | 低 | 高 |
| 训练数据 | 少(几小时) | 大(万小时级) |
| 物理准确性 | 依赖数据 | 依赖数据 |
| 可规划性 | 直接在潜在空间规划 | 需额外模块提取信息 |
4.2 学习式世界模型 vs 可微分物理
| 维度 | 学习式(Dreamer, UniSim) | 可微分物理(Genesis) |
|---|---|---|
| 物理准确性 | 数据驱动,可能不物理 | 基于物理方程,准确 |
| 泛化能力 | 数据外推困难 | 物理规律天然泛化 |
| 训练数据需求 | 大量交互数据 | 无需训练数据 |
| 灵活性 | 可学习任意动态 | 受限于物理引擎支持的材质 |
| 梯度获取 | 需要重参数化技巧 | 天然可微分 |
| Sim-to-Real差距 | 数据驱动可缩小 | 参数标定是关键 |
5. 世界模型在机器人规划中的应用
5.1 基于世界模型的模型预测控制(MPC)
给定世界模型 \(p_\theta\),MPC通过在线优化选择最优动作序列:
常用优化方法:
- CEM(Cross-Entropy Method):采样-评估-重采样循环
- MPPI:模型预测路径积分,带温度参数的加权平均
- 梯度优化:如果世界模型可微,直接反传梯度
5.2 视觉规划
一个新兴的方向是用视频生成模型做"视觉规划":
- 给定当前观测和目标描述
- 世界模型生成一段"想象"的视频,展示如何达到目标
- 从生成的视频中提取中间子目标
- 用底层策略依次执行子目标
这种方式的优势是可以利用视频生成模型的丰富视觉先验来规划复杂的长时间任务。
6. 总结与展望
世界模型在机器人领域正经历从"小模型+少数据"到"大模型+大数据"的转变:
| 阶段 | 代表 | 特点 |
|---|---|---|
| 早期 | PlaNet, Dreamer v1 | 小型RSSM,潜在空间,特定任务 |
| 中期 | Dreamer v3, DayDreamer | 通用化,实机验证 |
| 当前 | UniSim, Cosmos, Genie | 大规模视频生成,物理AI |
| 未来? | 统一物理世界模型 | 准确物理+跨场景泛化+实时推理 |
核心开放问题:
- 物理准确性:视频生成模型是否真正"理解"物理?还是只在模仿表面像素模式?
- 可控性:如何精确控制世界模型的输出以服务于机器人规划?
- 实时性:大规模视频生成模型的推理速度远不能满足实时控制需求
- 评估:如何系统地评估世界模型的物理准确性和实用性?
参考文献:
- Hafner et al., "Dream to Control: Learning Behaviors by Latent Imagination", ICLR 2020
- Hafner et al., "Mastering Diverse Domains through World Models" (Dreamer v3), 2023
- Hafner et al., "DayDreamer: World Models for Physical Robot Learning", CoRL 2022
- Yang et al., "Learning Interactive Real-World Simulators" (UniSim), 2023
- Bruce et al., "Genie: Generative Interactive Environments", ICML 2024
- NVIDIA, "Cosmos World Foundation Model Platform for Physical AI", 2025
- Genesis contributors, "Genesis: A Universal and Generative Physics Engine for Robotics and Beyond", 2024