世界模型与视频生成

世界模型（World Model）是具身智能的核心能力之一：通过内部模拟预测未来状态，使机器人能够"想象"动作的后果。本文从数学定义出发，梳理世界模型在机器人领域的应用，以及与视频生成技术的融合。

相关笔记：世界模型（通用） | 机器人基础模型概论

1. 世界模型的数学定义

1.1 基本形式

世界模型的核心是学习环境的状态转移函数：

\[p_\theta(s_{t+1} | s_t, a_t)\]

其中 \(s_t\) 为时刻 \(t\) 的环境状态，\(a_t\) 为智能体的动作。

但在实际的机器人场景中，我们通常无法直接获取环境的完整状态 \(s_t\)，只能获得观测 \(o_t\)（如图像）。因此需要引入潜在状态空间（latent state space）：

\[z_t = f_\phi(o_t) \quad \text{（编码器：观测 → 潜在状态）}\]

\[\hat{z}_{t+1} = g_\theta(z_t, a_t) \quad \text{（转移模型：预测下一潜在状态）}\]

\[\hat{o}_{t+1} = d_\psi(z_{t+1}) \quad \text{（解码器：潜在状态 → 预测观测）}\]

\[\hat{r}_t = r_\xi(z_t, a_t) \quad \text{（奖励预测器）}\]

1.2 完整目标

训练世界模型通常联合优化多个目标：

\[\mathcal{L} = \underbrace{\mathcal{L}_{\text{recon}}}_{\text{重建损失}} + \beta \underbrace{\mathcal{L}_{\text{KL}}}_{\text{正则化}} + \gamma \underbrace{\mathcal{L}_{\text{reward}}}_{\text{奖励预测}} + \delta \underbrace{\mathcal{L}_{\text{dyn}}}_{\text{动力学一致性}}\]

其中：

\(\mathcal{L}_{\text{recon}} = \|o_t - \hat{o}_t\|^2\)：重建损失
\(\mathcal{L}_{\text{KL}} = D_{\text{KL}}(q(z_t|o_t) \| p(z_t|z_{t-1}, a_{t-1}))\)：后验与先验的一致性
\(\mathcal{L}_{\text{reward}} = \|r_t - \hat{r}_t\|^2\)：奖励预测损失
\(\mathcal{L}_{\text{dyn}}\)：动力学预测的准确性

1.3 世界模型在机器人中的用途

graph TB
    WM[世界模型<br/>p(s_t+1 | s_t, a_t)]

    WM --> U1[模型预测控制 MPC<br/>在线规划最优动作序列]
    WM --> U2[想象训练<br/>在模型内部生成虚拟经验]
    WM --> U3[安全检查<br/>预测动作后果是否安全]
    WM --> U4[Sim2Real<br/>学习到的模型弥补仿真差距]
    WM --> U5[视频预测<br/>生成未来场景辅助决策]

    U1 --> A1["选择使 Σ r(st,at) 最大化的动作序列"]
    U2 --> A2["Dreamer: 在潜在空间中训练RL策略"]
    U5 --> A3["视觉规划: 先想象目标画面再行动"]

2. Dreamer系列：从仿真到实机

2.1 Dreamer架构演进

Dreamer系列是世界模型在RL中最成功的应用之一。其核心思想是在学习到的潜在世界模型中进行"想象"训练：

Dreamer v1 (2020)：

学习潜在动力学模型（RSSM: Recurrent State-Space Model）
在潜在空间中通过想象轨迹训练Actor-Critic
大幅提升样本效率

Dreamer v2 (2021)：

离散化潜在状态（categorical latents）
改进价值函数估计
Atari上首次超越无模型方法

Dreamer v3 (2023)：

通用超参数，无需针对不同任务调参
Symlog编码处理不同量级的奖励
在150+任务上表现优异

RSSM的数学形式：

\[\begin{aligned} \text{确定性路径:} \quad h_t &= f_\theta(h_{t-1}, z_{t-1}, a_{t-1}) \\ \text{随机状态先验:} \quad \hat{z}_t &\sim p_\theta(z_t | h_t) \\ \text{随机状态后验:} \quad z_t &\sim q_\phi(z_t | h_t, o_t) \end{aligned}\]

其中 \(h_t\) 是确定性的循环状态，\(z_t\) 是随机状态。

2.2 DayDreamer (2022)：Dreamer上实机

DayDreamer（Hafner et al., 2022）首次将Dreamer成功应用于真实机器人：

平台	任务	训练时间	说明
A1四足机器人	站立、行走	1小时真实交互	从零学习步态
UR5机械臂	物体操作	~30分钟	桌面抓取
Shadow Hand	灵巧手旋转	~40分钟	手内操作

关键实现细节：

在真实机器人上收集少量数据
训练RSSM世界模型
在世界模型中通过想象训练策略（无需真实交互）
部署策略到真实机器人，收集更多数据
重复上述过程

3. 视频生成作为世界模型

3.1 从像素空间预测未来

近年来一个重要趋势是将视频生成模型视为世界模型。核心观点：如果一个模型能准确预测给定动作后的未来视频帧，那么它就隐式地学习了环境的物理规律。

形式化表达：

\[p_\theta(o_{t+1:t+H} | o_{1:t}, a_{t:t+H-1})\]

其中 \(o\) 为图像帧，\(a\) 为动作，\(H\) 为预测时间步长。

3.2 关键模型

UniSim (Google DeepMind, 2023)

定位：通用交互式模拟器

核心思想：用视频扩散模型模拟任意环境的动态变化，支持多种类型的"动作"输入：

机器人末端执行器运动
自由形式的文本描述（"打开抽屉"）
相机运动轨迹

架构：基于视频扩散模型（Video Diffusion Model），以前几帧图像和动作描述为条件

应用：

用于训练机器人策略（模拟器替代）
数据增广：生成不同条件下的训练数据
评估：在模型中测试策略的鲁棒性

Genie (Google DeepMind, 2024)

定位：生成式交互环境

核心思想：从互联网视频中无监督学习可控的交互式环境

架构：

Video Tokenizer：将视频帧编码为离散token
Latent Action Model (LAM)：从连续帧中推断潜在动作
Dynamics Model：给定当前帧和潜在动作，预测下一帧

graph LR
    V1[视频帧 t] --> VT[Video Tokenizer]
    V2[视频帧 t+1] --> VT
    VT --> LAM[Latent Action Model]
    LAM --> LA[潜在动作 â_t]

    VT --> DM[Dynamics Model]
    LA --> DM
    DM --> VT2[预测帧 t+1的token]
    VT2 --> DEC[Decoder]
    DEC --> PRED[预测视频帧]

关键创新：不需要动作标注！从纯视频数据中学习交互式世界模型。

规模：11B参数，在200K小时互联网视频上训练

Cosmos (NVIDIA, 2025)

定位：物理AI世界基础模型

核心架构：

Cosmos Tokenizer：将视频压缩为连续和离散两种token形式
Cosmos World Foundation Model (WFM)：基于扩散Transformer和自回归Transformer两种架构
Post-training：支持针对特定机器人场景微调

两种架构：

特性	Diffusion WFM	Autoregressive WFM
生成方式	扩散去噪	逐token生成
质量	高	中-高
速度	较慢	较快
可控性	通过条件控制	通过prompt控制
参数量	7B-14B	4B-12B

关键贡献：

开源最大规模的物理世界视频生成模型
支持从文本、图像、动作等多种条件生成
专注物理准确性（重力、碰撞、流体）

Genesis (2024)

定位：可微分物理模拟器

核心思想：与上述学习式世界模型不同，Genesis走的是可微分物理仿真路线：

\[\frac{\partial s_{t+1}}{\partial a_t} = \frac{\partial f_{\text{physics}}(s_t, a_t)}{\partial a_t}\]

通过可微分的物理引擎，可以直接通过梯度反传来优化控制策略。

特点：

支持刚体、软体、流体、布料等多种物理材质
比传统物理模拟器快10-80倍（GPU并行）
支持自动生成机器人训练场景
可微分使得可以直接通过梯度优化策略

4. 技术对比分析

4.1 潜在空间模型 vs 像素空间模型

graph TB
    subgraph 潜在空间世界模型
        L1[观测] --> L2[编码器]
        L2 --> L3[潜在状态 z]
        L3 --> L4[潜在动力学模型]
        L4 --> L5[预测潜在状态]
        L5 --> L6[解码器]
        L6 --> L7[预测观测]
    end

    subgraph 像素空间世界模型
        P1[观测] --> P2[视频扩散/自回归模型]
        P2 --> P3[直接预测未来帧]
    end

    style 潜在空间世界模型 fill:#e3f2fd
    style 像素空间世界模型 fill:#fff3e0

维度	潜在空间（Dreamer系列）	像素空间（UniSim, Cosmos）
代表	Dreamer v3, TD-MPC	UniSim, Genie, Cosmos
压缩	编码器压缩	Token化/扩散
预测精度	中（重建有损）	高（直接预测像素）
计算开销	低	高
训练数据	少（几小时）	大（万小时级）
物理准确性	依赖数据	依赖数据
可规划性	直接在潜在空间规划	需额外模块提取信息

4.2 学习式世界模型 vs 可微分物理

维度	学习式（Dreamer, UniSim）	可微分物理（Genesis）
物理准确性	数据驱动，可能不物理	基于物理方程，准确
泛化能力	数据外推困难	物理规律天然泛化
训练数据需求	大量交互数据	无需训练数据
灵活性	可学习任意动态	受限于物理引擎支持的材质
梯度获取	需要重参数化技巧	天然可微分
Sim-to-Real差距	数据驱动可缩小	参数标定是关键

5. 世界模型在机器人规划中的应用

5.1 基于世界模型的模型预测控制（MPC）

给定世界模型 \(p_\theta\)，MPC通过在线优化选择最优动作序列：

\[\mathbf{a}_{t:t+H}^* = \arg\max_{\mathbf{a}_{t:t+H}} \sum_{k=0}^{H} \gamma^k \hat{r}(s_{t+k}, a_{t+k})\]

\[\text{s.t.} \quad \hat{s}_{t+k+1} = g_\theta(\hat{s}_{t+k}, a_{t+k})\]

常用优化方法：

CEM（Cross-Entropy Method）：采样-评估-重采样循环
MPPI：模型预测路径积分，带温度参数的加权平均
梯度优化：如果世界模型可微，直接反传梯度

5.2 视觉规划

一个新兴的方向是用视频生成模型做"视觉规划"：

给定当前观测和目标描述
世界模型生成一段"想象"的视频，展示如何达到目标
从生成的视频中提取中间子目标
用底层策略依次执行子目标

这种方式的优势是可以利用视频生成模型的丰富视觉先验来规划复杂的长时间任务。

6. 总结与展望

世界模型在机器人领域正经历从"小模型+少数据"到"大模型+大数据"的转变：

阶段	代表	特点
早期	PlaNet, Dreamer v1	小型RSSM，潜在空间，特定任务
中期	Dreamer v3, DayDreamer	通用化，实机验证
当前	UniSim, Cosmos, Genie	大规模视频生成，物理AI
未来?	统一物理世界模型	准确物理+跨场景泛化+实时推理

核心开放问题：

物理准确性：视频生成模型是否真正"理解"物理？还是只在模仿表面像素模式？
可控性：如何精确控制世界模型的输出以服务于机器人规划？
实时性：大规模视频生成模型的推理速度远不能满足实时控制需求
评估：如何系统地评估世界模型的物理准确性和实用性？

参考文献：

Hafner et al., "Dream to Control: Learning Behaviors by Latent Imagination", ICLR 2020
Hafner et al., "Mastering Diverse Domains through World Models" (Dreamer v3), 2023
Hafner et al., "DayDreamer: World Models for Physical Robot Learning", CoRL 2022
Yang et al., "Learning Interactive Real-World Simulators" (UniSim), 2023
Bruce et al., "Genie: Generative Interactive Environments", ICML 2024
NVIDIA, "Cosmos World Foundation Model Platform for Physical AI", 2025
Genesis contributors, "Genesis: A Universal and Generative Physics Engine for Robotics and Beyond", 2024