世界模型
一、什么是世界模型
世界模型(World Model)是一个关于世界的内部表示,能模拟世界状态如何随时间推移和动作响应而演化。
这个定义有几层含义:
- 内部表示:不是外部数据库或知识图谱,而是模型内部编码的结构
- 世界状态:不是零散的事实集合,而是一个有结构的、可追踪的状态
- 随时间演化:状态不是静态快照,而是能向前推进的动态过程
- 响应动作:状态变化不只是自发的,还能被主体的行动所干预
世界模型的本质,不是"知道很多事情",而是"能运行一个关于世界的内部仿真器"。
二、核心组件
一个完整的世界模型至少包含以下五个组件:
| 组件 | 含义 | 作用 |
|---|---|---|
| 状态表示(state representation) | 当前世界的内部编码 | 提供推理和预测的基础 |
| 动力学/转移模型(dynamics) | \(P(s_{t+1} \mid s_t, a_t)\) | 预测动作导致的状态变化 |
| 观测模型(observation model) | 从状态生成可观测信号 | 连接内部表示与外部感知 |
| 奖励/价值(reward/value) | 评估状态的好坏 | 为决策提供依据 |
| 因果结构(causal structure) | 变量之间的因果关系 | 支持干预和反事实推理 |
其中最核心的是动力学模型:已知当前状态 \(s_t\) 和动作 \(a_t\),预测下一时刻状态 \(s_{t+1}\)。如果一个模型真正掌握了 \(P(s_{t+1} \mid s_t, a_t)\),它就必须内化大量世界规律——连续性、物体持久性、碰撞关系、因果传递等。
三、为什么世界模型如此重要
世界模型使四种关键能力成为可能:
- 预测:不执行动作就能预见后果——"如果我推这个杯子,它会掉下桌子"
- 规划:在想象中搜索动作序列——"要到达那个房间,我应该先开门再转弯"
- 想象:生成从未经历过的场景——"如果重力是现在的两倍,世界会怎样"
- 反事实推理:评估已做决定的替代方案——"如果当时走另一条路会怎样"
没有世界模型,智能体只能做反应式行为(stimulus-response);有了世界模型,它能在行动之前先在"脑中"模拟。
四、"知道事实"与"拥有仿真器"的区别
这是一个容易混淆但极其根本的区分。
LLM 更像一个读过大量文本的"世界解说员",而不是一个内部带仿真器的"世界运行器"。
LLM 能做到的:说出"球松手会掉下去""杯子摔了可能碎"——这些是从文本中压缩出的世界知识。
LLM 不稳定的:多步空间追踪、隐变量维护、连续时间过程、动作导致的精确后果——因为它的训练目标是"预测下一个token",而不是"维护一个随时间演化的世界状态"。
核心差异在于:
| 维度 | 知道事实(LLM) | 拥有仿真器(世界模型) |
|---|---|---|
| 表示 | 文本中的语义关联 | 可演化的潜在状态 |
| 预测方式 | 统计共现 | 状态转移 |
| 多步推理 | 随步数衰减 | 可稳定向前推进 |
| 可干预性 | 弱——改变输入不保证一致性 | 强——改变动作,未来系统性改变 |
| 物理一致性 | 不保证 | 由动力学约束保证 |
模型完全可能靠"语言统计捷径"在测试中表现良好,而不必真正形成强大的世界动力学模块。这正是 shortcut 和伪因果的来源(详见大脑的先验知识中关于 shortcut 的讨论)。
五、两种经典方法:Dreamer 与 MuZero
Dreamer(Danijar Hafner)
Dreamer 是典型的潜在世界模型(latent world model)方法:
- 从原始观测中学习一个潜在状态空间
- 在潜在空间中学习动力学模型
- 通过在想象中展开未来轨迹(imagination rollout)来做规划
- 整个训练过程不需要在真实环境中大量交互
Dreamer 的哲学偏向"建模世界"——它试图学到一个尽可能忠实的世界表示,然后在这个表示上做决策。
MuZero(David Silver / DeepMind)
MuZero 是更"任务导向"的世界模型:
- 不试图重建原始观测(比如像素)
- 只学习对决策有用的部分:策略(policy)、价值(value)、奖励(reward)、隐藏状态动力学
- 状态表示完全由任务性能驱动,不追求可解释性
MuZero 的哲学偏向"服务决策"——它只保留对行动最有用的隐藏状态演化,不关心这个表示是否"像"真实世界。
对比
| 维度 | Dreamer | MuZero |
|---|---|---|
| 建模目标 | 尽可能忠实地表示世界 | 只保留对决策有用的信息 |
| 是否重建观测 | 是(生成潜在轨迹) | 否(不关心真实观测) |
| 决策导向程度 | 中等 | 强 |
| 哲学倾向 | 建模主义 | 工具主义 |
| 典型应用 | 连续控制、机器人 | 棋类、Atari 等离散决策 |
| 可解释性 | 较高(潜在状态可解码) | 较低(隐藏状态不对应真实量) |
两者都属于世界模型路线,只是风格不同。一个更像"先理解世界,再做决策",另一个更像"理解世界只是为了做更好的决策"。
六、根本性辩论:结构从何而来?
这是世界模型研究中最核心的分歧。
路线 A:端到端纯神经网络
足够大的模型 + 足够多的数据 → 因果/物理/结构会"涌现"出来。
- 优点:通用性极强,不需要人工设计结构
- 缺点:样本效率低,容易学到 shortcut 和伪因果,物理一致性不可靠
路线 B:显式结构先验
主动引入 object-centric 表示、因果图、物理守恒律、3D 一致性、时间连续性等。
- 优点:样本效率高,泛化更强,物理一致性有保证
- 缺点:难以设计,可能限制表达能力,结构加错了反而有害
融合路线:当前的主流共识
神经网络学习表示,结构先验做约束。
不是纯手工规则系统,也不是完全无结构的大黑箱。而是把正确的归纳偏置编进模型架构中——就像 CNN 把局部性和平移等变编进了视觉处理一样,只不过世界模型需要的先验远比 CNN 复杂。
这条融合路线的关键挑战是:哪些先验必须显式设计?哪些可以从数据中学出来? 这个问题目前没有定论。
七、2025-2026:世界模型成为最显著的范式转变
从 2025 年开始,世界模型已经从学术概念变成了产业界最重要的研究方向之一。目前至少有五种主要的竞争路径:
| 路径 | 核心思想 | 代表 |
|---|---|---|
| JEPA | 在抽象表示空间中预测 | Yann LeCun / AMI Labs |
| 空间智能 | 3D 空间结构理解与生成 | Fei-Fei Li / World Labs |
| 学习式仿真 | 从数据中学习物理规律 | Google DeepMind / Genie 3 |
| 物理AI基础设施 | 物理感知的视频预测 | NVIDIA Cosmos |
| 主动推理 | 最小化自由能/惊讶 | Karl Friston / VERSES |
这五条路径从不同角度切入同一个问题:如何让 AI 拥有一个能运行的世界内部模型。它们的详细分析见 JEPA架构 和 空间智能与学习式仿真。
八、统一世界模型应该长什么样
如果我们不限于某一条路径,而是思考一个"理想的"统一世界模型应该具备什么特性,至少需要:
- 共享状态空间:图像、文字、动作、声音都映射到同一个潜在状态
- 状态持久性:对象被遮挡后仍然在内部状态中存在
- 动力学:\(s_t, a_t \rightarrow s_{t+1}\)——状态能随动作向前推进
- 约束性:符合物理规则和因果规律
- 可干预性:改变动作,未来就系统性改变
- 组合性(compositionality):多个对象和关系能组合泛化到新场景
这与"多模态对齐"有本质区别。多模态对齐解决的是"这张图和这句话是不是在说同一件事"——它是一本跨模态词典。统一世界模型还要解决"接下来会怎样变?为什么会这样变?如果我施加动作,未来会如何系统性改变?"——它是一个物理仿真器加因果生成器。
核心区别:多模态对齐解决"这是什么",统一世界模型还要解决"它接下来会怎样"。
九、与先验知识的关系
世界模型与大脑的先验知识这个话题紧密相连。
人脑自带一个低精度但泛化极强的世界模型——物理连续性、物体持续存在、刚性、空间一致性、因果期待、重力直觉等。这些先验不是学来的,而是进化在数亿年中"预训练"进神经系统的。正是这些先验,让人类能从极少的经验中高效学习。
当前 AI 系统面临的核心困境是:它们没有这套先验。LLM 从文本中间接获取了大量世界知识,但这些知识是以统计关联而非因果机制的形式存在的。世界模型研究的终极目标,就是让 AI 系统也拥有类似的"内部世界仿真器"——无论这个仿真器是通过大规模数据涌现出来的,还是通过结构先验显式设计进去的。
十、开放问题
- 先验的颗粒度:人脑的先验是一整套层级结构,从低级的物理连续性到高级的社会意图感知。AI 的世界模型应该在哪个层级引入先验?
- 通用性与专用性的平衡:Dreamer 偏通用,MuZero 偏专用。理想的世界模型应该在哪个点上取得平衡?
- 评估标准:如何判断一个模型"真正理解了世界"还是只是"记住了统计模式"?目前缺乏可靠的评估方法。
- 五条路径是否会收敛:JEPA、空间智能、学习式仿真、物理 AI、主动推理——它们最终是否会融合成一个统一框架?
真正的人类智能,是"理解世界"和"在世界中行动"耦合的结果。世界模型研究的终极问题是:我们能否让机器也实现这种耦合。