世界模型

一、什么是世界模型

世界模型（World Model）是一个关于世界的内部表示，能模拟世界状态如何随时间推移和动作响应而演化。

这个定义有几层含义：

内部表示：不是外部数据库或知识图谱，而是模型内部编码的结构
世界状态：不是零散的事实集合，而是一个有结构的、可追踪的状态
随时间演化：状态不是静态快照，而是能向前推进的动态过程
响应动作：状态变化不只是自发的，还能被主体的行动所干预

世界模型的本质，不是"知道很多事情"，而是"能运行一个关于世界的内部仿真器"。

二、核心组件

一个完整的世界模型至少包含以下五个组件：

组件	含义	作用
状态表示（state representation）	当前世界的内部编码	提供推理和预测的基础
动力学/转移模型（dynamics）	\(P(s_{t+1} \mid s_t, a_t)\)	预测动作导致的状态变化
观测模型（observation model）	从状态生成可观测信号	连接内部表示与外部感知
奖励/价值（reward/value）	评估状态的好坏	为决策提供依据
因果结构（causal structure）	变量之间的因果关系	支持干预和反事实推理

其中最核心的是动力学模型：已知当前状态 \(s_t\) 和动作 \(a_t\)，预测下一时刻状态 \(s_{t+1}\)。如果一个模型真正掌握了 \(P(s_{t+1} \mid s_t, a_t)\)，它就必须内化大量世界规律——连续性、物体持久性、碰撞关系、因果传递等。

三、为什么世界模型如此重要

世界模型使四种关键能力成为可能：

预测：不执行动作就能预见后果——"如果我推这个杯子，它会掉下桌子"
规划：在想象中搜索动作序列——"要到达那个房间，我应该先开门再转弯"
想象：生成从未经历过的场景——"如果重力是现在的两倍，世界会怎样"
反事实推理：评估已做决定的替代方案——"如果当时走另一条路会怎样"

没有世界模型，智能体只能做反应式行为（stimulus-response）；有了世界模型，它能在行动之前先在"脑中"模拟。

四、"知道事实"与"拥有仿真器"的区别

这是一个容易混淆但极其根本的区分。

LLM 更像一个读过大量文本的"世界解说员"，而不是一个内部带仿真器的"世界运行器"。

LLM 能做到的：说出"球松手会掉下去""杯子摔了可能碎"——这些是从文本中压缩出的世界知识。

LLM 不稳定的：多步空间追踪、隐变量维护、连续时间过程、动作导致的精确后果——因为它的训练目标是"预测下一个token"，而不是"维护一个随时间演化的世界状态"。

核心差异在于：

维度	知道事实（LLM）	拥有仿真器（世界模型）
表示	文本中的语义关联	可演化的潜在状态
预测方式	统计共现	状态转移
多步推理	随步数衰减	可稳定向前推进
可干预性	弱——改变输入不保证一致性	强——改变动作，未来系统性改变
物理一致性	不保证	由动力学约束保证

模型完全可能靠"语言统计捷径"在测试中表现良好，而不必真正形成强大的世界动力学模块。这正是 shortcut 和伪因果的来源（详见大脑的先验知识中关于 shortcut 的讨论）。

五、两种经典方法：Dreamer 与 MuZero

Dreamer（Danijar Hafner）

Dreamer 是典型的潜在世界模型（latent world model）方法：

从原始观测中学习一个潜在状态空间
在潜在空间中学习动力学模型
通过在想象中展开未来轨迹（imagination rollout）来做规划
整个训练过程不需要在真实环境中大量交互

Dreamer 的哲学偏向"建模世界"——它试图学到一个尽可能忠实的世界表示，然后在这个表示上做决策。

MuZero（David Silver / DeepMind）

MuZero 是更"任务导向"的世界模型：

不试图重建原始观测（比如像素）
只学习对决策有用的部分：策略（policy）、价值（value）、奖励（reward）、隐藏状态动力学
状态表示完全由任务性能驱动，不追求可解释性

MuZero 的哲学偏向"服务决策"——它只保留对行动最有用的隐藏状态演化，不关心这个表示是否"像"真实世界。

对比

维度	Dreamer	MuZero
建模目标	尽可能忠实地表示世界	只保留对决策有用的信息
是否重建观测	是（生成潜在轨迹）	否（不关心真实观测）
决策导向程度	中等	强
哲学倾向	建模主义	工具主义
典型应用	连续控制、机器人	棋类、Atari 等离散决策
可解释性	较高（潜在状态可解码）	较低（隐藏状态不对应真实量）

两者都属于世界模型路线，只是风格不同。一个更像"先理解世界，再做决策"，另一个更像"理解世界只是为了做更好的决策"。

六、根本性辩论：结构从何而来？

这是世界模型研究中最核心的分歧。

路线 A：端到端纯神经网络

足够大的模型 + 足够多的数据 → 因果/物理/结构会"涌现"出来。

优点：通用性极强，不需要人工设计结构
缺点：样本效率低，容易学到 shortcut 和伪因果，物理一致性不可靠

路线 B：显式结构先验

主动引入 object-centric 表示、因果图、物理守恒律、3D 一致性、时间连续性等。

优点：样本效率高，泛化更强，物理一致性有保证
缺点：难以设计，可能限制表达能力，结构加错了反而有害

融合路线：当前的主流共识

神经网络学习表示，结构先验做约束。

不是纯手工规则系统，也不是完全无结构的大黑箱。而是把正确的归纳偏置编进模型架构中——就像 CNN 把局部性和平移等变编进了视觉处理一样，只不过世界模型需要的先验远比 CNN 复杂。

这条融合路线的关键挑战是：哪些先验必须显式设计？哪些可以从数据中学出来？ 这个问题目前没有定论。

七、2025-2026：世界模型成为最显著的范式转变

从 2025 年开始，世界模型已经从学术概念变成了产业界最重要的研究方向之一。目前至少有五种主要的竞争路径：

路径	核心思想	代表
JEPA	在抽象表示空间中预测	Yann LeCun / AMI Labs
空间智能	3D 空间结构理解与生成	Fei-Fei Li / World Labs
学习式仿真	从数据中学习物理规律	Google DeepMind / Genie 3
物理AI基础设施	物理感知的视频预测	NVIDIA Cosmos
主动推理	最小化自由能/惊讶	Karl Friston / VERSES

这五条路径从不同角度切入同一个问题：如何让 AI 拥有一个能运行的世界内部模型。它们的详细分析见 JEPA架构和空间智能与学习式仿真。

八、统一世界模型应该长什么样

如果我们不限于某一条路径，而是思考一个"理想的"统一世界模型应该具备什么特性，至少需要：

共享状态空间：图像、文字、动作、声音都映射到同一个潜在状态
状态持久性：对象被遮挡后仍然在内部状态中存在
动力学：\(s_t, a_t \rightarrow s_{t+1}\)——状态能随动作向前推进
约束性：符合物理规则和因果规律
可干预性：改变动作，未来就系统性改变
组合性（compositionality）：多个对象和关系能组合泛化到新场景

这与"多模态对齐"有本质区别。多模态对齐解决的是"这张图和这句话是不是在说同一件事"——它是一本跨模态词典。统一世界模型还要解决"接下来会怎样变？为什么会这样变？如果我施加动作，未来会如何系统性改变？"——它是一个物理仿真器加因果生成器。

核心区别：多模态对齐解决"这是什么"，统一世界模型还要解决"它接下来会怎样"。

九、与先验知识的关系

世界模型与大脑的先验知识这个话题紧密相连。

人脑自带一个低精度但泛化极强的世界模型——物理连续性、物体持续存在、刚性、空间一致性、因果期待、重力直觉等。这些先验不是学来的，而是进化在数亿年中"预训练"进神经系统的。正是这些先验，让人类能从极少的经验中高效学习。

当前 AI 系统面临的核心困境是：它们没有这套先验。LLM 从文本中间接获取了大量世界知识，但这些知识是以统计关联而非因果机制的形式存在的。世界模型研究的终极目标，就是让 AI 系统也拥有类似的"内部世界仿真器"——无论这个仿真器是通过大规模数据涌现出来的，还是通过结构先验显式设计进去的。

十、开放问题

先验的颗粒度：人脑的先验是一整套层级结构，从低级的物理连续性到高级的社会意图感知。AI 的世界模型应该在哪个层级引入先验？
通用性与专用性的平衡：Dreamer 偏通用，MuZero 偏专用。理想的世界模型应该在哪个点上取得平衡？
评估标准：如何判断一个模型"真正理解了世界"还是只是"记住了统计模式"？目前缺乏可靠的评估方法。
五条路径是否会收敛：JEPA、空间智能、学习式仿真、物理 AI、主动推理——它们最终是否会融合成一个统一框架？

真正的人类智能，是"理解世界"和"在世界中行动"耦合的结果。世界模型研究的终极问题是：我们能否让机器也实现这种耦合。