Skip to content

世界模型

一、什么是世界模型

世界模型(World Model)是一个关于世界的内部表示,能模拟世界状态如何随时间推移和动作响应而演化。

这个定义有几层含义:

  1. 内部表示:不是外部数据库或知识图谱,而是模型内部编码的结构
  2. 世界状态:不是零散的事实集合,而是一个有结构的、可追踪的状态
  3. 随时间演化:状态不是静态快照,而是能向前推进的动态过程
  4. 响应动作:状态变化不只是自发的,还能被主体的行动所干预

世界模型的本质,不是"知道很多事情",而是"能运行一个关于世界的内部仿真器"。


二、核心组件

一个完整的世界模型至少包含以下五个组件:

组件 含义 作用
状态表示(state representation) 当前世界的内部编码 提供推理和预测的基础
动力学/转移模型(dynamics) \(P(s_{t+1} \mid s_t, a_t)\) 预测动作导致的状态变化
观测模型(observation model) 从状态生成可观测信号 连接内部表示与外部感知
奖励/价值(reward/value) 评估状态的好坏 为决策提供依据
因果结构(causal structure) 变量之间的因果关系 支持干预和反事实推理

其中最核心的是动力学模型:已知当前状态 \(s_t\) 和动作 \(a_t\),预测下一时刻状态 \(s_{t+1}\)。如果一个模型真正掌握了 \(P(s_{t+1} \mid s_t, a_t)\),它就必须内化大量世界规律——连续性、物体持久性、碰撞关系、因果传递等。


三、为什么世界模型如此重要

世界模型使四种关键能力成为可能:

  1. 预测:不执行动作就能预见后果——"如果我推这个杯子,它会掉下桌子"
  2. 规划:在想象中搜索动作序列——"要到达那个房间,我应该先开门再转弯"
  3. 想象:生成从未经历过的场景——"如果重力是现在的两倍,世界会怎样"
  4. 反事实推理:评估已做决定的替代方案——"如果当时走另一条路会怎样"

没有世界模型,智能体只能做反应式行为(stimulus-response);有了世界模型,它能在行动之前先在"脑中"模拟。


四、"知道事实"与"拥有仿真器"的区别

这是一个容易混淆但极其根本的区分。

LLM 更像一个读过大量文本的"世界解说员",而不是一个内部带仿真器的"世界运行器"。

LLM 能做到的:说出"球松手会掉下去""杯子摔了可能碎"——这些是从文本中压缩出的世界知识。

LLM 不稳定的:多步空间追踪、隐变量维护、连续时间过程、动作导致的精确后果——因为它的训练目标是"预测下一个token",而不是"维护一个随时间演化的世界状态"。

核心差异在于:

维度 知道事实(LLM) 拥有仿真器(世界模型)
表示 文本中的语义关联 可演化的潜在状态
预测方式 统计共现 状态转移
多步推理 随步数衰减 可稳定向前推进
可干预性 弱——改变输入不保证一致性 强——改变动作,未来系统性改变
物理一致性 不保证 由动力学约束保证

模型完全可能靠"语言统计捷径"在测试中表现良好,而不必真正形成强大的世界动力学模块。这正是 shortcut 和伪因果的来源(详见大脑的先验知识中关于 shortcut 的讨论)。


五、两种经典方法:Dreamer 与 MuZero

Dreamer(Danijar Hafner)

Dreamer 是典型的潜在世界模型(latent world model)方法:

  • 从原始观测中学习一个潜在状态空间
  • 在潜在空间中学习动力学模型
  • 通过在想象中展开未来轨迹(imagination rollout)来做规划
  • 整个训练过程不需要在真实环境中大量交互

Dreamer 的哲学偏向"建模世界"——它试图学到一个尽可能忠实的世界表示,然后在这个表示上做决策。

MuZero(David Silver / DeepMind)

MuZero 是更"任务导向"的世界模型:

  • 不试图重建原始观测(比如像素)
  • 只学习对决策有用的部分:策略(policy)、价值(value)、奖励(reward)、隐藏状态动力学
  • 状态表示完全由任务性能驱动,不追求可解释性

MuZero 的哲学偏向"服务决策"——它只保留对行动最有用的隐藏状态演化,不关心这个表示是否"像"真实世界。

对比

维度 Dreamer MuZero
建模目标 尽可能忠实地表示世界 只保留对决策有用的信息
是否重建观测 是(生成潜在轨迹) 否(不关心真实观测)
决策导向程度 中等
哲学倾向 建模主义 工具主义
典型应用 连续控制、机器人 棋类、Atari 等离散决策
可解释性 较高(潜在状态可解码) 较低(隐藏状态不对应真实量)

两者都属于世界模型路线,只是风格不同。一个更像"先理解世界,再做决策",另一个更像"理解世界只是为了做更好的决策"。


六、根本性辩论:结构从何而来?

这是世界模型研究中最核心的分歧。

路线 A:端到端纯神经网络

足够大的模型 + 足够多的数据 → 因果/物理/结构会"涌现"出来。

  • 优点:通用性极强,不需要人工设计结构
  • 缺点:样本效率低,容易学到 shortcut 和伪因果,物理一致性不可靠

路线 B:显式结构先验

主动引入 object-centric 表示、因果图、物理守恒律、3D 一致性、时间连续性等。

  • 优点:样本效率高,泛化更强,物理一致性有保证
  • 缺点:难以设计,可能限制表达能力,结构加错了反而有害

融合路线:当前的主流共识

神经网络学习表示,结构先验做约束。

不是纯手工规则系统,也不是完全无结构的大黑箱。而是把正确的归纳偏置编进模型架构中——就像 CNN 把局部性和平移等变编进了视觉处理一样,只不过世界模型需要的先验远比 CNN 复杂。

这条融合路线的关键挑战是:哪些先验必须显式设计?哪些可以从数据中学出来? 这个问题目前没有定论。


七、2025-2026:世界模型成为最显著的范式转变

从 2025 年开始,世界模型已经从学术概念变成了产业界最重要的研究方向之一。目前至少有五种主要的竞争路径:

路径 核心思想 代表
JEPA 在抽象表示空间中预测 Yann LeCun / AMI Labs
空间智能 3D 空间结构理解与生成 Fei-Fei Li / World Labs
学习式仿真 从数据中学习物理规律 Google DeepMind / Genie 3
物理AI基础设施 物理感知的视频预测 NVIDIA Cosmos
主动推理 最小化自由能/惊讶 Karl Friston / VERSES

这五条路径从不同角度切入同一个问题:如何让 AI 拥有一个能运行的世界内部模型。它们的详细分析见 JEPA架构空间智能与学习式仿真


八、统一世界模型应该长什么样

如果我们不限于某一条路径,而是思考一个"理想的"统一世界模型应该具备什么特性,至少需要:

  1. 共享状态空间:图像、文字、动作、声音都映射到同一个潜在状态
  2. 状态持久性:对象被遮挡后仍然在内部状态中存在
  3. 动力学\(s_t, a_t \rightarrow s_{t+1}\)——状态能随动作向前推进
  4. 约束性:符合物理规则和因果规律
  5. 可干预性:改变动作,未来就系统性改变
  6. 组合性(compositionality):多个对象和关系能组合泛化到新场景

这与"多模态对齐"有本质区别。多模态对齐解决的是"这张图和这句话是不是在说同一件事"——它是一本跨模态词典。统一世界模型还要解决"接下来会怎样变?为什么会这样变?如果我施加动作,未来会如何系统性改变?"——它是一个物理仿真器加因果生成器。

核心区别:多模态对齐解决"这是什么",统一世界模型还要解决"它接下来会怎样"。


九、与先验知识的关系

世界模型与大脑的先验知识这个话题紧密相连。

人脑自带一个低精度但泛化极强的世界模型——物理连续性、物体持续存在、刚性、空间一致性、因果期待、重力直觉等。这些先验不是学来的,而是进化在数亿年中"预训练"进神经系统的。正是这些先验,让人类能从极少的经验中高效学习。

当前 AI 系统面临的核心困境是:它们没有这套先验。LLM 从文本中间接获取了大量世界知识,但这些知识是以统计关联而非因果机制的形式存在的。世界模型研究的终极目标,就是让 AI 系统也拥有类似的"内部世界仿真器"——无论这个仿真器是通过大规模数据涌现出来的,还是通过结构先验显式设计进去的。


十、开放问题

  1. 先验的颗粒度:人脑的先验是一整套层级结构,从低级的物理连续性到高级的社会意图感知。AI 的世界模型应该在哪个层级引入先验?
  2. 通用性与专用性的平衡:Dreamer 偏通用,MuZero 偏专用。理想的世界模型应该在哪个点上取得平衡?
  3. 评估标准:如何判断一个模型"真正理解了世界"还是只是"记住了统计模式"?目前缺乏可靠的评估方法。
  4. 五条路径是否会收敛:JEPA、空间智能、学习式仿真、物理 AI、主动推理——它们最终是否会融合成一个统一框架?

真正的人类智能,是"理解世界"和"在世界中行动"耦合的结果。世界模型研究的终极问题是:我们能否让机器也实现这种耦合。


评论 #