世界模型与内部表征

概述

智能体要在复杂环境中有效行动，需要对世界建立内部表征——即"世界模型"。世界模型使智能体能够在内部模拟动作的后果，而无需在真实环境中试错。从经典的符号表征到 LeCun 的 JEPA，再到 LLM 的隐式世界模型，本文探讨智能体内部表征的理论与实践。

1. 什么是世界模型？

世界模型是智能体对环境动态的内部表示，它能够预测：

\[ \hat{s}_{t+1} = f_{\text{world}}(s_t, a_t) \]

给定当前状态 \(s_t\) 和动作 \(a_t\)，世界模型预测下一个状态 \(\hat{s}_{t+1}\)。

更一般地，世界模型还可以预测奖励：

\[ (\hat{s}_{t+1}, \hat{r}_{t+1}) = f_{\text{world}}(s_t, a_t) \]

世界模型的核心功能

功能	描述	示例
预测	预测动作的后果	"如果我推这个杯子，它会掉下去"
规划	在内部模拟中搜索最优行动序列	"先开门，再走过去，再拿起来"
反事实推理	推理未发生的情况	"如果我没有关窗户，雨就会进来"
想象	生成可能的场景	"如果明天天气好，可以去公园"
学习	通过内部模拟产生训练数据	Dreamer 在"梦境"中学习策略

2. 世界模型的表征类型

graph TD
    A[世界模型表征] --> B[符号表征<br/>Symbolic]
    A --> C[分布式表征<br/>Distributed]
    A --> D[混合表征<br/>Hybrid]

    B --> B1[逻辑公式]
    B --> B2[语义网络]
    B --> B3[STRIPS 状态]

    C --> C1[神经网络隐状态]
    C --> C2[嵌入向量]
    C --> C3[潜在空间]

    D --> D1[符号+向量]
    D --> D2[结构化神经表征]
    D --> D3[LLM 知识+外部 KB]

2.1 符号表征

使用逻辑公式、谓词或状态变量描述世界：

\[ s = \{\text{on}(A, B), \text{on}(B, \text{table}), \text{clear}(A), \text{holding}(\text{nothing})\} \]

优点：精确、可组合、可解释

缺点：难以表示连续状态、处理不确定性困难、表达能力受限

2.2 分布式表征（神经网络）

使用向量或张量在潜在空间中表示世界状态：

\[ z_t = \text{Encoder}(o_t) \in \mathbb{R}^d \]

\[ \hat{z}_{t+1} = \text{Transition}(z_t, a_t) \]

\[ \hat{o}_{t+1} = \text{Decoder}(\hat{z}_{t+1}) \]

代表方法：

方法	核心思想	年份
World Models (Ha & Schmidhuber)	VAE + MDN-RNN	2018
Dreamer (Hafner et al.)	RSSM 潜在动态模型	2020
DreamerV3	通用世界模型	2023
IRIS	Transformer 世界模型	2023

2.3 LeCun 的 JEPA

Yann LeCun 提出的 Joint Embedding Predictive Architecture (JEPA) 是一种在表征空间而非像素空间中进行预测的世界模型：

\[ \hat{z}_y = f_{\theta}(z_x, z_c) \]

其中：

\(z_x = \text{Encoder}_x(x)\)：输入的表征
\(z_c\)：条件信息（如动作）的表征
\(\hat{z}_y\)：预测的目标表征
训练目标：最小化 \(\|\hat{z}_y - z_y\|^2\)

关键洞察：在潜在空间中预测比在像素空间中预测更高效，因为潜在空间过滤了无关的细节。

交叉引用

JEPA 与具身智能的关系详见表征与世界模型。关于世界模型的更广泛讨论见世界模型。

3. LLM 作为世界模型

3.1 LLM 的隐式世界模型

LLM 通过大规模语言预训练，是否隐式地学到了世界模型？

支持证据：

Othello-GPT（Li et al., 2023）：训练于棋步序列的 Transformer 内部学到了棋盘状态表征
LLM 能够正确推理物理因果关系（如"杯子被推到桌边会掉下去"）
LLM 能进行心理模拟（mental simulation）

反对证据：

LLM 在需要精确空间推理的任务上表现不佳
LLM 会"幻觉"不存在的事实
LLM 的"世界知识"可能只是统计关联而非因果理解

3.2 LLM 世界模型的形式化

将 LLM 视为在"语言描述空间"中操作的世界模型：

\[ \hat{d}_{t+1} = \text{LLM}(d_t, a_t^{\text{lang}}) \]

其中 \(d_t\) 是用自然语言描述的世界状态，\(a_t^{\text{lang}}\) 是用自然语言描述的动作。

与传统世界模型的区别：

维度	传统世界模型	LLM 世界模型
状态空间	数值向量 / 逻辑公式	自然语言描述
转移函数	学习的神经网络	预训练 LLM
训练数据	环境交互轨迹	互联网文本语料
精度	数值精确（在训练域内）	定性准确（但可能幻觉）
泛化	有限（域内泛化）	广泛（跨域但浅层）

3.3 基于 LLM 的心理模拟

智能体可以利用 LLM 进行"心理模拟"来评估行动方案：

给定任务：整理房间

心理模拟 1：先整理桌面 → 桌面整洁 → 有空间分类文件 → 效率高
心理模拟 2：先扫地 → 地面干净 → 但桌面灰尘会再掉落 → 效率低
结论：应该先整理桌面，再扫地

这种"想象"能力对应了规划中的前向搜索：

\[ \text{score}(a) = \text{LLM\_evaluate}(\text{simulate}(s, a)) \]

4. 世界模型用于规划

4.1 Model-Based 规划框架

graph TD
    S[当前状态 s_t] --> WM[世界模型]
    A1[动作候选 a1] --> WM
    A2[动作候选 a2] --> WM
    A3[动作候选 a3] --> WM
    WM --> S1[预测状态 s'_1]
    WM --> S2[预测状态 s'_2]
    WM --> S3[预测状态 s'_3]
    S1 --> EVAL[评估函数]
    S2 --> EVAL
    S3 --> EVAL
    EVAL --> BEST[选择最优动作]

4.2 LLM 智能体中的世界模型应用

应用场景	方法	描述
任务规划	心理模拟	想象执行每个子任务的结果
风险评估	反事实推理	"如果这个操作失败会怎样？"
方案比较	多路模拟	模拟多个方案选最优
安全检查	后果预测	"这个命令会删除重要文件吗？"
用户建模	心理理论	预测用户的反应和需求

4.3 Dreamer 范式的启发

Dreamer (Hafner et al., 2020) 在"梦境"（世界模型）中训练策略，减少了真实环境交互的需求：

\[ \pi^* = \arg\max_{\pi} \mathbb{E}_{z_0 \sim q} \left[ \sum_{t=0}^{H} \gamma^t r(z_t, a_t) \right] \]

其中状态转移完全在世界模型内部进行。

对 LLM 智能体的启示：

可以在 LLM 的"想象"中预演复杂操作，只在确信正确时执行
类似于 Tree of Thoughts 中的内部评估
减少不必要的外部工具调用（节省成本和时间）

5. 内部表征的评估

如何评估智能体的世界模型质量？

5.1 预测准确性

\[ \text{Error} = \mathbb{E}\left[\|s_{t+1} - \hat{s}_{t+1}\|^2\right] \]

5.2 规划支持能力

世界模型的价值最终体现在规划的质量上：

\[ \text{Value} = R(\text{plan with world model}) - R(\text{plan without world model}) \]

5.3 LLM 世界模型的评估

评估维度	方法	示例
物理直觉	物理推理基准	"球滚下斜面会加速还是减速？"
因果推理	反事实评估	"如果没有下雨，草地还会湿吗？"
空间推理	导航任务	"向北走两步，向东走三步，现在在哪？"
社会认知	Theory of Mind 测试	"Sally 不知道球被移动了"
时间推理	事件排序	"先煮水，再泡茶，不能反过来"

6. 未来方向

因果世界模型：从统计关联走向因果理解
多模态世界模型：整合视觉、语言、触觉等模态
分层世界模型：不同抽象层级的状态表征
可学习世界模型：从交互经验中持续改进
可组合世界模型：将不同域的模型组合起来

参考文献

Ha, D. & Schmidhuber, J. (2018). World Models. arXiv:1803.10122.
Hafner, D. et al. (2020). Dream to Control: Learning Behaviors by Latent Imagination. ICLR 2020.
Hafner, D. et al. (2023). Mastering Diverse Domains through World Models. arXiv:2301.04104.
LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. OpenReview.
Li, K. et al. (2023). Othello-GPT: Language Models Are Able to Infer World States. ICLR 2023.
Hao, S. et al. (2023). Reasoning with Language Model is Planning with World Model. EMNLP 2023.