世界模型与内部表征
概述
智能体要在复杂环境中有效行动,需要对世界建立内部表征——即"世界模型"。世界模型使智能体能够在内部模拟动作的后果,而无需在真实环境中试错。从经典的符号表征到 LeCun 的 JEPA,再到 LLM 的隐式世界模型,本文探讨智能体内部表征的理论与实践。
1. 什么是世界模型?
世界模型是智能体对环境动态的内部表示,它能够预测:
\[
\hat{s}_{t+1} = f_{\text{world}}(s_t, a_t)
\]
给定当前状态 \(s_t\) 和动作 \(a_t\),世界模型预测下一个状态 \(\hat{s}_{t+1}\)。
更一般地,世界模型还可以预测奖励:
\[
(\hat{s}_{t+1}, \hat{r}_{t+1}) = f_{\text{world}}(s_t, a_t)
\]
世界模型的核心功能
| 功能 | 描述 | 示例 |
|---|---|---|
| 预测 | 预测动作的后果 | "如果我推这个杯子,它会掉下去" |
| 规划 | 在内部模拟中搜索最优行动序列 | "先开门,再走过去,再拿起来" |
| 反事实推理 | 推理未发生的情况 | "如果我没有关窗户,雨就会进来" |
| 想象 | 生成可能的场景 | "如果明天天气好,可以去公园" |
| 学习 | 通过内部模拟产生训练数据 | Dreamer 在"梦境"中学习策略 |
2. 世界模型的表征类型
graph TD
A[世界模型表征] --> B[符号表征<br/>Symbolic]
A --> C[分布式表征<br/>Distributed]
A --> D[混合表征<br/>Hybrid]
B --> B1[逻辑公式]
B --> B2[语义网络]
B --> B3[STRIPS 状态]
C --> C1[神经网络隐状态]
C --> C2[嵌入向量]
C --> C3[潜在空间]
D --> D1[符号+向量]
D --> D2[结构化神经表征]
D --> D3[LLM 知识+外部 KB]
2.1 符号表征
使用逻辑公式、谓词或状态变量描述世界:
\[
s = \{\text{on}(A, B), \text{on}(B, \text{table}), \text{clear}(A), \text{holding}(\text{nothing})\}
\]
优点:精确、可组合、可解释
缺点:难以表示连续状态、处理不确定性困难、表达能力受限
2.2 分布式表征(神经网络)
使用向量或张量在潜在空间中表示世界状态:
\[
z_t = \text{Encoder}(o_t) \in \mathbb{R}^d
\]
\[
\hat{z}_{t+1} = \text{Transition}(z_t, a_t)
\]
\[
\hat{o}_{t+1} = \text{Decoder}(\hat{z}_{t+1})
\]
代表方法:
| 方法 | 核心思想 | 年份 |
|---|---|---|
| World Models (Ha & Schmidhuber) | VAE + MDN-RNN | 2018 |
| Dreamer (Hafner et al.) | RSSM 潜在动态模型 | 2020 |
| DreamerV3 | 通用世界模型 | 2023 |
| IRIS | Transformer 世界模型 | 2023 |
2.3 LeCun 的 JEPA
Yann LeCun 提出的 Joint Embedding Predictive Architecture (JEPA) 是一种在表征空间而非像素空间中进行预测的世界模型:
\[
\hat{z}_y = f_{\theta}(z_x, z_c)
\]
其中:
- \(z_x = \text{Encoder}_x(x)\):输入的表征
- \(z_c\):条件信息(如动作)的表征
- \(\hat{z}_y\):预测的目标表征
- 训练目标:最小化 \(\|\hat{z}_y - z_y\|^2\)
关键洞察:在潜在空间中预测比在像素空间中预测更高效,因为潜在空间过滤了无关的细节。
3. LLM 作为世界模型
3.1 LLM 的隐式世界模型
LLM 通过大规模语言预训练,是否隐式地学到了世界模型?
支持证据:
- Othello-GPT(Li et al., 2023):训练于棋步序列的 Transformer 内部学到了棋盘状态表征
- LLM 能够正确推理物理因果关系(如"杯子被推到桌边会掉下去")
- LLM 能进行心理模拟(mental simulation)
反对证据:
- LLM 在需要精确空间推理的任务上表现不佳
- LLM 会"幻觉"不存在的事实
- LLM 的"世界知识"可能只是统计关联而非因果理解
3.2 LLM 世界模型的形式化
将 LLM 视为在"语言描述空间"中操作的世界模型:
\[
\hat{d}_{t+1} = \text{LLM}(d_t, a_t^{\text{lang}})
\]
其中 \(d_t\) 是用自然语言描述的世界状态,\(a_t^{\text{lang}}\) 是用自然语言描述的动作。
与传统世界模型的区别:
| 维度 | 传统世界模型 | LLM 世界模型 |
|---|---|---|
| 状态空间 | 数值向量 / 逻辑公式 | 自然语言描述 |
| 转移函数 | 学习的神经网络 | 预训练 LLM |
| 训练数据 | 环境交互轨迹 | 互联网文本语料 |
| 精度 | 数值精确(在训练域内) | 定性准确(但可能幻觉) |
| 泛化 | 有限(域内泛化) | 广泛(跨域但浅层) |
3.3 基于 LLM 的心理模拟
智能体可以利用 LLM 进行"心理模拟"来评估行动方案:
给定任务:整理房间
心理模拟 1:先整理桌面 → 桌面整洁 → 有空间分类文件 → 效率高
心理模拟 2:先扫地 → 地面干净 → 但桌面灰尘会再掉落 → 效率低
结论:应该先整理桌面,再扫地
这种"想象"能力对应了规划中的前向搜索:
\[
\text{score}(a) = \text{LLM\_evaluate}(\text{simulate}(s, a))
\]
4. 世界模型用于规划
4.1 Model-Based 规划框架
graph TD
S[当前状态 s_t] --> WM[世界模型]
A1[动作候选 a1] --> WM
A2[动作候选 a2] --> WM
A3[动作候选 a3] --> WM
WM --> S1[预测状态 s'_1]
WM --> S2[预测状态 s'_2]
WM --> S3[预测状态 s'_3]
S1 --> EVAL[评估函数]
S2 --> EVAL
S3 --> EVAL
EVAL --> BEST[选择最优动作]
4.2 LLM 智能体中的世界模型应用
| 应用场景 | 方法 | 描述 |
|---|---|---|
| 任务规划 | 心理模拟 | 想象执行每个子任务的结果 |
| 风险评估 | 反事实推理 | "如果这个操作失败会怎样?" |
| 方案比较 | 多路模拟 | 模拟多个方案选最优 |
| 安全检查 | 后果预测 | "这个命令会删除重要文件吗?" |
| 用户建模 | 心理理论 | 预测用户的反应和需求 |
4.3 Dreamer 范式的启发
Dreamer (Hafner et al., 2020) 在"梦境"(世界模型)中训练策略,减少了真实环境交互的需求:
\[
\pi^* = \arg\max_{\pi} \mathbb{E}_{z_0 \sim q} \left[ \sum_{t=0}^{H} \gamma^t r(z_t, a_t) \right]
\]
其中状态转移完全在世界模型内部进行。
对 LLM 智能体的启示:
- 可以在 LLM 的"想象"中预演复杂操作,只在确信正确时执行
- 类似于 Tree of Thoughts 中的内部评估
- 减少不必要的外部工具调用(节省成本和时间)
5. 内部表征的评估
如何评估智能体的世界模型质量?
5.1 预测准确性
\[
\text{Error} = \mathbb{E}\left[\|s_{t+1} - \hat{s}_{t+1}\|^2\right]
\]
5.2 规划支持能力
世界模型的价值最终体现在规划的质量上:
\[
\text{Value} = R(\text{plan with world model}) - R(\text{plan without world model})
\]
5.3 LLM 世界模型的评估
| 评估维度 | 方法 | 示例 |
|---|---|---|
| 物理直觉 | 物理推理基准 | "球滚下斜面会加速还是减速?" |
| 因果推理 | 反事实评估 | "如果没有下雨,草地还会湿吗?" |
| 空间推理 | 导航任务 | "向北走两步,向东走三步,现在在哪?" |
| 社会认知 | Theory of Mind 测试 | "Sally 不知道球被移动了" |
| 时间推理 | 事件排序 | "先煮水,再泡茶,不能反过来" |
6. 未来方向
- 因果世界模型:从统计关联走向因果理解
- 多模态世界模型:整合视觉、语言、触觉等模态
- 分层世界模型:不同抽象层级的状态表征
- 可学习世界模型:从交互经验中持续改进
- 可组合世界模型:将不同域的模型组合起来
参考文献
- Ha, D. & Schmidhuber, J. (2018). World Models. arXiv:1803.10122.
- Hafner, D. et al. (2020). Dream to Control: Learning Behaviors by Latent Imagination. ICLR 2020.
- Hafner, D. et al. (2023). Mastering Diverse Domains through World Models. arXiv:2301.04104.
- LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. OpenReview.
- Li, K. et al. (2023). Othello-GPT: Language Models Are Able to Infer World States. ICLR 2023.
- Hao, S. et al. (2023). Reasoning with Language Model is Planning with World Model. EMNLP 2023.