表征与世界模型
概述
智能体如何在内部表征外部世界?如何利用这些表征进行预测和规划?本文探讨具身智能中的核心表征问题:从预测编码的自由能原理到可学习的世界模型,从物体中心表征到空间表征(NeRF、3D Gaussian Splatting)。
1. 内部表征的哲学基础
1.1 表征主义 vs 反表征主义
这是具身认知中一个根本性的争论:
| 立场 | 主张 | 代表人物 |
|---|---|---|
| 表征主义 | 智能需要内部世界模型 | Marr, Craik |
| 反表征主义 | 智能可以无需表征(反应式) | Brooks, Beer |
| 最小表征主义 | 需要表征,但应尽量简约 | Clark |
现代共识:复杂任务(如长程操作、多步规划)需要某种形式的内部表征,但表征可以是隐式的、分布式的,不一定是显式的符号表征。
1.2 Craik 的内部模型假说
Kenneth Craik (1943) 提出:
生物体在大脑中构建外部世界的"小规模模型",用于预测事件、推理和规划。
这一假说是现代世界模型研究的哲学源头。
2. 预测编码与自由能原理
2.1 预测编码(Predictive Coding)
预测编码理论认为,大脑的核心功能是预测——持续预测下一时刻的感觉输入,并最小化预测误差。
层级预测编码:
在层级结构中,每一层 \(l\) 生成对下层输入的预测,并计算预测误差:
其中 \(\hat{s}_{l+1}\) 是上层的状态估计,\(g_l\) 是生成模型。预测误差 \(\epsilon_l\) 向上传递,驱动上层更新其状态估计。
2.2 自由能原理(Free Energy Principle)
Karl Friston 提出的自由能原理统一了感知、行动和学习:
其中:
- \(F\):变分自由能(需要最小化的量)
- \(q(s|o)\):后验信念(大脑对隐状态的估计)
- \(p(s)\):先验信念
- \(p(o)\):观测的对数似然(模型证据)
自由能的分解:
因此 \(F \geq -\ln p(o)\),最小化自由能等价于:
- 感知(更新 \(q\)):使后验信念更准确
- 行动(改变 \(o\)):使观测符合预期
- 学习(更新模型):使生成模型更准确
2.3 主动推断(Active Inference)
在自由能框架下,行动的目的是最小化预期自由能:
智能体选择那些能使未来观测符合其偏好(先验)的动作。这统一了感知和行动——二者都是自由能最小化的不同方面。
对机器人学的意义:
- 提供了统一的感知-行动理论框架
- 天然处理不确定性和主动探索
- 解释了好奇心驱动的探索行为
3. 机器人学中的世界模型
3.1 学习的动力学模型
世界模型的核心是学习环境的状态转移函数:
确定性模型:
随机模型(更适合真实世界):
3.2 RSSM(Recurrent State Space Model)
Hafner et al. (2019) 提出的 RSSM 是目前最成功的世界模型架构之一(用于 Dreamer 系列):
状态空间由确定性部分 \(h_t\) 和随机部分 \(z_t\) 组成:
flowchart LR
subgraph RSSM
A["h_{t-1}, z_{t-1}"] -->|GRU| B["h_t"]
C["a_{t-1}"] -->|GRU| B
B -->|先验网络| D["z_t ~ prior"]
B -->|后验网络| E["z_t ~ posterior"]
F["o_t"] -->|编码器| E
B --> G["观测解码"]
D --> G
G --> H["ô_t"]
end
训练目标:
3.3 世界模型用于规划
有了世界模型,可以在"想象"中进行规划:
模型预测控制(MPC):
Dreamer 的想象规划:
在学习的潜在空间中展开想象轨迹,用 Actor-Critic 学习策略,避免了真实环境交互。
4. 物体中心表征
4.1 为什么需要物体中心表征
传统的整体表征(如 CNN 特征)将整个场景编码为单一向量,但:
- 难以进行组合泛化(新物体组合)
- 难以推理物体间关系
- 难以跟踪物体的个体动态
4.2 Slot Attention
Locatello et al. (2020) 提出的 Slot Attention 是物体中心表征的代表性方法:
核心思想:将场景分解为 \(K\) 个"槽"(slot),每个槽表示一个物体或物体部分。
迭代注意力过程:
其中 \(x_i\) 为输入特征,\(s_j\) 为第 \(j\) 个槽。
特点:
- 槽之间竞争输入特征(softmax 在槽维度归一化)
- 自发涌现的物体分割
- 与后续的动态预测模型自然结合
4.3 物体中心的世界模型
将 Slot Attention 与世界模型结合:
物体间的交互可以用图神经网络(GNN)建模,实现关系推理。
5. 空间表征
5.1 Neural Radiance Fields(NeRF)
Mildenhall et al. (2020) 提出的 NeRF 通过隐式神经网络表示 3D 场景:
基本公式:
其中 \(\mathbf{x} = (x, y, z)\) 为空间坐标,\(\mathbf{d} = (\theta, \phi)\) 为观察方向,\(\mathbf{c} = (r, g, b)\) 为颜色,\(\sigma\) 为体密度。
体渲染方程:
其中透射率 \(T(t) = \exp\left(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) \, ds\right)\)。
在机器人学中的应用:
- 场景理解:从少量视角重建完整 3D 场景
- 视角规划:在 NeRF 中模拟新视角来规划观察路径
- 抓取规划:从 NeRF 提取几何信息用于抓取点生成
- 动态场景:D-NeRF 等变体处理动态环境
5.2 3D Gaussian Splatting
Kerbl et al. (2023) 提出的 3D Gaussian Splatting 用显式的 3D 高斯球表示场景:
每个高斯球的参数:
- \(\mu_i \in \mathbb{R}^3\):中心位置
- \(\Sigma_i \in \mathbb{R}^{3 \times 3}\):协方差矩阵(形状和方向)
- \(\alpha_i \in [0, 1]\):不透明度
- \(c_i\):球谐函数系数(视角依赖的颜色)
渲染:通过将 3D 高斯投影到 2D 并进行 alpha 混合:
其中 \(\alpha_i' = \alpha_i \exp(-\frac{1}{2}(\mathbf{p}-\mu_i')^T \Sigma_i'^{-1} (\mathbf{p}-\mu_i'))\)。
相比 NeRF 的优势:
| 维度 | NeRF | 3D-GS |
|---|---|---|
| 渲染速度 | 慢(体积采样) | 实时(光栅化) |
| 训练速度 | 慢(数小时) | 快(分钟级) |
| 编辑能力 | 困难 | 直接操作高斯球 |
| 动态场景 | 需要额外设计 | 自然支持 |
| 内存占用 | 小(隐式) | 较大(显式) |
在机器人学中的应用:
- 实时场景重建:支持机器人在线构建 3D 地图
- 物体操作:追踪和预测可变形物体
- 仿真:基于 GS 的高保真仿真环境
- Sim-to-Real:缩小仿真与现实的视觉差距
5.3 点云与体素表征
除了 NeRF 和 3D-GS,传统的空间表征仍然重要:
点云:
- 直接来自深度传感器
- PointNet/PointNet++:直接处理无序点集
- 适合抓取点检测、碰撞检测
体素网格:
- 规则的 3D 网格
- 3D CNN 自然处理
- 内存效率较低但结构化
TSDF(Truncated Signed Distance Function):
- 经典的增量式 3D 重建方法
- 与 SLAM 系统天然集成
- 提供隐式的表面表征
6. 表征学习方法
6.1 对比学习
学习将相似观测映射到相近的表征空间:
在机器人学中的应用:
- 不同视角的同一场景 → 正对
- 时序相邻帧 → 正对
- 学习视角不变、遮挡鲁棒的表征
6.2 重建式表征学习
通过重建任务学习有意义的表征:
- 自编码器(AE/VAE):重建图像
- MAE(Masked Autoencoder):重建被遮挡的 patch
- 视频预测:预测未来帧
6.3 预训练视觉表征
直接使用在大规模数据上预训练的视觉特征:
- CLIP:视觉-语言对齐的表征
- DINOv2:自监督视觉表征
- SPA(Spatial Patch Alignment):针对机器人任务的空间表征
7. 总结与展望
核心观点
- 世界模型是规划的基础:没有世界模型就只能做反应式控制
- 表征的粒度很重要:物体中心表征比整体表征更适合操作任务
- 空间表征在快速进步:NeRF → 3D-GS 实现了质的飞跃
- 预训练+微调:大规模预训练的视觉表征成为默认选择
开放挑战
- 如何构建能支持长时间推理的世界模型
- 如何在表征中融合物理先验
- 如何实现实时、高精度的动态 3D 表征
- 表征的可迁移性:从仿真到真实、从一个任务到另一个任务
参考资料
- Friston, K. (2010). "The Free-Energy Principle: A Unified Brain Theory?"
- Hafner et al. (2019). "Learning Latent Dynamics for Planning from Pixels" (PlaNet)
- Hafner et al. (2020). "Dream to Control: Learning Behaviors by Latent Imagination" (Dreamer)
- Locatello et al. (2020). "Object-Centric Learning with Slot Attention"
- Mildenhall et al. (2020). "NeRF: Representing Scenes as Neural Radiance Fields"
- Kerbl et al. (2023). "3D Gaussian Splatting for Real-Time Radiance Field Rendering"
相关笔记: