空间智能与学习式仿真
一、引言
除了 JEPA 之外,2025-2026 年间涌现了多条通往世界模型的不同路径。本文聚焦其中三条:空间智能、学习式仿真和物理 AI 基础设施。它们从不同角度切入同一个核心问题:
如何让 AI 拥有一个能运行的、关于物理世界的内部模型?
每条路径背后都有一个关于"世界模型应该是什么样"的不同假设。理解这些假设之间的差异和互补性,是理解当前世界模型研究格局的关键。
二、空间智能 —— Fei-Fei Li / World Labs
核心论点
空间智能(Spatial Intelligence)的核心论点是:
智能的基础是对三维空间结构的理解。真正理解世界,意味着理解事物在三维空间中的存在、关系和变化。
这个论点来自 Fei-Fei Li 团队的一个深刻洞察:人类理解世界的方式是三维的,而不是二维的。我们不是生活在图像中,而是生活在一个有深度、有体积、有空间关系的三维世界里。
World Labs 与 Marble
World Labs 是 Fei-Fei Li 创立的公司,估值约 50 亿美元,专注于空间智能研究。
其核心产品 Marble 能够从文本、图像或视频生成持久的、可探索的三维环境。
这里"持久的、可探索的"是关键修饰语:
- 持久性(persistence):生成的 3D 世界不是一次性的渲染结果,而是一个持续存在的环境。你可以离开一个区域再回来,它还在那里。
- 可探索性(navigability):用户可以在生成的 3D 世界中自由移动、变换视角。这不是生成一张好看的图——而是生成一个空间。
为什么三维如此重要
这个问题值得深入思考。二维图像生成已经非常成熟(如 DALL-E、Midjourney),为什么还需要三维?
| 维度 | 二维图像生成 | 三维世界生成 |
|---|---|---|
| 输出 | 一张平面图片 | 一个可导航的空间 |
| 视角 | 固定单一视角 | 任意视角 |
| 遮挡处理 | 不处理——被挡住的就看不见 | 必须建模完整的三维结构 |
| 物体理解 | 表面纹理 | 体积、深度、空间关系 |
| 持久性 | 无——每次生成独立 | 有——世界持续存在 |
二维生成可以通过"画出看起来像真的"来过关。三维生成无法靠这个——你必须真正理解空间结构,否则用户一旦移动视角,不一致性就会暴露出来。
三维世界生成是对模型空间理解能力的一种更严格的测试。
与人类认知的连接
人类的空间认知是极其基础的能力——婴儿在几个月大时就展现出对三维空间的初步理解(物体持续存在、深度知觉等)。空间智能路线的哲学假设是:
如果我们能让 AI 像人类一样理解三维空间,其他形式的世界理解就有了坚实的基础。
三、学习式仿真 —— Google DeepMind / Genie
核心论点
学习式仿真(Learned Simulation)的核心论点是:
不需要手工编写物理引擎——让模型直接从数据中学习物理规律。
传统的仿真器(如游戏引擎、物理模拟器)依赖人工编写的物理规则——重力加速度、碰撞检测、摩擦系数等。学习式仿真的想法是:能不能让神经网络自己从观察数据中学会这些规律?
Genie 3
Genie 3(2025 年 8 月发布)是 Google DeepMind 的第三代交互式世界模型,也是学习式仿真路线最重要的里程碑。
关键技术指标:
- 实时交互:第一个能实时运行的交互式世界模型
- 720p / 24fps:生成可导航的三维环境,画质和帧率达到可用水平
- 无硬编码物理:所有物理行为都是从数据中学习的,没有预设的物理方程
据报道,OpenAI 在看到 Genie 3 的演示后启动了内部"紧急响应(code red)"——这说明业界将学习式仿真视为一种具有颠覆性的技术路线。
"涌现物理"的哲学
Genie 3 代表的是一种激进的哲学立场:
物理规律不需要被显式编程——给足够多的数据和足够大的模型,物理会从数据中涌现出来。
这与世界模型中讨论的"路线 A:端到端纯神经网络"一脉相承。它的吸引力在于通用性——不需要为每种物理现象单独编写规则;它的风险在于可靠性——涌现出来的"物理"是否真正稳定和一致?
开放问题
学习式仿真面临几个关键挑战:
- 物理一致性:模型学到的"物理"是否在所有情况下都自洽?还是只在训练分布内近似正确?
- 长期稳定性:随着仿真时间推进,误差是否会累积并导致不真实的行为?
- 可控性:用户能否精确控制仿真中的物理参数(比如改变重力),还是模型只能复现它见过的物理?
四、物理 AI 基础设施 —— NVIDIA Cosmos
定位
NVIDIA Cosmos 的定位不同于上述两者——它不是一个终端应用,而是一个基础设施层。
Cosmos 提供的是物理感知的世界模型基础能力,供其他 AI 系统(尤其是机器人和自动驾驶)调用。
核心能力
Cosmos 的核心是基础世界模型(foundation world model),能够生成物理感知的视频预测:
- 给定当前场景和动作,预测未来场景的视觉变化
- 预测结果符合基本物理约束(物体不会凭空消失、运动轨迹连续等)
- 下载量超过 200 万次,说明它已经成为机器人和具身AI领域的重要基础组件
基础设施思维
Cosmos 的思路是:
与其让每个应用都从头训练自己的世界模型,不如提供一个通用的、物理感知的世界模型作为基础设施。
这类似于 LLM 领域的基础模型思路——先训练一个大的通用模型,然后通过微调适配不同任务。Cosmos 想在世界模型领域做同样的事。
五、五条路径的全景对比
加上 JEPA 和 Karl Friston 的主动推理(Active Inference),当前世界模型研究至少有五条主要路径:
| 路径 | 核心思想 | 关键特征 | 代表机构 | 核心优势 |
|---|---|---|---|---|
| JEPA | 在抽象表示空间中预测 | 极端样本效率 | LeCun / AMI Labs | 不浪费容量在无关细节上 |
| 空间智能 | 3D 空间结构理解与生成 | 持久可导航的 3D 世界 | Fei-Fei Li / World Labs | 接近人类的空间认知方式 |
| 学习式仿真 | 从数据中学习物理规律 | 实时交互式世界模型 | DeepMind / Genie 3 | 通用性强,不需手工物理引擎 |
| 物理AI | 物理感知的视频预测 | 基础设施层 | NVIDIA Cosmos | 可供其他系统调用的通用组件 |
| 主动推理 | 最小化自由能/惊讶 | 生物学合理性 | Karl Friston / VERSES | 与神经科学有深刻联系 |
各路径的哲学假设
深入比较这五条路径,可以发现它们的根本分歧在于"世界模型最重要的特性是什么":
- JEPA 认为最重要的是表示的抽象层次——在正确的抽象层面预测,比在原始信号层面预测更高效
- 空间智能认为最重要的是三维空间结构——理解三维是理解世界的前提
- 学习式仿真认为最重要的是交互性和实时性——世界模型必须能被实时交互地使用
- 物理 AI认为最重要的是可复用性——世界模型应该是基础设施,而不是特定应用
- 主动推理认为最重要的是与生物系统的一致性——世界模型应该遵循大脑运作的基本原理
六、收敛还是分化?
一个自然的问题是:这五条路径最终会收敛成一个统一框架,还是会继续分化?
收敛的迹象
- 所有路径都在构建某种形式的"内部世界表示"
- 所有路径都认为仅靠文本/token预测不足以理解世界
- 多条路径开始交叉借鉴——比如空间智能借鉴学习式仿真的技术,JEPA 开始考虑 3D 结构
分化的可能
- 不同路径优化不同目标函数,可能到达不同的局部最优
- "通用世界模型"可能根本不存在——不同领域可能需要不同类型的世界模型
- 商业利益可能推动各路径独立发展而非融合
一种可能的统一视角
如果我们回到世界模型中提出的统一世界模型的六个要素——共享状态空间、状态持久性、动力学、约束性、可干预性、组合性——可以发现:
- JEPA 主攻共享状态空间和动力学
- 空间智能主攻状态持久性和约束性(三维一致性)
- 学习式仿真主攻动力学和可干预性
- 物理 AI 提供基础设施层面的约束性
- 主动推理提供理论框架
五条路径可能不是在竞争,而是在解决统一世界模型的不同子问题。
七、归纳偏置的选择
回到大脑的先验知识中的核心问题:哪些归纳偏置最重要?
五条路径实际上选择了不同的归纳偏置:
| 路径 | 核心归纳偏置 |
|---|---|
| JEPA | 语义抽象比像素细节更重要 |
| 空间智能 | 三维空间结构是世界的基本骨架 |
| 学习式仿真 | 物理规律可以从足够多的数据中涌现 |
| 物理 AI | 物理一致性是不可或缺的约束 |
| 主动推理 | 智能的本质是最小化预测误差 |
人脑的答案是:以上全部。人脑既有抽象表示能力,又有三维空间理解,既能学习物理直觉,又有物理一致性约束,还在持续最小化预测误差。
这或许暗示了最终的方向:
真正的世界模型不是从某一个归纳偏置出发走到底,而是将多种归纳偏置整合进一个统一的架构中。
八、开放问题
- 数据来源:空间智能和学习式仿真都需要大量 3D/视频数据。高质量 3D 数据的获取远比文本数据困难——这会成为瓶颈吗?
- 评估标准:如何评价一个世界模型的好坏?是看生成质量(FID),还是看下游任务表现(机器人成功率),还是看物理一致性?不同评估标准可能导向不同的研究方向。
- 计算成本:实时运行一个高保真世界模型的计算需求是巨大的。Genie 3 实现了 720p/24fps,但这远未达到人脑的仿真精度。
- 从仿真到行动:即使有了完美的世界模型,从"理解世界如何运作"到"在世界中有效行动"之间,还需要什么?规划算法、价值函数、探索策略——这些与世界模型的接口如何设计?
世界模型的研究正处于一个激动人心的阶段。五条路径齐头并进,各有突破。它们最终是否会汇聚成一个统一的范式,是未来几年 AI 领域最值得关注的问题之一。