Skip to content

空间智能与学习式仿真

一、引言

除了 JEPA 之外,2025-2026 年间涌现了多条通往世界模型的不同路径。本文聚焦其中三条:空间智能学习式仿真物理 AI 基础设施。它们从不同角度切入同一个核心问题:

如何让 AI 拥有一个能运行的、关于物理世界的内部模型?

每条路径背后都有一个关于"世界模型应该是什么样"的不同假设。理解这些假设之间的差异和互补性,是理解当前世界模型研究格局的关键。


二、空间智能 —— Fei-Fei Li / World Labs

核心论点

空间智能(Spatial Intelligence)的核心论点是:

智能的基础是对三维空间结构的理解。真正理解世界,意味着理解事物在三维空间中的存在、关系和变化。

这个论点来自 Fei-Fei Li 团队的一个深刻洞察:人类理解世界的方式是三维的,而不是二维的。我们不是生活在图像中,而是生活在一个有深度、有体积、有空间关系的三维世界里。

World Labs 与 Marble

World Labs 是 Fei-Fei Li 创立的公司,估值约 50 亿美元,专注于空间智能研究。

其核心产品 Marble 能够从文本、图像或视频生成持久的、可探索的三维环境

这里"持久的、可探索的"是关键修饰语:

  • 持久性(persistence):生成的 3D 世界不是一次性的渲染结果,而是一个持续存在的环境。你可以离开一个区域再回来,它还在那里。
  • 可探索性(navigability):用户可以在生成的 3D 世界中自由移动、变换视角。这不是生成一张好看的图——而是生成一个空间。

为什么三维如此重要

这个问题值得深入思考。二维图像生成已经非常成熟(如 DALL-E、Midjourney),为什么还需要三维?

维度 二维图像生成 三维世界生成
输出 一张平面图片 一个可导航的空间
视角 固定单一视角 任意视角
遮挡处理 不处理——被挡住的就看不见 必须建模完整的三维结构
物体理解 表面纹理 体积、深度、空间关系
持久性 无——每次生成独立 有——世界持续存在

二维生成可以通过"画出看起来像真的"来过关。三维生成无法靠这个——你必须真正理解空间结构,否则用户一旦移动视角,不一致性就会暴露出来。

三维世界生成是对模型空间理解能力的一种更严格的测试。

与人类认知的连接

人类的空间认知是极其基础的能力——婴儿在几个月大时就展现出对三维空间的初步理解(物体持续存在、深度知觉等)。空间智能路线的哲学假设是:

如果我们能让 AI 像人类一样理解三维空间,其他形式的世界理解就有了坚实的基础。


三、学习式仿真 —— Google DeepMind / Genie

核心论点

学习式仿真(Learned Simulation)的核心论点是:

不需要手工编写物理引擎——让模型直接从数据中学习物理规律。

传统的仿真器(如游戏引擎、物理模拟器)依赖人工编写的物理规则——重力加速度、碰撞检测、摩擦系数等。学习式仿真的想法是:能不能让神经网络自己从观察数据中学会这些规律?

Genie 3

Genie 3(2025 年 8 月发布)是 Google DeepMind 的第三代交互式世界模型,也是学习式仿真路线最重要的里程碑。

关键技术指标:

  • 实时交互:第一个能实时运行的交互式世界模型
  • 720p / 24fps:生成可导航的三维环境,画质和帧率达到可用水平
  • 无硬编码物理:所有物理行为都是从数据中学习的,没有预设的物理方程

据报道,OpenAI 在看到 Genie 3 的演示后启动了内部"紧急响应(code red)"——这说明业界将学习式仿真视为一种具有颠覆性的技术路线。

"涌现物理"的哲学

Genie 3 代表的是一种激进的哲学立场:

物理规律不需要被显式编程——给足够多的数据和足够大的模型,物理会从数据中涌现出来。

这与世界模型中讨论的"路线 A:端到端纯神经网络"一脉相承。它的吸引力在于通用性——不需要为每种物理现象单独编写规则;它的风险在于可靠性——涌现出来的"物理"是否真正稳定和一致?

开放问题

学习式仿真面临几个关键挑战:

  1. 物理一致性:模型学到的"物理"是否在所有情况下都自洽?还是只在训练分布内近似正确?
  2. 长期稳定性:随着仿真时间推进,误差是否会累积并导致不真实的行为?
  3. 可控性:用户能否精确控制仿真中的物理参数(比如改变重力),还是模型只能复现它见过的物理?

四、物理 AI 基础设施 —— NVIDIA Cosmos

定位

NVIDIA Cosmos 的定位不同于上述两者——它不是一个终端应用,而是一个基础设施层

Cosmos 提供的是物理感知的世界模型基础能力,供其他 AI 系统(尤其是机器人和自动驾驶)调用。

核心能力

Cosmos 的核心是基础世界模型(foundation world model),能够生成物理感知的视频预测:

  • 给定当前场景和动作,预测未来场景的视觉变化
  • 预测结果符合基本物理约束(物体不会凭空消失、运动轨迹连续等)
  • 下载量超过 200 万次,说明它已经成为机器人和具身AI领域的重要基础组件

基础设施思维

Cosmos 的思路是:

与其让每个应用都从头训练自己的世界模型,不如提供一个通用的、物理感知的世界模型作为基础设施。

这类似于 LLM 领域的基础模型思路——先训练一个大的通用模型,然后通过微调适配不同任务。Cosmos 想在世界模型领域做同样的事。


五、五条路径的全景对比

加上 JEPA 和 Karl Friston 的主动推理(Active Inference),当前世界模型研究至少有五条主要路径:

路径 核心思想 关键特征 代表机构 核心优势
JEPA 在抽象表示空间中预测 极端样本效率 LeCun / AMI Labs 不浪费容量在无关细节上
空间智能 3D 空间结构理解与生成 持久可导航的 3D 世界 Fei-Fei Li / World Labs 接近人类的空间认知方式
学习式仿真 从数据中学习物理规律 实时交互式世界模型 DeepMind / Genie 3 通用性强,不需手工物理引擎
物理AI 物理感知的视频预测 基础设施层 NVIDIA Cosmos 可供其他系统调用的通用组件
主动推理 最小化自由能/惊讶 生物学合理性 Karl Friston / VERSES 与神经科学有深刻联系

各路径的哲学假设

深入比较这五条路径,可以发现它们的根本分歧在于"世界模型最重要的特性是什么":

  • JEPA 认为最重要的是表示的抽象层次——在正确的抽象层面预测,比在原始信号层面预测更高效
  • 空间智能认为最重要的是三维空间结构——理解三维是理解世界的前提
  • 学习式仿真认为最重要的是交互性和实时性——世界模型必须能被实时交互地使用
  • 物理 AI认为最重要的是可复用性——世界模型应该是基础设施,而不是特定应用
  • 主动推理认为最重要的是与生物系统的一致性——世界模型应该遵循大脑运作的基本原理

六、收敛还是分化?

一个自然的问题是:这五条路径最终会收敛成一个统一框架,还是会继续分化?

收敛的迹象

  • 所有路径都在构建某种形式的"内部世界表示"
  • 所有路径都认为仅靠文本/token预测不足以理解世界
  • 多条路径开始交叉借鉴——比如空间智能借鉴学习式仿真的技术,JEPA 开始考虑 3D 结构

分化的可能

  • 不同路径优化不同目标函数,可能到达不同的局部最优
  • "通用世界模型"可能根本不存在——不同领域可能需要不同类型的世界模型
  • 商业利益可能推动各路径独立发展而非融合

一种可能的统一视角

如果我们回到世界模型中提出的统一世界模型的六个要素——共享状态空间、状态持久性、动力学、约束性、可干预性、组合性——可以发现:

  • JEPA 主攻共享状态空间动力学
  • 空间智能主攻状态持久性约束性(三维一致性)
  • 学习式仿真主攻动力学可干预性
  • 物理 AI 提供基础设施层面的约束性
  • 主动推理提供理论框架

五条路径可能不是在竞争,而是在解决统一世界模型的不同子问题。


七、归纳偏置的选择

回到大脑的先验知识中的核心问题:哪些归纳偏置最重要?

五条路径实际上选择了不同的归纳偏置:

路径 核心归纳偏置
JEPA 语义抽象比像素细节更重要
空间智能 三维空间结构是世界的基本骨架
学习式仿真 物理规律可以从足够多的数据中涌现
物理 AI 物理一致性是不可或缺的约束
主动推理 智能的本质是最小化预测误差

人脑的答案是:以上全部。人脑既有抽象表示能力,又有三维空间理解,既能学习物理直觉,又有物理一致性约束,还在持续最小化预测误差。

这或许暗示了最终的方向:

真正的世界模型不是从某一个归纳偏置出发走到底,而是将多种归纳偏置整合进一个统一的架构中。


八、开放问题

  1. 数据来源:空间智能和学习式仿真都需要大量 3D/视频数据。高质量 3D 数据的获取远比文本数据困难——这会成为瓶颈吗?
  2. 评估标准:如何评价一个世界模型的好坏?是看生成质量(FID),还是看下游任务表现(机器人成功率),还是看物理一致性?不同评估标准可能导向不同的研究方向。
  3. 计算成本:实时运行一个高保真世界模型的计算需求是巨大的。Genie 3 实现了 720p/24fps,但这远未达到人脑的仿真精度。
  4. 从仿真到行动:即使有了完美的世界模型,从"理解世界如何运作"到"在世界中有效行动"之间,还需要什么?规划算法、价值函数、探索策略——这些与世界模型的接口如何设计?

世界模型的研究正处于一个激动人心的阶段。五条路径齐头并进,各有突破。它们最终是否会汇聚成一个统一的范式,是未来几年 AI 领域最值得关注的问题之一。


评论 #