空间智能与学习式仿真

一、引言

除了 JEPA 之外，2025-2026 年间涌现了多条通往世界模型的不同路径。本文聚焦其中三条：空间智能、学习式仿真和物理 AI 基础设施。它们从不同角度切入同一个核心问题：

如何让 AI 拥有一个能运行的、关于物理世界的内部模型？

每条路径背后都有一个关于"世界模型应该是什么样"的不同假设。理解这些假设之间的差异和互补性，是理解当前世界模型研究格局的关键。

二、空间智能 —— Fei-Fei Li / World Labs

核心论点

空间智能（Spatial Intelligence）的核心论点是：

智能的基础是对三维空间结构的理解。真正理解世界，意味着理解事物在三维空间中的存在、关系和变化。

这个论点来自 Fei-Fei Li 团队的一个深刻洞察：人类理解世界的方式是三维的，而不是二维的。我们不是生活在图像中，而是生活在一个有深度、有体积、有空间关系的三维世界里。

World Labs 与 Marble

World Labs 是 Fei-Fei Li 创立的公司，估值约 50 亿美元，专注于空间智能研究。

其核心产品 Marble 能够从文本、图像或视频生成持久的、可探索的三维环境。

这里"持久的、可探索的"是关键修饰语：

持久性（persistence）：生成的 3D 世界不是一次性的渲染结果，而是一个持续存在的环境。你可以离开一个区域再回来，它还在那里。
可探索性（navigability）：用户可以在生成的 3D 世界中自由移动、变换视角。这不是生成一张好看的图——而是生成一个空间。

为什么三维如此重要

这个问题值得深入思考。二维图像生成已经非常成熟（如 DALL-E、Midjourney），为什么还需要三维？

维度	二维图像生成	三维世界生成
输出	一张平面图片	一个可导航的空间
视角	固定单一视角	任意视角
遮挡处理	不处理——被挡住的就看不见	必须建模完整的三维结构
物体理解	表面纹理	体积、深度、空间关系
持久性	无——每次生成独立	有——世界持续存在

二维生成可以通过"画出看起来像真的"来过关。三维生成无法靠这个——你必须真正理解空间结构，否则用户一旦移动视角，不一致性就会暴露出来。

三维世界生成是对模型空间理解能力的一种更严格的测试。

与人类认知的连接

人类的空间认知是极其基础的能力——婴儿在几个月大时就展现出对三维空间的初步理解（物体持续存在、深度知觉等）。空间智能路线的哲学假设是：

如果我们能让 AI 像人类一样理解三维空间，其他形式的世界理解就有了坚实的基础。

三、学习式仿真 —— Google DeepMind / Genie

核心论点

学习式仿真（Learned Simulation）的核心论点是：

不需要手工编写物理引擎——让模型直接从数据中学习物理规律。

传统的仿真器（如游戏引擎、物理模拟器）依赖人工编写的物理规则——重力加速度、碰撞检测、摩擦系数等。学习式仿真的想法是：能不能让神经网络自己从观察数据中学会这些规律？

Genie 3

Genie 3（2025 年 8 月发布）是 Google DeepMind 的第三代交互式世界模型，也是学习式仿真路线最重要的里程碑。

关键技术指标：

实时交互：第一个能实时运行的交互式世界模型
720p / 24fps：生成可导航的三维环境，画质和帧率达到可用水平
无硬编码物理：所有物理行为都是从数据中学习的，没有预设的物理方程

据报道，OpenAI 在看到 Genie 3 的演示后启动了内部"紧急响应（code red）"——这说明业界将学习式仿真视为一种具有颠覆性的技术路线。

"涌现物理"的哲学

Genie 3 代表的是一种激进的哲学立场：

物理规律不需要被显式编程——给足够多的数据和足够大的模型，物理会从数据中涌现出来。

这与世界模型中讨论的"路线 A：端到端纯神经网络"一脉相承。它的吸引力在于通用性——不需要为每种物理现象单独编写规则；它的风险在于可靠性——涌现出来的"物理"是否真正稳定和一致？

开放问题

学习式仿真面临几个关键挑战：

物理一致性：模型学到的"物理"是否在所有情况下都自洽？还是只在训练分布内近似正确？
长期稳定性：随着仿真时间推进，误差是否会累积并导致不真实的行为？
可控性：用户能否精确控制仿真中的物理参数（比如改变重力），还是模型只能复现它见过的物理？

四、物理 AI 基础设施 —— NVIDIA Cosmos

定位

NVIDIA Cosmos 的定位不同于上述两者——它不是一个终端应用，而是一个基础设施层。

Cosmos 提供的是物理感知的世界模型基础能力，供其他 AI 系统（尤其是机器人和自动驾驶）调用。

核心能力

Cosmos 的核心是基础世界模型（foundation world model），能够生成物理感知的视频预测：

给定当前场景和动作，预测未来场景的视觉变化
预测结果符合基本物理约束（物体不会凭空消失、运动轨迹连续等）
下载量超过 200 万次，说明它已经成为机器人和具身AI领域的重要基础组件

基础设施思维

Cosmos 的思路是：

与其让每个应用都从头训练自己的世界模型，不如提供一个通用的、物理感知的世界模型作为基础设施。

这类似于 LLM 领域的基础模型思路——先训练一个大的通用模型，然后通过微调适配不同任务。Cosmos 想在世界模型领域做同样的事。

五、五条路径的全景对比

加上 JEPA 和 Karl Friston 的主动推理（Active Inference），当前世界模型研究至少有五条主要路径：

路径	核心思想	关键特征	代表机构	核心优势
JEPA	在抽象表示空间中预测	极端样本效率	LeCun / AMI Labs	不浪费容量在无关细节上
空间智能	3D 空间结构理解与生成	持久可导航的 3D 世界	Fei-Fei Li / World Labs	接近人类的空间认知方式
学习式仿真	从数据中学习物理规律	实时交互式世界模型	DeepMind / Genie 3	通用性强，不需手工物理引擎
物理AI	物理感知的视频预测	基础设施层	NVIDIA Cosmos	可供其他系统调用的通用组件
主动推理	最小化自由能/惊讶	生物学合理性	Karl Friston / VERSES	与神经科学有深刻联系

各路径的哲学假设

深入比较这五条路径，可以发现它们的根本分歧在于"世界模型最重要的特性是什么"：

JEPA 认为最重要的是表示的抽象层次——在正确的抽象层面预测，比在原始信号层面预测更高效
空间智能认为最重要的是三维空间结构——理解三维是理解世界的前提
学习式仿真认为最重要的是交互性和实时性——世界模型必须能被实时交互地使用
物理 AI认为最重要的是可复用性——世界模型应该是基础设施，而不是特定应用
主动推理认为最重要的是与生物系统的一致性——世界模型应该遵循大脑运作的基本原理

六、收敛还是分化？

一个自然的问题是：这五条路径最终会收敛成一个统一框架，还是会继续分化？

收敛的迹象

所有路径都在构建某种形式的"内部世界表示"
所有路径都认为仅靠文本/token预测不足以理解世界
多条路径开始交叉借鉴——比如空间智能借鉴学习式仿真的技术，JEPA 开始考虑 3D 结构

分化的可能

不同路径优化不同目标函数，可能到达不同的局部最优
"通用世界模型"可能根本不存在——不同领域可能需要不同类型的世界模型
商业利益可能推动各路径独立发展而非融合

一种可能的统一视角

如果我们回到世界模型中提出的统一世界模型的六个要素——共享状态空间、状态持久性、动力学、约束性、可干预性、组合性——可以发现：

JEPA 主攻共享状态空间和动力学
空间智能主攻状态持久性和约束性（三维一致性）
学习式仿真主攻动力学和可干预性
物理 AI 提供基础设施层面的约束性
主动推理提供理论框架

五条路径可能不是在竞争，而是在解决统一世界模型的不同子问题。

七、归纳偏置的选择

回到大脑的先验知识中的核心问题：哪些归纳偏置最重要？

五条路径实际上选择了不同的归纳偏置：

路径	核心归纳偏置
JEPA	语义抽象比像素细节更重要
空间智能	三维空间结构是世界的基本骨架
学习式仿真	物理规律可以从足够多的数据中涌现
物理 AI	物理一致性是不可或缺的约束
主动推理	智能的本质是最小化预测误差

人脑的答案是：以上全部。人脑既有抽象表示能力，又有三维空间理解，既能学习物理直觉，又有物理一致性约束，还在持续最小化预测误差。

这或许暗示了最终的方向：

真正的世界模型不是从某一个归纳偏置出发走到底，而是将多种归纳偏置整合进一个统一的架构中。

八、开放问题

数据来源：空间智能和学习式仿真都需要大量 3D/视频数据。高质量 3D 数据的获取远比文本数据困难——这会成为瓶颈吗？
评估标准：如何评价一个世界模型的好坏？是看生成质量（FID），还是看下游任务表现（机器人成功率），还是看物理一致性？不同评估标准可能导向不同的研究方向。
计算成本：实时运行一个高保真世界模型的计算需求是巨大的。Genie 3 实现了 720p/24fps，但这远未达到人脑的仿真精度。
从仿真到行动：即使有了完美的世界模型，从"理解世界如何运作"到"在世界中有效行动"之间，还需要什么？规划算法、价值函数、探索策略——这些与世界模型的接口如何设计？

世界模型的研究正处于一个激动人心的阶段。五条路径齐头并进，各有突破。它们最终是否会汇聚成一个统一的范式，是未来几年 AI 领域最值得关注的问题之一。

空间智能与学习式仿真

一、引言

二、空间智能 —— Fei-Fei Li / World Labs

核心论点

World Labs 与 Marble

为什么三维如此重要

与人类认知的连接

三、学习式仿真 —— Google DeepMind / Genie

核心论点

Genie 3

"涌现物理"的哲学

开放问题

四、物理 AI 基础设施 —— NVIDIA Cosmos

定位

核心能力

基础设施思维

五、五条路径的全景对比

各路径的哲学假设

六、收敛还是分化？

收敛的迹象

分化的可能

一种可能的统一视角

七、归纳偏置的选择

八、开放问题

评论 #