直觉物理

一、什么是直觉物理？

直觉物理（Intuitive Physics） 是指人类（以及许多动物）无需经过正式物理学训练，就能对基本物理规律形成直觉理解的能力。

直觉物理不是对牛顿力学的精确计算，而是一种快速、粗略但在日常情境下足够准确的物理推理能力。

一个两岁的孩子知道：松手的球会掉下去、被挡住的玩具并没有消失、一块积木叠在另一块上面需要足够的接触面才不会倒。这些判断不是从书本中学来的，而是人类认知系统与生俱来或极早期发展出的核心能力。

直觉物理涵盖的基本原则包括：

原则	含义	婴儿发展时间
物体持久性（Object Permanence）	物体被遮挡后仍然存在	约3-5个月
重力直觉（Gravity）	无支撑的物体会下落	约5-7个月
固体性（Solidity）	物体不能穿过彼此	约3-4个月
惯性（Inertia）	运动物体倾向于继续运动	约6个月
支撑关系（Support Relations）	物体需要支撑才能保持位置	约5-6个月
接触因果（Contact Causality）	碰撞和接触会产生运动变化	约6个月

这些能力出现之早、之普遍，强烈暗示着它们并非纯粹从经验中学来，而是人脑自带的某种结构性先验。

二、与大脑先验知识的关系

在大脑的先验知识一文中，我们讨论了人脑学习效率的核心来源：

人脑不是白板一块，而是天生被预配置成一个适合现实世界学习的系统。

直觉物理正是这套先验知识中最具体、最可测量的一部分。CNN 的局部性假设是一种非常弱的先验，而直觉物理涉及的物体持久性、重力、固体性、时空连续性等，是一整套关于物理世界结构的强先验。

这种先验的来源是什么？答案指向进化。物理世界的基本规律在数亿年的时间尺度上保持稳定——重力一直在、物体一直是实心的、空间一直是三维的。自然选择淘汰了那些不能快速理解这些规律的个体，将有效的物理直觉写入了大脑的初始结构。

从进化的角度看，直觉物理不是学到的知识，而是被"硬编码"进神经系统的生存先验。

三、Josh Tenenbaum：用概率程序建模人类认知

Josh Tenenbaum 是MIT脑与认知科学系的教授，也是当今直觉物理和直觉心理学研究领域最核心的人物之一。他的核心问题是：

人类如何从极少的数据中学到如此丰富的世界知识？

概率程序作为认知模型

Tenenbaum的核心主张是：人类的认知过程可以用概率程序（probabilistic programs）来建模。具体到直觉物理：

人脑内部运行着一个近似的物理仿真引擎（approximate physics engine）
在面对物理场景时，大脑通过运行这个引擎的心智模拟（mental simulation）来预测物体的运动
这些模拟不是精确的牛顿力学，而是带噪声的、近似的、概率性的

这个框架可以解释一系列经典发现：

为什么婴儿对违反物理规律的事件表现出"惊讶"（注视时间延长）
为什么人类的物理判断在某些情况下系统性地偏离精确物理（因为仿真引擎本身是近似的）
为什么人类能从极少的例子中泛化（因为先验结构极大地压缩了假设空间）

AI2050项目

Tenenbaum参与的AI2050项目致力于构建具有人类水平常识理解能力的AI系统。其核心理念是：

真正的AI常识不应依赖海量数据，而应像婴儿一样，从少量经验加上正确的先验结构中涌现。

这个项目试图回答一个根本性问题：能否为AI构建类似人脑的"初始程序"，使其具备与婴儿类似的核心知识，然后在此基础上通过少量交互高效学习？

四、IntPhys 2 基准测试：AI的直觉物理有多差？

要量化AI系统是否具备直觉物理能力，需要严格的基准测试。IntPhys 2 是一个专门为此设计的评测体系，它借鉴了发展心理学中测试婴儿认知能力的违反预期范式（Violation of Expectation paradigm）。

四项基本原则

IntPhys 2 测试AI模型对以下四项物理原则的理解：

原则	正常事件	违反事件
持久性（Permanence）	物体移出视野后再出现	物体凭空出现或消失
不变性（Immutability）	物体保持自身属性	物体自发改变形状或颜色
时空连续性（Spatio-Temporal Continuity）	物体沿连续路径运动	物体瞬移到另一位置
固体性（Solidity）	物体碰撞后互相弹开	物体穿过彼此

测试方法

测试的核心逻辑与发展心理学一致：

向模型展示一段正常的物理场景视频
向模型展示一段违反某项物理原则的视频
观察模型是否能区分两者——即模型是否对违反物理规律的事件"感到惊讶"

关键发现

当前最先进的视觉模型在简单场景下表现尚可，但在涉及遮挡、多物体交互等复杂情况时，性能接近随机水平。而人类在相同测试中接近满分。

这个发现的意义深远：即使是在视觉识别任务上已经达到甚至超越人类水平的模型，在最基本的物理推理上也存在根本性缺陷。模型可以准确地识别图中有什么物体，但不理解这些物体应该如何运动和交互。

五、为什么当前AI模型缺乏直觉物理？

这个缺陷并非偶然，它反映了当前主流AI范式的深层局限。

语言模型的困境

LLM可以说出"球掉到地上"，但这只是语言层面的统计共现，而非真正的物理理解。正如在先验知识一文中讨论的：

LLM更像一个读过大量文本的"世界解说员"，而不是一个内部带仿真器的"世界运行器"。

它可以"谈论"重力，但没有一个能实际模拟重力效果的内部模型。

视觉模型的困境

视觉模型（如ViT、CLIP等）善于提取静态特征——颜色、形状、纹理、空间关系。但物理推理要求的是对动态过程的理解：力如何传递、运动如何改变、碰撞如何发生。这些信息在静态图像中是隐含的，在视频中虽然可以观察到，但模型倾向于学习表面的视觉模式（shortcut），而非底层的物理机制。

根本原因

当前模型缺乏直觉物理的根本原因可以归结为：

缺少正确的先验结构：模型没有被赋予物体持久性、时空连续性等归纳偏置
训练目标不对齐：预测下一个token或下一帧像素，不等于理解物理因果
缺少具身交互：没有在物理世界中行动和感受反馈的机会
数据中物理信息是隐含的：文本和图像中的物理知识是高度压缩的，不足以让模型自发形成物理引擎

六、DeepMind的路径：从推理到物理操作

面对直觉物理的缺失，DeepMind正在探索一条将大模型推理能力与物理操作相结合的路线。

Gemini Robotics

2025年，DeepMind发布了Gemini Robotics 1.5和Gemini Robotics-ER（Embodied Reasoning）。后者的设计思路值得关注：

Gemini Robotics-ER充当机器人系统的"高层大脑"，负责场景理解、任务规划和推理
底层的控制器负责具体的运动执行
ER模型将视觉-语言模型的推理能力与物理场景的理解相结合

这种架构的核心假设是：

即使模型本身没有完整的物理引擎，但如果能将语言推理能力与具身反馈结合，就可以在一定程度上弥补直觉物理的不足。

不过，这是否等同于真正获得了直觉物理能力，仍然是一个开放性问题。依赖语言推理来"补偿"物理直觉的缺失，与人类那种快速、自动、无需语言介入的物理推理，在本质上可能是不同的。

七、清华综述：从LLM到世界模型的具身AI

清华大学在2025年发表的综述论文 "From LLMs to World Models" 提出了一个面向具身AI的三环架构（Three-Loop Architecture）：

第一环：主动感知（Active Perception）

智能体不是被动接收感官数据，而是根据当前任务和内部模型，主动选择感知什么、从什么角度感知。这与预测编码的主动推理思想一脉相承。

第二环：具身认知（Embodied Cognition）

在感知的基础上，智能体构建和更新关于环境的内部表征。这个内部表征不是静态的知识库，而是一个可以推进的世界模型——能够预测行动的后果、模拟未来的状态。

第三环：动态交互（Dynamic Interaction）

智能体基于内部世界模型进行规划和决策，在物理环境中执行动作，再将反馈用于更新感知和认知。三个环形成一个持续循环。

这个架构的关键洞见在于：

世界模型不是一个独立的模块，而是嵌入在感知-认知-交互的持续循环中。只有在具身交互的过程中，世界模型才能被有效地学习和校准。

八、直觉物理与世界模型的关系

回顾先验知识一文中关于世界模型的讨论：

世界模型不是"知道很多事实"，而是内部有一个关于世界状态的表示，并能模拟它如何随时间和动作变化。

从这个定义出发，直觉物理恰恰就是一种领域特化的世界模型——专门针对物理世界动态的心智仿真器。

概念	关注的问题	范围
世界模型	世界状态如何随时间和动作变化	通用（物理、社会、抽象）
直觉物理	物体如何在物理规律下运动和交互	物理世界
直觉心理学	他人有什么信念、意图、目标	社会世界

Tenenbaum的研究同时覆盖直觉物理和直觉心理学（Intuitive Psychology），因为二者共享同一个认知框架：用内部仿真来预测和解释外部世界。只不过一个仿真的是物理过程，另一个仿真的是他人的心理状态。

九、为什么直觉物理对AI至关重要

安全导航与操作

没有直觉物理的机器人不知道玻璃杯放在桌边会有掉落的风险、不理解重物堆叠的稳定性条件、不能预判快速移动的物体会撞到什么。这些在人类看来不言自明的判断，对缺乏物理直觉的AI系统来说都是盲区。

常识推理的基础

人类日常对话中大量使用物理隐喻和默认假设。当人说"把这个放稳了"时，隐含了对重力、支撑面、摩擦力的直觉理解。缺乏这些直觉的AI系统在理解和执行自然语言指令时将反复犯错。

少样本学习的关键

直觉物理作为一种强先验，极大地压缩了学习所需的数据量。正如先验知识一文所论述的：一个自带物理直觉的系统，只需要少量交互就能理解新场景中的物体行为。没有这种先验，系统需要海量数据来从头学习每一个物理规律。

十、哲学启示：先验知识的必要性

直觉物理的存在为AI研究中一个核心争论提供了重要证据。

纯学习派 vs 结构先验派

立场	核心主张	代表
纯学习派	足够大的模型+足够多的数据就能学到一切	Scaling Law的极端推论
结构先验派	某些世界知识必须通过架构或先验显式注入	LeCun, Tenenbaum, Bengio

直觉物理的发展心理学证据强烈支持后者：

婴儿在几乎没有主动操作经验的阶段就表现出物理推理能力
这些能力的出现时间表在跨文化研究中高度一致
某些物理原则（如物体持久性）甚至在非人类灵长类动物中也能观察到

这意味着：

某些关于物理世界的知识，很可能不是从零开始学习的，而是作为归纳偏置被进化预编码到了认知系统中。如果AI系统也想达到类似的物理推理能力和样本效率，那么纯粹的"数据驱动"路线可能不够——需要显式地注入某些结构性先验。

这并非否定学习的作用，而是强调：先验和学习不是对立的，而是互补的。 正确的先验让学习更高效，丰富的学习经验则让先验得以在新情境中灵活应用。

十一、总结

直觉物理是人类认知中最基本、最早发展、也最容易被AI忽视的一项能力。它不是高级物理知识，而是一套关于物理世界如何运作的底层先验，是世界模型在物理领域的具体实例。

完整逻辑链：

人类天生具备直觉物理能力，能够对物体持久性、重力、固体性、时空连续性等进行快速推理。
这种能力是进化赋予的结构性先验，与大脑的先验知识体系一脉相承。
Tenenbaum用概率程序建模直觉物理，证明人脑可以被理解为运行近似物理仿真的推理系统。
IntPhys 2等基准测试揭示了当前AI的根本缺陷：视觉能力强大的模型在基本物理推理上接近随机。
DeepMind和清华等团队正在探索弥补路径：将推理能力与具身交互相结合，构建感知-认知-交互的循环架构。
直觉物理本质上就是物理领域的世界模型——一个能模拟物理动态的心智仿真器。
这对AI有深刻的哲学启示：某些世界知识可能需要作为先验结构显式注入，而非完全依赖数据驱动学习。