直觉物理
一、什么是直觉物理?
直觉物理(Intuitive Physics) 是指人类(以及许多动物)无需经过正式物理学训练,就能对基本物理规律形成直觉理解的能力。
直觉物理不是对牛顿力学的精确计算,而是一种快速、粗略但在日常情境下足够准确的物理推理能力。
一个两岁的孩子知道:松手的球会掉下去、被挡住的玩具并没有消失、一块积木叠在另一块上面需要足够的接触面才不会倒。这些判断不是从书本中学来的,而是人类认知系统与生俱来或极早期发展出的核心能力。
直觉物理涵盖的基本原则包括:
| 原则 | 含义 | 婴儿发展时间 |
|---|---|---|
| 物体持久性(Object Permanence) | 物体被遮挡后仍然存在 | 约3-5个月 |
| 重力直觉(Gravity) | 无支撑的物体会下落 | 约5-7个月 |
| 固体性(Solidity) | 物体不能穿过彼此 | 约3-4个月 |
| 惯性(Inertia) | 运动物体倾向于继续运动 | 约6个月 |
| 支撑关系(Support Relations) | 物体需要支撑才能保持位置 | 约5-6个月 |
| 接触因果(Contact Causality) | 碰撞和接触会产生运动变化 | 约6个月 |
这些能力出现之早、之普遍,强烈暗示着它们并非纯粹从经验中学来,而是人脑自带的某种结构性先验。
二、与大脑先验知识的关系
在大脑的先验知识一文中,我们讨论了人脑学习效率的核心来源:
人脑不是白板一块,而是天生被预配置成一个适合现实世界学习的系统。
直觉物理正是这套先验知识中最具体、最可测量的一部分。CNN 的局部性假设是一种非常弱的先验,而直觉物理涉及的物体持久性、重力、固体性、时空连续性等,是一整套关于物理世界结构的强先验。
这种先验的来源是什么?答案指向进化。物理世界的基本规律在数亿年的时间尺度上保持稳定——重力一直在、物体一直是实心的、空间一直是三维的。自然选择淘汰了那些不能快速理解这些规律的个体,将有效的物理直觉写入了大脑的初始结构。
从进化的角度看,直觉物理不是学到的知识,而是被"硬编码"进神经系统的生存先验。
三、Josh Tenenbaum:用概率程序建模人类认知
Josh Tenenbaum 是MIT脑与认知科学系的教授,也是当今直觉物理和直觉心理学研究领域最核心的人物之一。他的核心问题是:
人类如何从极少的数据中学到如此丰富的世界知识?
概率程序作为认知模型
Tenenbaum的核心主张是:人类的认知过程可以用概率程序(probabilistic programs)来建模。具体到直觉物理:
- 人脑内部运行着一个近似的物理仿真引擎(approximate physics engine)
- 在面对物理场景时,大脑通过运行这个引擎的心智模拟(mental simulation)来预测物体的运动
- 这些模拟不是精确的牛顿力学,而是带噪声的、近似的、概率性的
这个框架可以解释一系列经典发现:
- 为什么婴儿对违反物理规律的事件表现出"惊讶"(注视时间延长)
- 为什么人类的物理判断在某些情况下系统性地偏离精确物理(因为仿真引擎本身是近似的)
- 为什么人类能从极少的例子中泛化(因为先验结构极大地压缩了假设空间)
AI2050项目
Tenenbaum参与的AI2050项目致力于构建具有人类水平常识理解能力的AI系统。其核心理念是:
真正的AI常识不应依赖海量数据,而应像婴儿一样,从少量经验加上正确的先验结构中涌现。
这个项目试图回答一个根本性问题:能否为AI构建类似人脑的"初始程序",使其具备与婴儿类似的核心知识,然后在此基础上通过少量交互高效学习?
四、IntPhys 2 基准测试:AI的直觉物理有多差?
要量化AI系统是否具备直觉物理能力,需要严格的基准测试。IntPhys 2 是一个专门为此设计的评测体系,它借鉴了发展心理学中测试婴儿认知能力的违反预期范式(Violation of Expectation paradigm)。
四项基本原则
IntPhys 2 测试AI模型对以下四项物理原则的理解:
| 原则 | 正常事件 | 违反事件 |
|---|---|---|
| 持久性(Permanence) | 物体移出视野后再出现 | 物体凭空出现或消失 |
| 不变性(Immutability) | 物体保持自身属性 | 物体自发改变形状或颜色 |
| 时空连续性(Spatio-Temporal Continuity) | 物体沿连续路径运动 | 物体瞬移到另一位置 |
| 固体性(Solidity) | 物体碰撞后互相弹开 | 物体穿过彼此 |
测试方法
测试的核心逻辑与发展心理学一致:
- 向模型展示一段正常的物理场景视频
- 向模型展示一段违反某项物理原则的视频
- 观察模型是否能区分两者——即模型是否对违反物理规律的事件"感到惊讶"
关键发现
当前最先进的视觉模型在简单场景下表现尚可,但在涉及遮挡、多物体交互等复杂情况时,性能接近随机水平。而人类在相同测试中接近满分。
这个发现的意义深远:即使是在视觉识别任务上已经达到甚至超越人类水平的模型,在最基本的物理推理上也存在根本性缺陷。模型可以准确地识别图中有什么物体,但不理解这些物体应该如何运动和交互。
五、为什么当前AI模型缺乏直觉物理?
这个缺陷并非偶然,它反映了当前主流AI范式的深层局限。
语言模型的困境
LLM可以说出"球掉到地上",但这只是语言层面的统计共现,而非真正的物理理解。正如在先验知识一文中讨论的:
LLM更像一个读过大量文本的"世界解说员",而不是一个内部带仿真器的"世界运行器"。
它可以"谈论"重力,但没有一个能实际模拟重力效果的内部模型。
视觉模型的困境
视觉模型(如ViT、CLIP等)善于提取静态特征——颜色、形状、纹理、空间关系。但物理推理要求的是对动态过程的理解:力如何传递、运动如何改变、碰撞如何发生。这些信息在静态图像中是隐含的,在视频中虽然可以观察到,但模型倾向于学习表面的视觉模式(shortcut),而非底层的物理机制。
根本原因
当前模型缺乏直觉物理的根本原因可以归结为:
- 缺少正确的先验结构:模型没有被赋予物体持久性、时空连续性等归纳偏置
- 训练目标不对齐:预测下一个token或下一帧像素,不等于理解物理因果
- 缺少具身交互:没有在物理世界中行动和感受反馈的机会
- 数据中物理信息是隐含的:文本和图像中的物理知识是高度压缩的,不足以让模型自发形成物理引擎
六、DeepMind的路径:从推理到物理操作
面对直觉物理的缺失,DeepMind正在探索一条将大模型推理能力与物理操作相结合的路线。
Gemini Robotics
2025年,DeepMind发布了Gemini Robotics 1.5和Gemini Robotics-ER(Embodied Reasoning)。后者的设计思路值得关注:
- Gemini Robotics-ER充当机器人系统的"高层大脑",负责场景理解、任务规划和推理
- 底层的控制器负责具体的运动执行
- ER模型将视觉-语言模型的推理能力与物理场景的理解相结合
这种架构的核心假设是:
即使模型本身没有完整的物理引擎,但如果能将语言推理能力与具身反馈结合,就可以在一定程度上弥补直觉物理的不足。
不过,这是否等同于真正获得了直觉物理能力,仍然是一个开放性问题。依赖语言推理来"补偿"物理直觉的缺失,与人类那种快速、自动、无需语言介入的物理推理,在本质上可能是不同的。
七、清华综述:从LLM到世界模型的具身AI
清华大学在2025年发表的综述论文 "From LLMs to World Models" 提出了一个面向具身AI的三环架构(Three-Loop Architecture):
第一环:主动感知(Active Perception)
智能体不是被动接收感官数据,而是根据当前任务和内部模型,主动选择感知什么、从什么角度感知。这与预测编码的主动推理思想一脉相承。
第二环:具身认知(Embodied Cognition)
在感知的基础上,智能体构建和更新关于环境的内部表征。这个内部表征不是静态的知识库,而是一个可以推进的世界模型——能够预测行动的后果、模拟未来的状态。
第三环:动态交互(Dynamic Interaction)
智能体基于内部世界模型进行规划和决策,在物理环境中执行动作,再将反馈用于更新感知和认知。三个环形成一个持续循环。
这个架构的关键洞见在于:
世界模型不是一个独立的模块,而是嵌入在感知-认知-交互的持续循环中。只有在具身交互的过程中,世界模型才能被有效地学习和校准。
八、直觉物理与世界模型的关系
回顾先验知识一文中关于世界模型的讨论:
世界模型不是"知道很多事实",而是内部有一个关于世界状态的表示,并能模拟它如何随时间和动作变化。
从这个定义出发,直觉物理恰恰就是一种领域特化的世界模型——专门针对物理世界动态的心智仿真器。
| 概念 | 关注的问题 | 范围 |
|---|---|---|
| 世界模型 | 世界状态如何随时间和动作变化 | 通用(物理、社会、抽象) |
| 直觉物理 | 物体如何在物理规律下运动和交互 | 物理世界 |
| 直觉心理学 | 他人有什么信念、意图、目标 | 社会世界 |
Tenenbaum的研究同时覆盖直觉物理和直觉心理学(Intuitive Psychology),因为二者共享同一个认知框架:用内部仿真来预测和解释外部世界。只不过一个仿真的是物理过程,另一个仿真的是他人的心理状态。
九、为什么直觉物理对AI至关重要
安全导航与操作
没有直觉物理的机器人不知道玻璃杯放在桌边会有掉落的风险、不理解重物堆叠的稳定性条件、不能预判快速移动的物体会撞到什么。这些在人类看来不言自明的判断,对缺乏物理直觉的AI系统来说都是盲区。
常识推理的基础
人类日常对话中大量使用物理隐喻和默认假设。当人说"把这个放稳了"时,隐含了对重力、支撑面、摩擦力的直觉理解。缺乏这些直觉的AI系统在理解和执行自然语言指令时将反复犯错。
少样本学习的关键
直觉物理作为一种强先验,极大地压缩了学习所需的数据量。正如先验知识一文所论述的:一个自带物理直觉的系统,只需要少量交互就能理解新场景中的物体行为。没有这种先验,系统需要海量数据来从头学习每一个物理规律。
十、哲学启示:先验知识的必要性
直觉物理的存在为AI研究中一个核心争论提供了重要证据。
纯学习派 vs 结构先验派
| 立场 | 核心主张 | 代表 |
|---|---|---|
| 纯学习派 | 足够大的模型+足够多的数据就能学到一切 | Scaling Law的极端推论 |
| 结构先验派 | 某些世界知识必须通过架构或先验显式注入 | LeCun, Tenenbaum, Bengio |
直觉物理的发展心理学证据强烈支持后者:
- 婴儿在几乎没有主动操作经验的阶段就表现出物理推理能力
- 这些能力的出现时间表在跨文化研究中高度一致
- 某些物理原则(如物体持久性)甚至在非人类灵长类动物中也能观察到
这意味着:
某些关于物理世界的知识,很可能不是从零开始学习的,而是作为归纳偏置被进化预编码到了认知系统中。如果AI系统也想达到类似的物理推理能力和样本效率,那么纯粹的"数据驱动"路线可能不够——需要显式地注入某些结构性先验。
这并非否定学习的作用,而是强调:先验和学习不是对立的,而是互补的。 正确的先验让学习更高效,丰富的学习经验则让先验得以在新情境中灵活应用。
十一、总结
直觉物理是人类认知中最基本、最早发展、也最容易被AI忽视的一项能力。它不是高级物理知识,而是一套关于物理世界如何运作的底层先验,是世界模型在物理领域的具体实例。
完整逻辑链:
- 人类天生具备直觉物理能力,能够对物体持久性、重力、固体性、时空连续性等进行快速推理。
- 这种能力是进化赋予的结构性先验,与大脑的先验知识体系一脉相承。
- Tenenbaum用概率程序建模直觉物理,证明人脑可以被理解为运行近似物理仿真的推理系统。
- IntPhys 2等基准测试揭示了当前AI的根本缺陷:视觉能力强大的模型在基本物理推理上接近随机。
- DeepMind和清华等团队正在探索弥补路径:将推理能力与具身交互相结合,构建感知-认知-交互的循环架构。
- 直觉物理本质上就是物理领域的世界模型——一个能模拟物理动态的心智仿真器。
- 这对AI有深刻的哲学启示:某些世界知识可能需要作为先验结构显式注入,而非完全依赖数据驱动学习。