大脑的先验知识

一、核心问题：为什么人脑学得快，模型学得慢？

为什么人类看几次就会，而现在的模型往往需要海量数据？

答案的关键在于：学习效率取决于先验 / 归纳偏置（inductive bias）。

先验不是贝叶斯意义上的严格概率先验，而是更广义的：

模型在看数据之前，对世界结构的预设倾向。

它的作用是：

帮模型缩小假设空间
让模型更容易从有限数据里学出正确规律
提高样本效率（sample efficiency）

如果没有足够合适的归纳偏置，模型虽然理论上也能学，但会非常低效。

二、先验的经典例子：CNN

CNN 能有效学图像，是因为它内置了几个结构假设：

局部性（locality）：相邻像素更相关
参数共享（weight sharing）
平移等变 / 平移不变倾向（translation equivariance / invariance）：一个东西出现在左上角和右下角，本质上还是那个东西

CNN 不是"从零发现图像规律"，而是架构里提前塞进了一部分视觉世界规律。

这是对物理世界的一个合理压缩——但只是非常弱的先验。

三、人脑的先验：远比 CNN 强大

人脑不是只带一个类似 CNN 的局部先验，而是带了一整套和现实世界匹配的结构偏置：

物理连续性：世界状态通常连续变化，不会乱跳
物体持续存在（object permanence）：被遮挡不等于消失
物体刚性（rigidity）：很多物体短时间内形状保持稳定
空间一致性 / 三维结构：世界有三维结构
局部交互：相互作用通常发生在相近区域
因果期待：推一下会动，碰一下会变
重力直觉：物体松手会下落
主体 / 客体区分
社会意图感知：别人"想干嘛"

更准确地说：

人脑不是"天生会学习"这么简单，而是天生被预配置成一个适合现实世界学习的系统。

四、不只靠先验：人脑的学习机制和目标系统

人脑自带一个低精度但泛化很强的世界模型，这个模型具备的关键特征：

生成式：人脑会想象未来、补全缺失的信息、做反事实推理（比如如果刚才我这么做会怎样）
可组合：举一反三，用少量概念来组合出新概念
跨模态统一：视觉、听觉、触觉、语言是耦合的，统一建模的

除了强大的先验外，人脑还有几个重要机制：

学习机制

主动学习（active learning）：人会主动探索、产生数据
在线学习：人能 one-shot / few-shot 学习，并持续自我修正

目标系统

好奇心 / 信息增益最大化
惊讶 / prediction error
控制感 / agency

这些统称为内在目标（intrinsic objectives）。

所以完整的说法是：

人脑的优势 = 强先验 + 主动学习 + 内在目标 + 持续更新

而现代模型通常更像：被动吃数据、固定训练目标、离线训练、不持续自我修正。

五、什么是世界模型（World Model）

世界模型不是"知道很多事实"这么简单，而是：

内部有一个关于世界状态的表示，并能模拟它如何随时间和动作变化。

一个完整的世界模型至少涉及：

状态表示（state representation）
转移 / 动力学（dynamics / transition model）
观测模型（observation model）
奖励或价值（reward / value）——在决策任务里尤其重要
（理想情况下）因果结构

世界模型在补三件事

预测未来
因果结构
可行动性

世界模型的关键问题是：哪些先验必须显式设计？哪些可以从数据中学出来？

六、世界模型的核心：状态转移

\[P(s_{t+1} \mid s_t, a_t)\]

意思是：已知当前状态 \(s_t\) 和当前动作 \(a_t\)，预测下一时刻状态 \(s_{t+1}\)。

这是世界模型里最关键的一块——状态转移规律（action-conditioned dynamics）。它回答的是：

现在世界是什么样
我采取一个动作后
下一步会变成什么样

如果模型真的能稳定地学出 \(P(s_{t+1} \mid s_t, a_t)\)，那它就必须内化很多世界规律（连续性、物体持久性、局部交互、碰撞关系等）。

但要注意区分：

先验是学习前就有的结构偏好
world dynamics 是学习后得到的世界演化规律

前者帮助后者更高效地学出来。

七、两种世界模型方法：Dreamer vs MuZero

Dreamer（代表：Danijar Hafner）

典型的 latent world model 方法：

从观测中学一个潜在状态（latent state）
学这个潜在状态的 dynamics
在"想象出来的未来轨迹"中 rollout
用 imagination 做 planning

偏向"建模世界"，更接近建模主义。

MuZero（代表：David Silver）

更"任务导向"的世界模型：

不显式预测 observation（比如像素）
只学对决策有用的部分：policy、value、reward、hidden dynamics
更像"任务导向的世界模型"——只保留对行动最有用的隐藏状态演化

偏向"服务决策"，更接近工具主义。

对比

模型	是否重建世界	是否偏决策
Dreamer	是（生成 latent trajectory）	中
MuZero	否（不关心真实观测）	强

两者都属于世界模型路线，只是风格不同。

八、多模态对齐 ≠ 统一世界模型

现有多模态大模型（如 GPT-4V、Gemini）确实在做"统一表示"，但要区分两件事：

已做到：多模态对齐（Multimodal Alignment）

不同模态（文本/图像/音频）被映射到同一个共享表示空间（shared representation space），实现跨模态对齐——看图说话、文生图等。

它解决的是："这张图"和"这句话"是不是在说同一件事。

更像一本跨模态词典。

还没做到：统一世界模型

还没真正实现：

统一的世界动力学（world dynamics）
一致的物理约束
跨模态因果一致性

统一世界模型更像一个物理仿真器 + 因果生成器，至少应具备：

共享状态空间：图像、文字、动作都映射到同一个 latent state
状态持久性：对象被遮挡后还能保持存在
动力学：\(s_t, a_t \rightarrow s_{t+1}\)
约束性：符合物理 / 因果规则
可干预性：改动作，未来就系统性改变
组合性（compositionality）：多个对象和关系能组合泛化

核心区别

"在同一个向量空间里"，只说明不同模态可以彼此对应； "统一的世界模型"，要求模型内部存在一个能随时间演化、受动作影响、并受世界约束的潜在状态。

多模态对齐解决的是：这是什么？
统一世界模型还要解决：它接下来会怎样变？为什么会这样变？如果我施加动作，未来会如何系统性改变？

为什么图文对齐还不够

因为单个静态向量可以编码"相关性"，但不一定编码"生成机制"。

例如：模型知道"玻璃杯掉下去"经常和"碎片"一起出现，但这不代表它学会了重力、碰撞、材料脆性、速度与冲击的关系。它可能只是学到了统计共现。

关键不在"有没有统一向量空间"，而在：

这个内部表示是不是一个可推进、可干预、可预测的状态。

九、LLM 看起来懂世界，但缺 dynamics

LLM 的强项

LLM 的主要训练目标是预测下一个 token（next-token prediction）。这个目标逼它学到大量统计结构：

语言结构、事实、语义关系
事件共现规律、叙事模式
常识表达、人类写作中压缩过的世界知识

所以它会显得"很懂世界"——文本里本来就带着很多世界知识。

LLM "懂"的部分

LLM 能说出：球松手会掉下去、杯子摔了可能碎、人把钥匙放抽屉里之后钥匙大概率还在。这些都像常识。

LLM "不够懂"的部分

一旦任务需要精确的、持续的状态演化，它就容易出问题：

多步空间追踪
隐变量维护
连续时间过程
动作导致的精确后果
多实体长期交互

因为它的训练目标是"预测下一个 token"，而不是"维护一个随时间演化的世界状态，并根据动作推进它"。

一个直观的比喻

LLM 更像一个读过大量文本的"世界解说员"，而不是一个内部带仿真器的"世界运行器"。

它能很好地"谈论"世界，但未必能可靠地"推进"世界。

为什么 next-token prediction 不天然逼出 dynamics

因为这个目标最直接优化的是文本续写正确、叙述上合理、统计上自然，而不是：

显式维护世界状态
多步跟踪对象身份
根据动作稳定推进 latent state
保证物理一致性

模型完全可能靠"语言统计捷径"达成高性能，而不必真的形成一个强 world dynamics 模块。

十、Shortcut 与伪因果

什么是 Shortcut

模型找到一条在训练数据上能得分很高、但并不对应真实机制的捷径。

它看似学会了任务，实际只是抓住了某种表面相关性。

什么是伪因果

伪因果是 shortcut 的一种典型形式：模型把"相关"误当成"因果"（相关 ≠ 因果）。

例子 1：牛和草地

训练集中牛常出现在草地、骆驼常出现在沙地。模型可能学会"绿色背景→牛"，它没学"牛长什么样"，只学了背景。

例子 2：杯子掉落会碎

数据里大部分"杯子掉落"的结果都是"碎了"，模型记住"掉落→碎"。但它没学到高度、材质、地面软硬、碰撞速度等真正因果因素。换成塑料杯或掉到海绵垫上，它还是可能预测"碎"。

为什么 shortcut 严重阻碍世界模型

世界模型要学的是稳定机制、可干预结构、跨分布泛化规律。shortcut 学的是当前数据集中最省力的投机规则。这会导致：

一换环境就失效
多步推理崩掉
行动后果预测错误

而且很多数据集本身就充满 shortcut，模型只要抓住这些表面信号就足以拿到很高分——所以"表现好"不等于"学对了机制"。

十一、Object-Centric World Model

什么是 Object-Centric

模型不是把输入只看成一团整体信号，而是分解成"对象 + 对象属性 + 对象关系 + 对象演化"。

这更接近人类理解世界的方式。例如看到桌面场景时，不是单纯看像素块，而是看成杯子、书、手机、桌子、以及它们的位置、材质、关系。

为什么 Object-Centric 很重要

很多现实规律天然是"以对象为单位"组织的：物体会移动、碰撞、被遮挡、保持身份连续。如果模型有对象级表示，它更容易学到可组合的泛化、更稳定的因果关系。

为什么 Object-Centric World Model 极难

1. 对象边界不天然清晰

什么算一个对象本身就不稳定：云是不是对象？阴影呢？水流是一个对象还是很多？

2. 遮挡、变形、合并、分裂

物体被挡住一半、绳子弯曲、水滴分裂、两个人靠近后视觉上粘在一起——模型要维持身份连续性很难。

3. 对象数量不固定

场景里可能有 1 个杯子、5 个人、200 片树叶。用 slot 或对象列表表示需要处理变长集合、动态增删。

4. 关系组合爆炸

对象一多，交互关系迅速爆炸：谁碰谁、谁约束谁、哪些交互重要。要求模型既对象化，又关系化，还要稀疏化。

5. 训练监督很弱

通常没有现成标签告诉模型"这个对象是谁""它跨帧对应哪个对象"。模型得自己从无监督或弱监督数据里发现"对象性"。

6. 世界不只有对象，还有场

光照、流体、温度、风、声波等 field-centric 现象不天然适合纯对象表示。所以 object-centric 虽然重要，但不是全部。

十二、显式结构 vs 纯神经网络学习

这是当前最核心的争论之一。

路线 A：端到端纯神经网络

观点：足够大模型 + 数据 → 因果/物理会"涌现"

优点：通用性强，不需要人工建模
问题：sample inefficiency，可能学到伪因果（shortcut）

路线 B：显式加入结构

引入 object-centric 表示、因果图、物理约束（如守恒）、3D consistency、temporal continuity、causal modularity 等。

优点：数据效率高，泛化更强
问题：难设计，可能限制表达能力，加错了反而有害

融合路线（更可能的方向）

神经网络学表示，结构先验做约束。

不是纯手工规则系统，也不是完全无结构的大黑箱，而是把正确的 inductive bias 编进模型中。

人类先验不是几条规则，而是一整套层级结构。加得太少帮助有限，加得太强可能把模型锁死在错误假设里（世界并不总是刚体，物体边界并不总是清晰，社会系统远比物理系统复杂）。所以现实路线通常是：

用结构先验约束神经网络，而不是直接替代神经网络。

十三、生物进化 = 超大规模元学习

为什么可以把进化类比成"学习"

进化包含类似优化的过程：

变异 ≈ 参数扰动
选择压力 ≈ loss function
保留适者 ≈ optimization

可以看成：在基因空间上的强化学习 / 黑盒优化。

但进化不等同于普通机器学习

不是个体在线学习：进化发生在种群和代际层面
没有梯度：没有反向传播那样精细的信用分配
反馈极粗：只有生存/繁殖成败这种粗糙信号
目标函数不稳定：环境一直在变，不是固定 loss

更准确的说法

进化 = 跨代、超长期、极低效率但超大规模的元学习（meta-learning）

它学到的不是某个具体任务，而是：

哪种身体结构有效
哪种感知系统有效
哪种归纳偏置有效
哪种学习机制有效

所以：

人脑不是"凭空聪明"，而是被进化长期预训练成了一个擅长在现实世界中学习的系统。

当前模型还停留在"直接学任务"，没有完成"学会如何学习 + 如何建模世界"。

十四、完整逻辑链

学习效率取决于归纳偏置。
CNN 只有很弱的视觉先验，人脑有大量适应现实世界的先验。
人脑的优势不只是先验，还有主动学习、内在目标、持续更新。
真正理解世界，不只是共享图文语义，而是要有能随时间和动作推进的世界状态——这就是世界模型。
世界模型的核心之一是学习 \(P(s_{t+1} \mid s_t, a_t)\)。
Dreamer 和 MuZero 都属于世界模型路线，分别偏"建模世界"和"服务决策"。
现代多模态大模型实现了多模态对齐，但多模态对齐 ≠ 统一世界模型。
LLM 学到了很多世界知识，但 next-token prediction 不天然逼出稳定的 dynamics。
模型容易走 shortcut，把相关性当因果，形成伪因果。
Object-centric world model 很重要，但因对象发现、遮挡、变形、关系组合等问题而极难。
未来更可能是"神经网络 + 结构先验"的融合路线。
人脑之所以强，是因为进化相当于做了数亿年的元学习，把有效偏置写进了系统。

十五、一个更尖锐的问题

我们应该先造"会行动的模型"（agent），还是先造"会理解世界的模型"？

Dreamer / MuZero → 偏 agent
LLM → 偏 world knowledge（但无行动）

真正的人类智能，是两者耦合的结果。