对象中心学习

一、核心问题：为什么像素不够？

当你看到一张桌子上放着一杯咖啡和一本书的照片时，你不会想"这里有一片棕色区域旁边有一片白色区域"。你会立刻看到：一张桌子，上面有一杯咖啡，旁边有一本书。你感知到的是对象，而不是像素。

对象中心学习（Object-Centric Learning, 对象中心学习） 的目标，是让AI系统也具备这种能力：将场景自动分解为一个个独立的对象，每个对象有自己的属性（位置、形状、颜色、材质），对象之间有明确的关系（在...上面、挨着、遮挡了...）。

人类以对象为单位理解世界，这使得我们能够进行组合性泛化——把已知的对象和关系重新组合，理解从未见过的场景。

这种能力对于类人智能至关重要。如果你知道"杯子"和"桌子"分别是什么，以及"在...上面"是什么关系，那么即使你从未见过某种特定杯子放在某种特定桌子上，你也能立刻理解这个场景。这就是组合性泛化（Compositional Generalization）——从有限的元素中理解无限的组合。

而一个处理整体像素的模型，面对新组合时，可能会完全困惑。

二、核心机制：Slot Attention

Slot Attention（槽注意力） 是 Locatello 等人在2020年提出的一种注意力机制，它为对象中心学习提供了一个简洁而强大的范式。其核心思想是：

用一组可学习的"槽（slots）"来竞争性地绑定输入特征，每个槽最终捕获一个对象的表示。

工作流程

Slot Attention的工作方式可以分为四个步骤：

第一步：初始化。 随机初始化 \(K\) 个槽向量，每个槽的维度相同。这些槽在开始时不代表任何特定对象——它们是"空白的容器"。

第二步：注意力计算。 计算每个槽与所有输入特征之间的注意力权重。关键在于，注意力在槽维度上进行 softmax归一化，这意味着多个槽之间存在竞争——它们争夺对同一片输入特征的"解释权"。

第三步：槽更新。 每个槽根据它"赢得"的输入特征进行加权聚合，然后通过GRU或MLP更新自身表示。

第四步：迭代。 重复第二步和第三步若干次，直到槽的分配趋于稳定。

这个过程的精妙之处在于竞争机制：由于softmax归一化的作用，如果槽A对某片区域的注意力很高，其他槽对该区域的注意力就会被压低。这自然地驱动不同的槽去"负责"不同的对象。

训练方式

Slot Attention通常在自监督框架下训练——模型需要用槽表示来重建输入图像。每个槽分别解码为一个图像和一个遮罩，所有槽的输出组合起来重建完整场景。这种方式不需要任何对象级别的标注。

三、为什么对象中心学习极难

尽管Slot Attention提供了一个优雅的框架，对象中心学习在实践中面临着六个根本性困难：

困难一：对象边界不是天然给定的

"什么算一个对象"本身就没有唯一答案。

一朵云是对象吗？一片阴影呢？一条河流是一个对象还是无穷多个水分子的集合？桌子上一摞书，是"一摞"还是"五本"？

对象的边界取决于认知目标和抽象层级，没有客观的"正确分割"。模型必须学会在合适的粒度上定义对象，而这个粒度本身就是任务相关的。

困难二：遮挡、变形、合并、分裂

现实世界中的对象不是规规矩矩的几何体：

遮挡：一个杯子被书挡住了一半，模型要理解这是一个完整的杯子
变形：绳子弯曲、布料褶皱、人体姿态变化
合并：两个人走近后在图像中视觉上"粘在一起"
分裂：一滴水掉落后溅成多滴

模型必须在这些剧烈的视觉变化中，维持对象身份的连续性。

困难三：对象数量不固定

场景中可能有1个杯子，也可能有5个人和200片树叶。Slot Attention使用固定数量的槽，这意味着必须预先设定一个上界，多余的槽要学会"保持空白"。如何处理变长的对象集合、动态的对象增删，仍然是一个未完全解决的问题。

困难四：关系组合爆炸

对象一多，它们之间的关系就会组合性增长：谁在谁上面、谁碰了谁、谁遮挡了谁、哪些交互是重要的。对于 \(n\) 个对象，潜在的两两关系就有 \(O(n^2)\) 个。模型需要在对象化的同时保持关系建模的能力，还要学会忽略不重要的交互。

困难五：监督信号极弱

在真实数据中，几乎不可能获得精确的对象级标注——"这个像素属于哪个对象"、"帧1的对象A对应帧2的哪个对象"。模型必须从无监督或极弱监督的数据中自己发现"对象性"。这要求模型具备强大的归纳偏置，能够从重建目标或其他代理任务中涌现出对象级分解。

困难六：世界不只有对象

并非所有现象都适合用对象来表示。

光照、流体、温度场、风、声波——这些都是场（field） 性质的现象，它们弥漫在空间中，没有明确的边界。一个完整的世界表示不能只有对象，还需要处理连续场。纯对象中心的方法可能在这些场景中力不从心。

四、2025年前沿进展

对象中心学习在过去几年中经历了从合成数据到真实场景的跨越，2025年的几项工作标志着这一领域的重要突破。

GLASS (CVPR 2025)

GLASS 是首个将Slot Attention应用于复杂真实场景的组合性图像生成的工作。它将Slot Attention与扩散模型结合：

每个槽控制场景中一个对象的生成
通过组合不同槽的内容，可以生成训练时从未见过的对象组合
在复杂真实场景上实现了前所未有的组合性控制

GLASS的意义在于证明了：Slot Attention不仅能用于分析（把场景分解为对象），还能用于生成（把对象组合成场景）。

SlotAdapt (ICLR 2025)

SlotAdapt 提出了一种将Slot Attention与预训练扩散模型相结合的方法，在对象发现任务上超越了此前所有方法。其核心思想是利用扩散模型已经学到的丰富视觉先验，来辅助Slot Attention的对象分解。

这种"站在巨人肩膀上"的策略非常重要：与其从零开始学习对象概念，不如利用大规模预训练模型已经捕获的视觉知识。

理论突破：可证明的组合性泛化

Brendel研究组在理论上证明了：当Slot Attention结合组合一致性损失（Compositional Consistency Loss） 进行训练时，可以实现可证明的组合性泛化。

这是一个非常重要的结果，因为它不是经验性的"在某个基准上效果好"，而是理论上保证了：如果训练过程满足特定条件，模型必然能够泛化到新的对象组合。

五、Slot Attention与其他方法的对比

方法	核心思路	优势	局限
传统目标检测（YOLO, Faster R-CNN）	监督学习，预测边界框和类别	精度高，工程成熟	需要大量标注，无法发现新类别
语义分割	像素级分类	精细的空间分辨率	仍需标注，不具备对象级推理
Slot Attention	竞争性注意力，自监督分解	无需标注，可发现对象	复杂场景困难，槽数量固定
变分自编码器（VAE-based）	学习分解的隐变量	概率框架，可量化不确定性	分解粒度难以控制

Slot Attention相比传统方法的根本区别在于：它不是在已知类别上训练分类器，而是从数据中发现"对象"这个概念本身。这更接近人类婴儿学习的方式——婴儿不是被告知"这是杯子、这是桌子"之后才开始区分对象的，而是天生就倾向于将视觉场景分解为独立的实体。

六、与其他类人智能方向的连接