Skip to content

对象中心学习

一、核心问题:为什么像素不够?

当你看到一张桌子上放着一杯咖啡和一本书的照片时,你不会想"这里有一片棕色区域旁边有一片白色区域"。你会立刻看到:一张桌子,上面有一杯咖啡,旁边有一本书。你感知到的是对象,而不是像素。

对象中心学习(Object-Centric Learning, 对象中心学习) 的目标,是让AI系统也具备这种能力:将场景自动分解为一个个独立的对象,每个对象有自己的属性(位置、形状、颜色、材质),对象之间有明确的关系(在...上面、挨着、遮挡了...)。

人类以对象为单位理解世界,这使得我们能够进行组合性泛化——把已知的对象和关系重新组合,理解从未见过的场景。

这种能力对于类人智能至关重要。如果你知道"杯子"和"桌子"分别是什么,以及"在...上面"是什么关系,那么即使你从未见过某种特定杯子放在某种特定桌子上,你也能立刻理解这个场景。这就是组合性泛化(Compositional Generalization)——从有限的元素中理解无限的组合。

而一个处理整体像素的模型,面对新组合时,可能会完全困惑。


二、核心机制:Slot Attention

Slot Attention(槽注意力) 是 Locatello 等人在2020年提出的一种注意力机制,它为对象中心学习提供了一个简洁而强大的范式。其核心思想是:

用一组可学习的"槽(slots)"来竞争性地绑定输入特征,每个槽最终捕获一个对象的表示。

工作流程

Slot Attention的工作方式可以分为四个步骤:

第一步:初始化。 随机初始化 \(K\) 个槽向量,每个槽的维度相同。这些槽在开始时不代表任何特定对象——它们是"空白的容器"。

第二步:注意力计算。 计算每个槽与所有输入特征之间的注意力权重。关键在于,注意力在槽维度上进行 softmax归一化,这意味着多个槽之间存在竞争——它们争夺对同一片输入特征的"解释权"。

第三步:槽更新。 每个槽根据它"赢得"的输入特征进行加权聚合,然后通过GRU或MLP更新自身表示。

第四步:迭代。 重复第二步和第三步若干次,直到槽的分配趋于稳定。

这个过程的精妙之处在于竞争机制:由于softmax归一化的作用,如果槽A对某片区域的注意力很高,其他槽对该区域的注意力就会被压低。这自然地驱动不同的槽去"负责"不同的对象。

训练方式

Slot Attention通常在自监督框架下训练——模型需要用槽表示来重建输入图像。每个槽分别解码为一个图像和一个遮罩,所有槽的输出组合起来重建完整场景。这种方式不需要任何对象级别的标注。


三、为什么对象中心学习极难

尽管Slot Attention提供了一个优雅的框架,对象中心学习在实践中面临着六个根本性困难:

困难一:对象边界不是天然给定的

"什么算一个对象"本身就没有唯一答案。

一朵云是对象吗?一片阴影呢?一条河流是一个对象还是无穷多个水分子的集合?桌子上一摞书,是"一摞"还是"五本"?

对象的边界取决于认知目标和抽象层级,没有客观的"正确分割"。模型必须学会在合适的粒度上定义对象,而这个粒度本身就是任务相关的。

困难二:遮挡、变形、合并、分裂

现实世界中的对象不是规规矩矩的几何体:

  • 遮挡:一个杯子被书挡住了一半,模型要理解这是一个完整的杯子
  • 变形:绳子弯曲、布料褶皱、人体姿态变化
  • 合并:两个人走近后在图像中视觉上"粘在一起"
  • 分裂:一滴水掉落后溅成多滴

模型必须在这些剧烈的视觉变化中,维持对象身份的连续性

困难三:对象数量不固定

场景中可能有1个杯子,也可能有5个人和200片树叶。Slot Attention使用固定数量的槽,这意味着必须预先设定一个上界,多余的槽要学会"保持空白"。如何处理变长的对象集合、动态的对象增删,仍然是一个未完全解决的问题。

困难四:关系组合爆炸

对象一多,它们之间的关系就会组合性增长:谁在谁上面、谁碰了谁、谁遮挡了谁、哪些交互是重要的。对于 \(n\) 个对象,潜在的两两关系就有 \(O(n^2)\) 个。模型需要在对象化的同时保持关系建模的能力,还要学会忽略不重要的交互。

困难五:监督信号极弱

在真实数据中,几乎不可能获得精确的对象级标注——"这个像素属于哪个对象"、"帧1的对象A对应帧2的哪个对象"。模型必须从无监督或极弱监督的数据中自己发现"对象性"。这要求模型具备强大的归纳偏置,能够从重建目标或其他代理任务中涌现出对象级分解。

困难六:世界不只有对象

并非所有现象都适合用对象来表示。

光照、流体、温度场、风、声波——这些都是场(field) 性质的现象,它们弥漫在空间中,没有明确的边界。一个完整的世界表示不能只有对象,还需要处理连续场。纯对象中心的方法可能在这些场景中力不从心。


四、2025年前沿进展

对象中心学习在过去几年中经历了从合成数据到真实场景的跨越,2025年的几项工作标志着这一领域的重要突破。

GLASS (CVPR 2025)

GLASS 是首个将Slot Attention应用于复杂真实场景的组合性图像生成的工作。它将Slot Attention与扩散模型结合:

  • 每个槽控制场景中一个对象的生成
  • 通过组合不同槽的内容,可以生成训练时从未见过的对象组合
  • 在复杂真实场景上实现了前所未有的组合性控制

GLASS的意义在于证明了:Slot Attention不仅能用于分析(把场景分解为对象),还能用于生成(把对象组合成场景)。

SlotAdapt (ICLR 2025)

SlotAdapt 提出了一种将Slot Attention与预训练扩散模型相结合的方法,在对象发现任务上超越了此前所有方法。其核心思想是利用扩散模型已经学到的丰富视觉先验,来辅助Slot Attention的对象分解。

这种"站在巨人肩膀上"的策略非常重要:与其从零开始学习对象概念,不如利用大规模预训练模型已经捕获的视觉知识。

理论突破:可证明的组合性泛化

Brendel研究组在理论上证明了:当Slot Attention结合组合一致性损失(Compositional Consistency Loss) 进行训练时,可以实现可证明的组合性泛化

这是一个非常重要的结果,因为它不是经验性的"在某个基准上效果好",而是理论上保证了:如果训练过程满足特定条件,模型必然能够泛化到新的对象组合。


五、Slot Attention与其他方法的对比

方法 核心思路 优势 局限
传统目标检测(YOLO, Faster R-CNN) 监督学习,预测边界框和类别 精度高,工程成熟 需要大量标注,无法发现新类别
语义分割 像素级分类 精细的空间分辨率 仍需标注,不具备对象级推理
Slot Attention 竞争性注意力,自监督分解 无需标注,可发现对象 复杂场景困难,槽数量固定
变分自编码器(VAE-based) 学习分解的隐变量 概率框架,可量化不确定性 分解粒度难以控制

Slot Attention相比传统方法的根本区别在于:它不是在已知类别上训练分类器,而是从数据中发现"对象"这个概念本身。这更接近人类婴儿学习的方式——婴儿不是被告知"这是杯子、这是桌子"之后才开始区分对象的,而是天生就倾向于将视觉场景分解为独立的实体。


六、与其他类人智能方向的连接

对象中心学习与世界模型

对象中心表示为世界模型提供了结构化的词汇表。一个对象中心的世界模型不是在整体潜空间中预测 \(s_{t+1}\),而是预测每个对象的状态如何随时间演化:

  • 杯子从桌子边缘滑落(位置变化)
  • 球被击打后弹飞(速度变化)
  • 两个积木碰撞后改变方向(交互效应)

这种分解使得世界模型更加可解释、更容易泛化(新增一个对象只需要增加一个槽),也更容易支持因果推理(改变某个对象的属性,观察对其他对象的影响)。

对象中心学习与组合性

组合性是人类认知的核心特征之一。我们用有限的概念(对象类型、属性、关系)来理解无限的场景。对象中心学习正是实现这种组合性的基础:

先把世界分解为对象和关系,然后用对象和关系的组合来表示新场景。

如果一个模型不具备对象级别的表示,它就很难做到真正的组合性泛化——因为它不知道什么是可以被重新组合的"零件"。

对象中心学习与因果学习

对象中心表示也是因果学习的天然载体。因果关系通常发生在对象层面——"球撞到了杯子,杯子倒了"——而不是在像素层面。如果模型能先将场景分解为对象,再学习对象之间的因果关系,整个因果学习的问题就变得更加结构化和可处理。


七、逻辑链

  1. 人类以对象为单位感知世界,这使得组合性泛化成为可能。
  2. Slot Attention通过竞争性注意力机制,实现了从像素到对象表示的自监督分解。
  3. 对象中心学习面临六个根本困难:边界模糊、遮挡变形、数量不定、关系爆炸、监督极弱、场的存在。
  4. 2025年的前沿工作(GLASS, SlotAdapt)将Slot Attention推向了真实复杂场景,理论工作为组合性泛化提供了可证明的保证。
  5. 对象中心表示是世界模型的结构化词汇表,是组合性泛化的基础,也是因果学习的天然载体。
  6. 对象中心学习不是万能的——场性质的现象(光照、流体)不适合纯对象表示,完整的世界理解需要对象与场的统一。

评论 #