Skip to content

JEPA架构

一、核心定义

JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)是 Yann LeCun 提出的一种用于构建世界模型的架构。其核心思想是:不预测原始信号(像素、token),而是在抽象表示空间中进行预测。

这个定义包含两个关键要素:

  1. 联合嵌入(Joint Embedding):输入和目标被映射到同一个表示空间
  2. 预测性(Predictive):模型的目标是从输入的表示预测目标的表示

JEPA 的提出源于 LeCun 对当前主流 AI 范式的一个根本性批判:

生成模型(包括 LLM)预测原始信号,这在根本上是低效的。智能不需要预测像素级细节,只需要预测抽象层面的关键变化。


二、架构组件

JEPA 由三个核心组件构成:

x-encoder(输入编码器)

将输入(如当前视频帧)编码为抽象表示 \(s_x\)。这个编码器将高维原始信号压缩为低维的语义表示。

y-encoder(目标编码器)

将目标(如未来视频帧)编码为抽象表示 \(s_y\)。关键设计:y-encoder 通常使用指数移动平均(EMA)更新,而不是直接通过梯度训练——这是防止表示坍缩的核心机制。

predictor(预测器)

从输入表示 \(s_x\) 预测目标表示 \(s_y\),可选择性地以动作 \(a\) 为条件:

\[\hat{s}_y = \text{Predictor}(s_x, a)\]

预测器不需要重建原始信号,只需在表示空间中做出准确预测。

信息流

输入 x → [x-encoder] → s_x → [predictor(a)] → ŝ_y ← 对比 → s_y ← [y-encoder] ← 目标 y

训练目标是让 \(\hat{s}_y\) 尽可能接近 \(s_y\),同时避免所有表示坍缩到同一个点。


三、为什么在潜在空间预测,而非像素空间

这是 JEPA 最根本的设计哲学,值得深入理解。

像素预测的问题

传统生成模型(VAE、GAN、扩散模型、自回归模型)都在像素或 token 层面做预测。这带来一个深层问题:

原始信号中包含大量与语义无关的细节——精确的纹理、光照角度、像素噪声。预测这些细节浪费了模型的大量容量,却对理解世界没有帮助。

考虑一个场景:一个球从桌上滚落。语义上重要的信息是"球的轨迹、速度、落地时间",而不是"球表面每个像素的精确颜色值"。

抽象表示的优势

在抽象表示空间中预测的好处:

维度 像素空间预测 表示空间预测(JEPA)
预测对象 每一个像素的精确值 语义层面的关键变化
容量分配 大量容量用于无关细节 集中于语义信息
不确定性处理 需要建模所有可能的像素组合 只需建模语义上的不确定性
样本效率 低——需要大量数据学习像素统计 高——更快抓住语义规律

与大脑的类比

人脑表征世界的方式不是"内部渲染一幅精确图像",而是维护一个抽象的、结构化的表示。你知道桌上有一个红色杯子,但你不会在脑中精确存储杯子每个像素的颜色。

JEPA 试图模仿的正是这种抽象表征方式:保留语义上重要的结构,丢弃感知上的噪声细节。


四、能量模型视角

JEPA 可以从能量基模型(Energy-Based Model,EBM)的角度来理解:

兼容的 \((x, y)\) 对具有低能量,不兼容的对具有高能量。

训练过程就是调整能量函数,使得真实的(输入,目标)对在表示空间中的距离较小(低能量),而不相关的对距离较大(高能量)。

这个视角的优势在于:它不要求模型生成任何东西,只要求模型学会区分"什么和什么是兼容的"。这比生成模型的要求更弱,因此理论上更容易学习。


五、避免表示坍缩

JEPA 面临的核心技术挑战是表示坍缩(representation collapse):如果所有输入都被映射到同一个点,预测器的误差为零,但表示完全没有意义。

JEPA 通过非对称架构来解决这个问题:

  • y-encoder 用 EMA 更新,不直接接受梯度——它变化缓慢,提供稳定的学习目标
  • x-encoder 和 predictor 通过梯度正常训练
  • 这种非对称性打破了坍缩的平衡点

这与对比学习(contrastive learning)的解决方案不同。对比学习通过显式的负样本来防止坍缩,但负样本的选择往往是个难题。JEPA 不需要负样本——它的非对称架构本身就足以防止坍缩。

这是 JEPA 相对于对比学习的一个关键优势:更简洁,不需要精心设计负样本策略。


六、V-JEPA:视频理解的突破

V-JEPA(Video JEPA)是 JEPA 架构在视频理解领域的应用。

核心思想:给模型展示视频的一部分(比如遮挡掉某些时空区域),让它在表示空间中预测被遮挡的部分。这迫使模型学习视频中的时空规律——物体如何运动、场景如何变化。

V-JEPA 的训练完全是自监督的,不需要任何标注数据。它从未标注的视频中学习世界的运动规律和时空结构。


七、V-JEPA2:从视频表示到机器人规划

V-JEPA2(2025 年 6 月发布)是 V-JEPA 的重大升级,展示了 JEPA 路线最令人兴奋的实验结果。

关键数据:

  • 在超过 100 万小时的未标注视频上训练
  • 仅需 62 小时的机器人操作数据,就能实现零样本规划(zero-shot planning)

这个结果的意义在于:

通过在海量无标注视频中学习世界的运动规律,模型获得了强大的世界表示。当它被迁移到机器人任务时,只需极少的任务特定数据就能做出合理的规划。

这正是 JEPA 所追求的极端样本效率——好的表示学习能大幅降低下游任务的数据需求。62 小时对比 100 万小时,数据效率的杠杆率超过 16000 倍。


八、LeJEPA:理论层面的补全

LeJEPA 是对 JEPA 框架缺失部分的理论升级,试图解决原始 JEPA 中未充分处理的问题:

  • 如何更好地引入动作条件(action-conditioning)
  • 如何处理层级化的表示(hierarchical representations)
  • 如何在不同时间尺度上做预测

LeJEPA 更多地处于理论探索阶段,代表了 JEPA 路线的前沿思考方向。


九、AMI Labs:从学术到产业

2026 年 3 月,LeCun 联合创立的 AMI Labs 宣布获得 10.3 亿美元种子轮融资——这是欧洲历史上最大的种子轮融资。

AMI Labs 的定位是:

以世界模型为核心路径,构建 LLM 之外的替代性 AI 范式。

这笔融资反映了产业界对 JEPA 路线的巨大信心。LeCun 的核心论点是:

  1. LLM 从根本上受限,因为它们预测的是 token,而不是世界状态
  2. JEPA 预测世界状态的抽象表示,这更接近真正的世界理解
  3. 世界模型是通往更通用智能的必经之路,而非 LLM 的渐进改进

这个论点是否正确,目前还没有定论。但 AMI Labs 的成立标志着世界模型研究从学术讨论进入了大规模产业投入的阶段。


十、LeCun 的核心论点

将 LeCun 关于 JEPA 和世界模型的思想整理为一条逻辑链:

  1. 人类从视频和交互中学习世界模型,而不是从文本中学习
  2. 人脑的世界模型是在抽象表示层面运作的,不是在原始感知层面
  3. LLM 只处理文本——文本是世界信息的极度压缩和有损编码
  4. 即使 LLM 表现出"常识",这也只是统计共现,不是真正的世界动力学
  5. 真正的世界理解需要在抽象表示空间中预测世界状态的演化
  6. JEPA 正是为此设计的架构

LLM 学到的是"人们如何描述世界",而 JEPA 要学的是"世界如何运作"。


十一、与自监督学习的关系

JEPA 可以被看作自监督学习的一种特殊形式:

  • 对比学习(如 SimCLR):拉近正样本对,推远负样本对。需要负样本,有坍缩风险。
  • 生成式自监督(如 MAE):遮挡输入的一部分,预测原始像素。在像素空间操作,容量浪费在细节上。
  • JEPA:遮挡输入的一部分,在表示空间预测。不需要负样本,不在像素空间操作。

JEPA 可以说是吸取了对比学习和生成式自监督各自的教训后,找到的一条中间道路。


十二、开放问题

尽管 JEPA 路线取得了令人瞩目的进展,几个根本性问题仍然悬而未决:

  1. 如何扩展到更广泛的领域:V-JEPA2 在视频和机器人领域表现出色,但 JEPA 能否扩展到语言、推理、社会交互等更抽象的领域?
  2. 动作条件的引入:JEPA 要成为完整的世界模型,必须有效地引入动作条件——目前这一部分仍在发展中
  3. 层级化预测:现实世界的变化发生在多个时间尺度上(毫秒级的物理运动、秒级的动作、分钟级的事件),如何做层级化的抽象预测?
  4. 与规划的整合:从世界模型到实际的决策和规划,中间还需要什么?

JEPA 代表了一种引人注目的替代范式——它赌的是"理解世界"比"生成文本"更接近智能的本质。这个赌注是否正确,未来几年将会揭晓。

参见 世界模型 了解世界模型的整体框架,以及 空间智能与学习式仿真 了解其他竞争路径。


评论 #