World Model 与 BEV+Transformer
最后更新:2026-04-24
BEV(Bird's-Eye View)+ Transformer 是 2022-2024 自驾感知主流架构,World Model 是 2024-2026 新兴方向(Wayve GAIA、Sora-style 视频生成)。两者共同重塑自驾技术栈——从 "摄像头 + 手工规则" → "端到端神经网络 + 物理世界理解"。
一句话结论
BEV + Transformer: 已成自驾感知事实标准(2022-2025 主流),Tesla FSD / 小鹏 / 华为都用。World Model: 2024-2026 新一代方向,用生成式模型学习物理世界,Wayve GAIA-1 + GAIA-2 + NVIDIA Cosmos 是代表作品。
三条关键要点
- BEV(鸟瞰图):把多摄像头输入投影到 3D 鸟瞰坐标,让感知一体化
- Transformer for Vision:DETR / BEVFormer / MaskFormer 系列
- World Model:生成视频 = 理解物理规律 = 更好规划
BEV + Transformer
关键论文 / 模型
- BEVFormer(清华 2022):时序 BEV
- BEVFusion(MIT):多传感器融合
- PETR / StreamPETR
- Occupancy Network(Tesla 2022):3D 占据网络
Tesla 实现
- Vector Space:Tesla 自研 BEV 类方案
- Occupancy Network 2022 发布
- 端到端 FSD v12 继承 + 扩展
小鹏 / 华为 / 蔚来实现
- XNet(小鹏)
- 华为 ADS GOD 网络
- 蔚来 NAD
World Model
关键模型
- Wayve GAIA-1(2023):自驾视频生成
- GAIA-2(2024):改进 + 推理
- NVIDIA Cosmos(2025-01):物理世界 foundation model
- Sora for Driving 方向
作用
- 模拟 + 数据增强:生成稀有场景数据
- 规划 planning:预测"如果我这样做会怎样"
- Safety validation:模拟危险场景
对自驾的意义
- 解决长尾问题:不可能真车遇到的情况可以模拟
- 端到端策略的 groundtruth 提供
技术演化(2020-2026)
2020 Tesla HydraNet(多任务网络)
2022 BEVFormer + Occupancy Network
2023 Wayve GAIA-1(World Model 起步)
2024 Tesla FSD v12 端到端
2024 NVIDIA Cosmos
2025 端到端 + World Model 融合
挑战
- 计算量巨大(World Model 视频生成)
- Sim2Real gap:仿真再真实也不等于真实
- 评估困难:生成视频"看起来真实" ≠ 对决策有用
2026 关键变量
- World Model 真实商用落地(Wayve 产品化 / NVIDIA Cosmos 生态)
- Tesla FSD v14 / v15 是否采用 World Model
- 中国厂商 World Model 追赶
我的判断
- BEV + Transformer 是 2024-2026 主流,2027-2028 会被 World Model 部分替代
- World Model 真正价值在 长尾 + 仿真,不是直接感知
- Tesla + Wayve + NVIDIA 三强 领跑 World Model
我可能错在哪里:World Model 始终只是"demo 好看",不进生产。