跳转至

Scaling Laws + Compute Overhang

最后更新:2026-04-23

Scaling Laws 是 AI 周期独有的定量预测工具。由 OpenAI 在 2020 年(Kaplan et al.)首次系统化,DeepMind 2022 年(Chinchilla)修正。它让"AI 能力预测"从玄学变成数学。理解它你才能读懂 AI 行业的 capex 决策和 capability forecast。

核心主张

大模型的损失函数(loss)会随着 compute / parameters / tokens 的增加按幂律下降。

简化公式(Kaplan 2020):

Loss ~ C^(-α)
其中 C 是训练 compute,α ≈ 0.05(约数)。

含义:compute 翻 10 倍,loss 降约 20%(粗略)。换算到 capability 上,这意味着能力以可预测的曲线上升。

关键版本演化

Kaplan et al. 2020(OpenAI)

首次提出 Scaling Laws。推论:模型越大越好,数据不是瓶颈。

Chinchilla 2022(DeepMind)

重大修正:GPT-3 严重 under-trained——按 Kaplan 理论模型大但训练数据不够。Chinchilla 给出最优比例: - 参数 : token ≈ 1 : 20(粗略) - 即每 1B 参数配约 20B tokens 训练 - 在 fixed compute 下,中等模型 + 更多数据 > 大模型 + 少数据

这改变了整个行业:从 "堆参数" 转向 "堆数据 + 合理参数"。

Reasoning Time Scaling 2024-2025(o1 / o3 开启)

新维度:推理时算力(test-time compute)也能换 capability。模型思考得更久 → 更准。这是 2024 年 9 月 o1 的突破,改变了 scaling 的另一条轴。

Compute Overhang(算力悬挂)

AI 安全圈的术语,核心观察:

已有的算力 > 当前被训练的最大模型所用的算力

意味着:任何时刻突然有人决定把现有算力 allocate 给更大模型,能力会不连续跃迁。

例子: - 2023 年时 NVIDIA 已经有能支持 10^25 FLOPS 训练的 GPU 库存,但当时没人训过这个量级 - 2024-2025 年突然 xAI、Meta、Microsoft 等同时启动百万卡集群 → 不同代际的模型在短期内涌现

Compute Overhang 是"AI 能力拐点"的工程来源。

如何应用

正向预测

知道 compute budget → 预测 loss → 预测 capability。

例:假设 GPT-6 训练 compute 是 GPT-5 的 10x: - Loss 降约 20% - MMLU 等 benchmark 预期提升 3-5 个点(粗略) - 具体新能力涌现难预测,但大方向稳定

反向计算成本

知道想要的能力 → 反推需要的 compute → 计算硬件成本 + 电费。

例:一家追赶 GPT-5 的公司: - GPT-5 训练约 10^25-26 FLOPS - 按 H100 500 TFLOPS 算 → 约 20 万张 H100 × 3 个月 - 按每张卡 $30k/年 → capex 单笔 $1.5B+ - 解释为什么 AI 训练成本让"六小虎"分化——做不起

看 Compute Overhang

AI 基础设施的 capex 是否可持续?看 compute overhang 是否在消化: - 如果超级集群利用率 100% 跑最大模型 → 无 overhang - 如果 80% 集群跑推理(过剩) → 有 overhang,下一代跃迁快

应用到 AI 产业

例 1:DeepSeek 的"efficiency 故事"

2025 年 DeepSeek R1 的 $6M 训练成本引爆讨论。用 Scaling Laws 看: - DeepSeek 真实 GPU 投入 $500M+(SemiAnalysis 分析) - $6M 是"某一次训练运行的电费",不是总 compute cost - :DeepSeek 确实优化了 training compute efficiency(MLA / MoE 等)——compute-optimal 曲线上的努力 - 长期意义:算法效率提升 = 同等 compute 下更强能力 = Scaling 曲线的 intercept 下移

这重写了 Scaling Laws 的经济学:不只是堆 compute,算法改进也推动曲线

例 2:Test-Time Compute 的商业化

o1 / o3 开启了"思考模式"付费: - 用户愿意为"更久思考" 付更多钱 - 这变相把 Scaling 的成本从"训练端(资本支出)"转移到"推理端(用户付费)" - 对基础模型公司是重大利好——降低了预训练 capex 压力

例 3:Compute Overhang 解释为什么 2024-2025 突然涌现百万卡集群

2023 年底前 NVIDIA 一直 GPU 供不应求,但各家集群实际规模 ~10-30 万卡。2024 年起: - xAI Colossus 20 万 H100 → 2025 年扩到 100 万 - Microsoft / Oracle / Meta 各自启动百万卡项目 - Overhang 在被消化——短期内能看到 GPT-6 / Gemini 3 / Grok 5 同时出现

常见误用

  1. 把 Scaling Laws 线性外推:幂律在足够大的 compute 下会递减——不是无限涨
  2. 忘记数据墙:Chinchilla 的关键洞察是数据限制。2026 年互联网高质量文本可能接近用完——新瓶颈
  3. 混淆 capability 和 loss:loss 稳定下降不代表 capability 平滑上升——能力涌现是非线性的
  4. 用 Scaling Laws 预测"AGI 在 X 年到达":Scaling 给你"有多强"的概率分布,不给 AGI 的阈值

延伸阅读