跳转至

AI Industry Research

AI 训练基础设施：GPU 供需与云厂格局

AI 训练基础设施：GPU 供需与云厂格局

最后更新：2026-04-23

2024-2026 是 AI 基础设施超支出（capex）周期——四大云厂合计 2025 年 AI-related capex 估计 $300B+，人类历史上最贵的短期资本投入。这一章看懂 GPU 供需、云厂格局、供应链瓶颈。

一句话结论

基础设施层在吃走 AI 产业最多的绝对利润（NVIDIA 毛利 75%+），但这笔 capex 的可持续性存疑——收入端（\(50-80B AI 相关年收入）与支出端（\)300B+ 年 capex）差距 4-5x。

三条关键要点

NVIDIA 垄断继续：数据中心 GPU 市占 90%+，Blackwell (B200) / Rubin 路线图持续压制追赶者
云厂 capex 军备赛：MS / Google / Meta / Amazon 每家 2025 年 AI-related capex 都 $40-100B
瓶颈从 GPU 转向电力与 HBM：先进封装 CoWoS、HBM 产能、数据中心电力成为新一轮紧缺

GPU 市场

NVIDIA 主导

H100 / H200（Hopper 代）：2023-2024 主力
B100 / B200（Blackwell）：2025 量产
Rubin (R100/R200)：2026 量产，下一代
毛利率：FY2025 Q3 约 75%+（历史罕见）

挑战者

AMD MI300X / MI325X：第二名，生态在建（ROCm）
Google TPU v5p / Ironwood v7：自用为主，Gemini 训练，Anthropic 部分使用
Amazon Trainium 2 / 3：AWS 自研，Anthropic 战略使用
AI 芯片初创：Cerebras / Groq / Tenstorrent / SambaNova（详见 AI 芯片初创）

价格

H100 采购单价 2024：$30k-40k
B200 采购单价 2025：$40k-50k
年租价（GPU 云）：~$2-4/GPU/hour

云厂格局

超大云 capex

公司	2024 capex	2025 capex 指引	主要 AI 项目
Microsoft	~$55B	$80B+	OpenAI + 自研 Copilot
Google	~$50B	~$75B	Gemini + TPU
Meta	~$40B	~$40B	Llama + 自研 MTIA
Amazon	~$75B	$100B+	Anthropic + Trainium

四家合计 2025 约 $300B，其中 ~50-60% 归 AI。

新世代 GPU 云（"AI neocloud"）

CoreWeave（2024 IPO）：专注 AI 训练云，NVIDIA 战略投资
Lambda Labs：开发者向的 GPU 云
Nebius（原 Yandex 拆分）：欧洲 AI 云
Together AI：开源模型 + 推理云
详见 GPU 云初创

中国

阿里云 · 腾讯云 · 百度云 · 华为云：大模型训练主力
昇腾（Ascend） 910B / 910C：华为 GPU，字节 / 百度等深度使用
算力券 + 国家智算中心：政府主导补贴

供应链瓶颈

2024-2026 的真实短缺从"GPU"转向：

HBM（高带宽内存）

GPU 的高速内存，AI 算力瓶颈
SK Hynix（60%+ 份额）· Samsung · Micron
产能 2024-2026 持续供不应求，年涨价

先进封装（CoWoS）

TSMC 的先进封装工艺，所有高端 AI 芯片都用
2024-2025 产能紧张
NVIDIA 基本锁定 TSMC 大部分 CoWoS 产能

数据中心电力

单个 100k GPU 集群耗电 50-100 MW（相当于一个小城市）
美国北弗吉尼亚、凤凰城、得州成为超级节点
2025-03 Microsoft 重启三里岛核电站给 AI 数据中心供电
电力已成为下一轮 capex 的核心瓶颈（详见数据中心与电力）

光模块 / 高速互联

大集群需要 800G / 1.6T 光模块
Coherent · Molex · 中际旭创（中国）· 新易盛

用 Wardley Maps 看 AI 基础设施栈

（参考 Wardley Maps）

组件	演化阶段
电力	Commodity
数据中心建筑	Commodity → 但 AI 定制化拉回 Product
HBM / CoWoS	Product → Commodity 进行中
GPU（NVIDIA）	Product
AI 加速卡（自研 TPU/Trainium）	Custom-Built → Product
训练框架	Product

演化方向：GPU 正从 Product 向 Commodity 移动（竞争 + 开源 CUDA 替代）。关键战略问题：谁能在 GPU 商品化后保持利润？答案：专用 cornered resource + 新层的差异化。

用基准率看 capex 可持续性

（参考基准率与预期投资）

$300B+ 年 capex 需要至少 $150B+ 年 AI 相关新增收入支撑（按 2 年折旧）。

2025 年实际 AI 相关收入（粗估）： - OpenAI: ~\(12B - Anthropic: ~\)5B - Microsoft AI: ~\(15B - Google Cloud AI: ~\)10B - Meta（难独立归因） - 其他：~$15B - 合计约 $60-80B

差距 2-3 倍。历史上所有基础设施超支出周期（铁路、电信、互联网）最终都会出清。这次不同的理由只有：应用端收入超速增长 + 推理成本继续暴降。

2026 的关键变量

Blackwell 量产能否追上需求 → NVIDIA 利润与客户等待时间
自研芯片份额 → Google TPU / Amazon Trainium / Meta MTIA 是否能抢 15-25% 份额
某个云厂 capex 拐点 → 第一家明显减速的超大云厂会触发估值 re-rating
电力拐点 → 核电重启 / 小型模块核电（SMR）商业化能否跟上

延伸阅读

SemiAnalysis · 多篇 GPU 与 capex 深度分析
Epoch AI · compute 追踪
Stanford AI Index 2025 · Economy 章节
本站 · AI 芯片初创 · GPU 云初创 · 数据中心与电力 · Scaling Laws 框架