跳转至

2026 年度预测与自评

最后更新:2026-04-23

复刻 Nathan Benaich State of AI 的"annual predictions + next-year grading"仪式。每年一月发 12 条可证伪预测 + 打分上年度。这个"年度自评"机制是本站区别于一般媒体 commentary 的关键产品动作

为什么做年度预测

基准率与预期投资 的思路: - 大多数行业写作是事后叙事(发生了什么 + 为什么合理) - 预测 + 自评强迫事前叙事(会发生什么 + 我为什么认为) - 一年后给自己打分 → 信用积累 / 信用消耗都透明

Benaich 的 State of AI 用 6 年时间把"预测打分"做成了行业最期待的年度仪式,每条 inbound 链接巨大。本站照搬此做法。

2026 年度 12 条预测(2026-04 首发版)

以下为我的可证伪前瞻。2026 年 12 月会回来给每条打分

基础模型

  1. 某头部基础模型公司(OpenAI / Anthropic / Google)会经历至少一轮重大 CEO / 董事会动荡(非正常交接),类似 2023-11 的 Sam 罢免

    • 打分指标:是否发生公开的高层冲突 → ✅ / ❌
  2. GPT-6 和 Claude 5 Opus 会在 2026 年发布,但基准提升被普遍认为"渐进式"(不是 GPT-3 → GPT-4 级别跃迁)

    • 打分指标:关键 benchmark(GPQA / SWE-bench / AIME)平均提升 <10pp
  3. 至少一个开源基础模型(DeepSeek V4 或 Llama 5)在综合评测上追平 GPT-5 当前水准,且成本 1/10

    • 打分指标:LMArena / MMLU / GPQA 综合排名进入前 3

中国 AI

  1. "六小虎"中至少一家正式退出基础模型训练,转向 2B 或被大厂收购

    • 打分指标:公开宣布战略转型或被收购
  2. 字节豆包在中文 AI 助手 C 端市场超过 Kimi,以月活为准

    • 打分指标:艾瑞 / QuestMobile 等第三方数据

基础设施

  1. 四大云厂中至少一家 2026 全年 AI-related capex 会低于年初指引(出现拐点信号)

    • 打分指标:季报披露 capex < 年初指引 10%+
  2. 某家 AI 芯片初创(Cerebras / Groq 等)会拿到超过 $500M 订单,从 toy 走向 real deployment

    • 打分指标:公开披露的大单

Agent 与应用

  1. Claude Code 会超过 Cursor 成为付费开发者 #1

    • 打分指标:用户量 / 收入,公开披露或 SemiAnalysis 类调研
  2. 至少一个"工作日级"Agent 案例公开:AI Agent 完成一整天的工作任务(例如:独立完成一个 mid-tier SaaS 新 feature 从 design → PR),成功率 >50%

    • 打分指标:可复现的演示或第三方审计

机器人 / 具身

  1. Tesla Optimus 会进入 Tesla 自有工厂的正式生产线(不是 demo),数量 >500 台 - 打分指标:季报披露或 Musk 明确确认

商业 / 估值

  1. 某家头部 AI 公司估值会出现明显 re-rating 下调(不是 up-round 放缓,是真正的下修) - 打分指标:下一轮估值 < 上一轮 或 二级市场股价明显下跌

黑天鹅

  1. 至少一起公开、重大的"AI 安全事故"(不是小 jailbreak)会发生,推动新一轮监管 - 打分指标:主流媒体头条 + 政府反应

自评规则

  • 完全对:事件发生了,时间 / 规模都符合
  • 部分对:方向对但时间 / 规模不完全
  • 完全错:事件没发生或相反
  • 无法判定:信息不透明

每条打 0 / 0.5 / 1 分,12 条满分 12 分。我的长期目标是维持 6-8 分 / 年——太高说明预测太保守,太低说明没在真正思考。


去年(2025)预测复盘位

此处将在 2026-12 更新为"2025 年度预测自评"——2025 无独立预测(本栏第一年),留空。从 2026-12 开始有真实复盘。


方法论注记

好预测 vs 坏预测

  • :可证伪(binary 或明确阈值)+ 非共识(不是所有人都说这话)+ 有 skin in the game(错了真丢脸)
  • :"AI 会继续发展"、"某公司会加强 XX 业务" —— 废话

避免的常见错误

  1. 过度自信于 trends:有些 trend 会反转(2021 crypto → 2022 寒冬)
  2. 忽视基础设施:AI 能力预测容易忽略电力 / 芯片 / 数据供给瓶颈
  3. 假设在位者理性行动:很多失败来自理性选择(见 颠覆创新

延伸阅读