跳转至

多模态进展:文生图 · 视频 · 语音

最后更新:2026-04-24

多模态是 2024-2026 AI 最快成熟的方向——文生图(Midjourney、DALL-E)→ 文生视频(Sora、Runway、Veo)→ 实时语音(GPT-4o、ElevenLabs)。本文梳理三大模态的格局、技术路线、商业化状态。

一句话结论

多模态已从"演示"走向"规模消费"——文生图最成熟(Midjourney 年收入 $500M+),文生视频刚跨过质量门槛(Veo 3 / Sora 2),实时语音是 2025-2026 最快扩张的新模态(Hume AI、ElevenLabs、GPT-4o voice)。

三条关键要点

  1. 文生视频 2025 跨越质量门槛:8 秒以内 1080p 60fps 已达可用,但 1 分钟以上长视频仍有连贯性问题
  2. 语音进入"实时对话"时代:端到端延迟从 1-2s 降到 <500ms(GPT-4o Advanced Voice)
  3. 多模态正在融合:基础模型原生多模态(Gemini、GPT-4o)vs 单模态最强(Midjourney、ElevenLabs)两条路线

文生图格局

头部产品

产品 公司 2025 MAU(估) 定价
Midjourney Midjourney Inc ~2000 万 $10-60/月
Sora Image(含在 ChatGPT) OpenAI ChatGPT 用户基数 订阅内
DALL-E 3 OpenAI 同上 订阅内
Stable Diffusion / Flux Stability AI / BFL 开源 + 自部署 免费
Imagen 3 Google DeepMind Gemini 用户基数 订阅内
可灵 / 即梦 字节 中文市场 免费 + 付费
DreamFabric Midjourney 推出图像生成独立模型

Midjourney 的独特位置

  • 创立 2022,Discord 起家 → 2024 Web App
  • 不融资 → 自持利润
  • 2024 收入 ~$500M(估)→ 单位经济极佳(~100 人团队)
  • 2025 推出自有网页版 + V7 模型 + 3D 早期

技术路线

  • Diffusion(主流):DALL-E、Midjourney、Imagen、Stable Diffusion
  • Autoregressive(挑战):Parti、OpenAI 的 GPT-Image-1

商业化

  • 订阅制主导(Midjourney 的精品订阅模型)
  • API(Flux Schnell 等)作为企业端
  • 内嵌在通用 AI(ChatGPT 订阅附赠 DALL-E 3)

文生视频格局

头部产品(2025-2026)

产品 公司 发布 能力
Sora / Sora 2 OpenAI 2024-02 / 2025 8-60 秒、1080p
Veo 2 / Veo 3 Google DeepMind 2024 / 2025 电影感、长镜头
Runway Gen-4 Runway 2025 创作者专用
Kling 2 快手 2024-06 起 中国最强
Pika 2 Pika Labs 2024 消费级
MiniMax Hailuo MiniMax 中国 创意社区
Hedra Hedra 人脸驱动

关键进展(2025)

  • 从 4 秒 720p 到 30 秒 1080p
  • 角色一致性 基本解决(同一人出现在多镜头)
  • 物理感(流体 / 布料 / 抛物运动)基本符合直觉
  • 剩余问题:长视频(>1 分钟)连贯性、复杂对话 lip-sync、特定艺术风格

商业化

  • Runway 订阅:$15-95/月,创作者为主
  • Sora 在 ChatGPT Pro($200/月)内
  • 企业视频:广告、培训、短剧自动化—— 2025-2026 起爆发

潜在颠覆场景

  • 短视频(TikTok / Instagram Reels)进入 AI 生成时代
  • 独立短剧 / 微电影
  • 广告 pre-production
  • 教育 / 培训视频

语音格局

头部产品

产品 公司 能力
GPT-4o Advanced Voice OpenAI 实时对话、情感识别
ElevenLabs ElevenLabs 最强 TTS / 克隆 / 多语言
Hume AI Hume 情感化对话(Empathic Voice Interface)
Cartesia Cartesia 低延迟企业 TTS
Deepgram Deepgram ASR + 实时转录
中国:字节火山 / 阿里 / 科大讯飞 多家 多语言、方言

关键进展(2025)

  • 端到端延迟 <500ms(GPT-4o Advanced Voice 在 app 内实测)
  • 声音克隆:30 秒样本 → 可克隆
  • 情感化:模型能感知用户情绪、调整语调
  • 多语言:单模型支持 30+ 语言

应用场景

  • AI 客服(取代传统电话客服)
  • AI 伴侣 / 陪伴
  • 多媒体内容(播客、有声书自动化)
  • 实时翻译

融合 vs 专精:两条路线

路线 A · 通用多模态基础模型

代表:GPT-4o(OpenAI)· Gemini 2.5(Google)· Claude(部分)

优势: - 一个模型处理所有模态 - 开发者友好(单一 API) - 跨模态任务(图像理解、视频解说等)

劣势: - 单模态能力不一定最强 - 训练成本极高

路线 B · 单模态最强

代表:Midjourney(图)· Runway(视频)· ElevenLabs(语音)

优势: - 单模态深度优化 → 质量领先 - 垂直用户心智(创作者专属) - 商业化更清晰

劣势: - 不能做"文本+图像"混合任务 - 被通用模型追平的风险

BCG Advantage Matrix 框架

模态 象限
文生图 Volume(Midjourney / DALL-E / Imagen 头部几家)+ Specialization(Flux 垂直)
文生视频 Volume(Sora / Veo / Runway 头部)
语音 Specialization(ElevenLabs 专精 + GPT-4o 通用多模态 并存)

颠覆创新框架

  • Midjourney 是图像领域的创新者(Innovator),Discord 起家反向颠覆传统图像软件
  • Sora 2 / Veo 3 正在颠覆:传统视频生产(广告、短剧)5-20 倍效率提升
  • GPT-4o voice 颠覆:TTS + 客服 + AI 伴侣多个子赛道

2026 关键变量

  1. 文生视频 1 分钟连贯能否突破:决定长形式视频(广告、短片)能否完全 AI 化
  2. Sora 2 API 开放:会重塑视频创作工具格局
  3. GPT-4o voice / 类似产品的日活:AI 实时对话是否成为主流交互
  4. 中国多模态模型:可灵 / 即梦能否国际化
  5. 版权诉讼:文生图 / 视频的训练数据版权判决(NYT vs OpenAI 等)

我的判断

我的看法

  1. 文生视频是 2026 最大的 opportunity——质量已够,成本快速降,商业化场景多
  2. 专精模态仍有空间:Midjourney、ElevenLabs 证明"做透一个模态"比通用 AI 更有粘性
  3. 语音是被低估的模态:实时对话 AI 可能是移动时代后的下一个交互范式
  4. 通用多模态 vs 专精两条路线长期并存,类比 iOS vs 专业相机 App

我可能错在哪里: - Sora / Gemini 等通用模态可能"吃掉"专精市场 - 视频生成版权 / 政治风险可能限制商业化(deepfake / 肖像权) - 中国多模态模型可能因监管或地缘限制无法国际化

延伸阅读