多模态进展：文生图 · 视频 · 语音

最后更新：2026-04-24

多模态是 2024-2026 AI 最快成熟的方向——文生图（Midjourney、DALL-E）→ 文生视频（Sora、Runway、Veo）→ 实时语音（GPT-4o、ElevenLabs）。本文梳理三大模态的格局、技术路线、商业化状态。

一句话结论

多模态已从"演示"走向"规模消费"——文生图最成熟（Midjourney 年收入 $500M+），文生视频刚跨过质量门槛（Veo 3 / Sora 2），实时语音是 2025-2026 最快扩张的新模态（Hume AI、ElevenLabs、GPT-4o voice）。

三条关键要点

文生视频 2025 跨越质量门槛：8 秒以内 1080p 60fps 已达可用，但 1 分钟以上长视频仍有连贯性问题
语音进入"实时对话"时代：端到端延迟从 1-2s 降到 <500ms（GPT-4o Advanced Voice）
多模态正在融合：基础模型原生多模态（Gemini、GPT-4o）vs 单模态最强（Midjourney、ElevenLabs）两条路线

文生图格局

头部产品

产品	公司	2025 MAU（估）	定价
Midjourney	Midjourney Inc	~2000 万	$10-60/月
Sora Image（含在 ChatGPT）	OpenAI	ChatGPT 用户基数	订阅内
DALL-E 3	OpenAI	同上	订阅内
Stable Diffusion / Flux	Stability AI / BFL	开源 + 自部署	免费
Imagen 3	Google DeepMind	Gemini 用户基数	订阅内
可灵 / 即梦	字节	中文市场	免费 + 付费
DreamFabric	Midjourney 推出图像生成独立模型	新

Midjourney 的独特位置

创立 2022，Discord 起家 → 2024 Web App
不融资 → 自持利润
2024 收入 ~$500M（估）→ 单位经济极佳（~100 人团队）
2025 推出自有网页版 + V7 模型 + 3D 早期

技术路线

Diffusion（主流）：DALL-E、Midjourney、Imagen、Stable Diffusion
Autoregressive（挑战）：Parti、OpenAI 的 GPT-Image-1

商业化

订阅制主导（Midjourney 的精品订阅模型）
API（Flux Schnell 等）作为企业端
内嵌在通用 AI（ChatGPT 订阅附赠 DALL-E 3）

文生视频格局

头部产品（2025-2026）

产品	公司	发布	能力
Sora / Sora 2	OpenAI	2024-02 / 2025	8-60 秒、1080p
Veo 2 / Veo 3	Google DeepMind	2024 / 2025	电影感、长镜头
Runway Gen-4	Runway	2025	创作者专用
Kling 2	快手	2024-06 起	中国最强
Pika 2	Pika Labs	2024	消费级
MiniMax Hailuo	MiniMax	中国	创意社区
Hedra	Hedra	人脸驱动

关键进展（2025）

从 4 秒 720p 到 30 秒 1080p
角色一致性 基本解决（同一人出现在多镜头）
物理感（流体 / 布料 / 抛物运动）基本符合直觉
剩余问题：长视频（>1 分钟）连贯性、复杂对话 lip-sync、特定艺术风格

商业化

Runway 订阅：$15-95/月，创作者为主
Sora 在 ChatGPT Pro（$200/月）内
企业视频：广告、培训、短剧自动化—— 2025-2026 起爆发

潜在颠覆场景

短视频（TikTok / Instagram Reels）进入 AI 生成时代
独立短剧 / 微电影
广告 pre-production
教育 / 培训视频

语音格局

头部产品

产品	公司	能力
GPT-4o Advanced Voice	OpenAI	实时对话、情感识别
ElevenLabs	ElevenLabs	最强 TTS / 克隆 / 多语言
Hume AI	Hume	情感化对话（Empathic Voice Interface）
Cartesia	Cartesia	低延迟企业 TTS
Deepgram	Deepgram	ASR + 实时转录
中国：字节火山 / 阿里 / 科大讯飞	多家	多语言、方言

关键进展（2025）

端到端延迟 <500ms（GPT-4o Advanced Voice 在 app 内实测）
声音克隆：30 秒样本 → 可克隆
情感化：模型能感知用户情绪、调整语调
多语言：单模型支持 30+ 语言

应用场景

AI 客服（取代传统电话客服）
AI 伴侣 / 陪伴
多媒体内容（播客、有声书自动化）
实时翻译

融合 vs 专精：两条路线

路线 A · 通用多模态基础模型

代表：GPT-4o（OpenAI）· Gemini 2.5（Google）· Claude（部分）

优势： - 一个模型处理所有模态 - 开发者友好（单一 API） - 跨模态任务（图像理解、视频解说等）

劣势： - 单模态能力不一定最强 - 训练成本极高

路线 B · 单模态最强

代表：Midjourney（图）· Runway（视频）· ElevenLabs（语音）

优势： - 单模态深度优化 → 质量领先 - 垂直用户心智（创作者专属） - 商业化更清晰

劣势： - 不能做"文本+图像"混合任务 - 被通用模型追平的风险

用 BCG Advantage Matrix 框架看

模态	象限
文生图	Volume（Midjourney / DALL-E / Imagen 头部几家）+ Specialization（Flux 垂直）
文生视频	Volume（Sora / Veo / Runway 头部）
语音	Specialization（ElevenLabs 专精 + GPT-4o 通用多模态并存）

用颠覆创新框架看

Midjourney 是图像领域的创新者（Innovator），Discord 起家反向颠覆传统图像软件
Sora 2 / Veo 3 正在颠覆：传统视频生产（广告、短剧）5-20 倍效率提升
GPT-4o voice 颠覆：TTS + 客服 + AI 伴侣多个子赛道

2026 关键变量

文生视频 1 分钟连贯能否突破：决定长形式视频（广告、短片）能否完全 AI 化
Sora 2 API 开放：会重塑视频创作工具格局
GPT-4o voice / 类似产品的日活：AI 实时对话是否成为主流交互
中国多模态模型：可灵 / 即梦能否国际化
版权诉讼：文生图 / 视频的训练数据版权判决（NYT vs OpenAI 等）

我的判断

我的看法：

文生视频是 2026 最大的 opportunity——质量已够，成本快速降，商业化场景多

专精模态仍有空间：Midjourney、ElevenLabs 证明"做透一个模态"比通用 AI 更有粘性

语音是被低估的模态：实时对话 AI 可能是移动时代后的下一个交互范式

通用多模态 vs 专精：两条路线长期并存，类比 iOS vs 专业相机 App

我可能错在哪里： - Sora / Gemini 等通用模态可能"吃掉"专精市场 - 视频生成版权 / 政治风险可能限制商业化（deepfake / 肖像权） - 中国多模态模型可能因监管或地缘限制无法国际化

延伸阅读

Latent Space podcast · 多模态专题
Artificial Analysis · 多模态评测
本站 · Sora 产品 · Runway 产品 · Midjourney 产品 · BCG Advantage 框架

多模态进展：文生图 · 视频 · 语音

一句话结论

三条关键要点

文生图格局

头部产品

Midjourney 的独特位置

技术路线

商业化

文生视频格局

头部产品（2025-2026）

关键进展（2025）

商业化

潜在颠覆场景

语音格局

头部产品

关键进展（2025）

应用场景

融合 vs 专精：两条路线

路线 A · 通用多模态基础模型

路线 B · 单模态最强

用 BCG Advantage Matrix 框架 看

用 颠覆创新框架 看

2026 关键变量

我的判断

延伸阅读

用 BCG Advantage Matrix 框架看

用颠覆创新框架看