🔬 AI深度解析 DD05 — 多模态模型的三条技术路线

预计时长：约25分钟

🎤 开场

大家好呀，我是小敏，欢迎回来！

今天要聊的话题特别有意思——多模态模型。就是让AI不只能读文字，还能看图片、听声音、理解视频的那种模型。

我先跟你们说个真实经历。前阵子我拍了一张一个我不认识的植物的照片，发给AI，它不仅认出了品种，还告诉我浇水频率、光照需求、甚至这个季节该不该修剪。全程不到5秒。

这在3年前完全不可能。那时候的AI，你给它一张图，它最多告诉你”这是一棵植物”，连品种都分不清。

那么问题来了：从”几乎看不懂图”到”图片视频全能”，多模态AI是怎么一步步走过来的？目前有哪些不同的技术路线？谁的方案更好？

🛤️ 第一章：三条路线概览

先给大家画一个总览图。目前做多模态模型主要有三条技术路线：

路线	核心思想	代表模型	简单类比
路线一：外挂式	语言模型 + 视觉编码器拼接	LLaVA, InternVL	给聋人配了个翻译
路线二：原生融合	从训练起就同时学文字和图像	Gemini, GPT-4o	天生双语的混血儿
路线三：模块化管线	专业模型各司其职，管线串联	某些Agent框架	工厂流水线

这三条路各有优劣。我们一条一条来聊。

🔌 第二章：路线一——外挂式（Vision Encoder + LLM）

怎么做的？

这条路线的思想特别直观：已经有一个很强的语言模型了，只要想办法让它”看见”图片就行了。

具体方案：

用一个视觉编码器（比如CLIP、SigLIP、EVA）把图片转换成一组向量
用一个投影层（Projection Layer）把这些视觉向量”翻译”成语言模型能理解的格式
把翻译后的向量和文本一起喂给语言模型

图片 → [视觉编码器] → 视觉Token → [投影层] → LLM能理解的格式
                                                    ↓
文本输入 ────────────────────────────────→ [语言模型] → 输出回答

代表选手

LLaVA系列：开源界的先驱，证明了这条路行得通
InternVL：上海AI Lab出品，中文多模态能力很强
Qwen-VL：阿里的方案，也走的这条路

优势

实现简单：有了好的语言模型，加个视觉编码器就行
可以复用最强的语言模型：视觉能力会随着底层语言模型的升级而提升
训练成本相对低：不需要从头训练，只需要训练投影层和做微调

劣势

视觉理解有上限：因为视觉信息是”翻译”过来的，不可避免会丢失信息
跨模态推理弱：图文之间的深层关系不容易捕捉
一般只支持图片输入：要加音频、视频需要额外的编码器，越堆越复杂

我打个比方：这就像给一个只懂中文的人配了个英文翻译。他能通过翻译理解英语内容，但总有些微妙的意思会在翻译中丢失。而且翻译太多语言的时候（图片+音频+视频），一个翻译忙不过来。

🧬 第三章：路线二——原生多模态（Native Multimodal）

怎么做的？

这条路线的哲学完全不同：从一开始就让模型同时学习文字、图片、音频、视频，让多种模态在模型内部”自然融合”。

不需要外挂视觉编码器，不需要投影层。模型架构本身就能处理多种输入。

Google的Gemini是最典型的例子。按照Google的说法，Gemini从预训练阶段就同时学习了文本、图片、音频和视频数据。所有模态在同一个Transformer里面”协同学习”。

GPT-4o也是走的这条路。”o”代表”omni”（全能），输入可以是文字、图片、音频的任意组合，输出也是。

原生融合的技术细节

这里面有几个关键设计：

1. 统一的Token化 不管是文字、图片还是音频，都转化成Token序列。图片被分成小块（patches），每块变成一个token；音频被分成短时间片段，每段变成token。然后所有token混在一起输入Transformer。

2. 跨模态注意力 在注意力机制中，图片token可以”看到”文字token，文字token也可以”看到”图片token。这种深层交互是原生融合的核心优势。

3. 大规模多模态预训练 需要海量的图文对、视频文本对、音频文本对数据来训练。数据规模和多样性要求非常高。

优势

跨模态理解最深：图文音视频之间的关系是”自然学会”的
统一架构优雅：一个模型搞定一切，不需要拼凑多个组件
涌现能力强：可能出现单模态模型没有的能力

劣势

训练成本极高：需要从头训练，数据量和算力都是天文数字
黑盒更黑：不同模态的信息在内部是怎么交互的，很难分析
迭代慢：升级一个模态的能力需要重新训练整个模型

🏭 第四章：路线三——模块化管线（Modular Pipeline）

怎么做的？

这条路线的思路是：不要把所有能力塞进一个模型，让专业的模型干专业的事，然后用管线把它们串起来。

用户输入(图片+文字)
    ├── 图片 → [OCR模型] → 提取文字
    ├── 图片 → [目标检测模型] → 识别物体
    ├── 图片 → [描述生成模型] → 生成图片描述
    └── 所有结果汇总 → [语言模型] → 生成最终回答

优势

每个模块都可以是最强的：OCR用最好的OCR，检测用最好的检测器
灵活可替换：任何模块升级了，直接换上去
可解释性好：出了问题能定位到具体哪个模块
成本可控：不需要的模块可以不启动

劣势

延迟高：每个模块串行处理，时间叠加
信息损失：模块之间传递的是中间结果，可能丢失信息
缺乏端到端优化：整个管线的效果取决于最弱的那个环节
维护复杂：多个模型的版本管理、兼容性是个大问题

📊 第五章：三条路线实战对比

说了这么多理论，来看看实际表现：

Benchmark	Gemini 2.5 Pro (原生)	GPT-4o (原生)	InternVL 3 (外挂)	管线方案
MMMU	74.2	72.8	68.5	~60
MathVista	71.5	69.3	65.1	~55
OCR准确率	96.8%	95.2%	93.5%	98.1%
视频理解	82.3	78.5	有限支持	可扩展
响应延迟	中	中	低	高
训练成本	极高	极高	中	低

几个有意思的发现：

原生融合在综合理解上明显领先——MMMU和MathVista需要同时理解图片和文字并做推理，这正是原生融合的强项
OCR场景管线方案反而最好——专门的OCR模型在精确度上确实更强
视频理解是原生融合的最大优势——外挂式和管线方案在视频理解上都比较吃力

🎬 第六章：视频理解——下一个大战场

说到视频，我要专门展开聊聊，因为这可能是2026-2027年多模态AI最大的战场。

理解视频比理解图片难太多了。一个1分钟的视频，30fps就有1800帧。你不可能把每一帧都当作图片喂给模型——token数会爆炸。

目前的主流方案：

1. 关键帧采样：从视频中抽取少量关键帧来分析。简单但可能错过重要细节。

2. 时间感知编码：把视频分成多个时间片段，每个片段提取特征后带上时间信息。Gemini就用了类似的方法。

3. 视频原生Token化：把视频直接编码成时空token序列，保留运动和时间信息。这是最前沿的方向。

Google在这个领域走得最远。Gemini 2.5 Pro可以处理长达数小时的视频，理解情节发展、角色关系、甚至检测视频中的逻辑错误。不过说实话，现在的视频理解水平离”真正看懂”还有不小差距。

🔮 第七章：未来会怎样

我的判断是：短期内三条路线会共存，但长期看原生融合会成为主流。

为什么？因为人类的认知就是原生多模态的。我们不是先”把看到的翻译成文字”再理解的，而是视觉、听觉、语言在大脑中同时处理、深度交互。

但这并不意味着其他路线会消亡：

外挂式在开源社区和资源受限的场景中仍然很有价值
管线方案在需要精确控制的工业场景（如医疗影像、自动驾驶）中可能更合适

还有一个趋势值得关注——多模态输出。现在的模型大多只能输出文字（少数能输出图片），但未来的模型可能能同时输出文字、图片、音频、甚至视频。GPT-4o已经展示了一些音频输出能力，这个方向还有很大的想象空间。

👋 结尾

好了，今天关于多模态的三条技术路线就聊到这里。快速回顾：

外挂式：给语言模型”配翻译”，简单实用但有天花板
原生融合：从训练起就是多模态的，理解最深但成本最高
模块化管线：专业模型流水线协作，灵活但延迟高

下一期我们换个话题，聊聊所有程序员都关心的——AI编程能力大比拼。现在的AI写代码到底有多强？谁是程序员的最佳搭档？Claude Code、GPT-6、Cursor到底怎么选？

我是小敏，下期见！

AI深度解析播客 DD05 · 发布日期：2026年4月15日

📚 Knowledge Base

🔬 DD05: 多模态模型的三条技术路线

🔬 AI深度解析 DD05 — 多模态模型的三条技术路线

🎤 开场

🛤️ 第一章：三条路线概览

🔌 第二章：路线一——外挂式（Vision Encoder + LLM）

怎么做的？

代表选手

优势

劣势

🧬 第三章：路线二——原生多模态（Native Multimodal）

怎么做的？

原生融合的技术细节

优势

劣势

🏭 第四章：路线三——模块化管线（Modular Pipeline）

怎么做的？

优势

劣势

📊 第五章：三条路线实战对比

🎬 第六章：视频理解——下一个大战场

🔮 第七章：未来会怎样

👋 结尾