跳转到内容

多模态大模型阅读站

专题一句话:让 LLM 长出「眼睛」——从 CLIP 对比预训练到 LLaVA 指令微调,再到工业闭源上限的对照阅读。
候选池:仓库 research/papers-mllm.md
视频专表视频理解阅读站(VideoMME、长视频等不归本表)。

统计

维度数量
枢纽已写12
候选待写26
交叉已写(视频表)见 video-understanding

← 返回专题阅读站 · 论文全景 · 多模态


专题导读

MLLM(Multimodal Large Language Model)核心问题是:怎么把视觉信号接进 LLM,又不把 LLM 训崩。本阅读站聚焦图像 / 通用多模态主线;小时级视频、流式 Agent 见视频专题。

三条技术脉络:

  1. 对比预训练 — CLIP / ALIGN 把图文绑进同一嵌入空间
  2. 连接器范式 — Q-Former、Perceiver、Cross-Attention 等「翻译层」
  3. 指令微调 — LLaVA 式「看图对话」开源族谱

阅读路线图

阶段 0 · 对比预训练地基(入门,2 篇)

顺序论文难度读完你会
1clip初级图文对比学习;90% 下游视觉 backbone 来源
2align-2021初级大规模噪声图文对 + 对比损失工程化

阶段 1 · 连接器与少样本(中级,3 篇)

顺序论文难度读完你会
3flamingo-2022中级冻结 LLM + Perceiver resampler;少样本看图
4blip2-2023中级Q-Former 两阶段:先对齐再生成
5coca-2022中级对比 + 生成双目标统一

阶段 2 · 指令微调开源主线(中级,1 篇)

顺序论文难度读完你会
6llava中级Visual Instruction Tuning;开源 MLLM 对话范式

阶段 3 · 视觉编码器族谱(中级→高级,4 篇)

顺序论文难度读完你会
7vit初级Transformer 视觉 backbone
8mae中级自监督掩码预训练
9dino中级自蒸馏视觉特征
10sam中级分割基础模型;与 MLLM grounding 邻域

阶段 4 · 细粒度对齐与生成(进阶,2 篇)

顺序论文难度读完你会
11filip-2021高级Token 级图文细对齐
12dalle-2中级CLIP + 扩散的文本到图(生成侧对照)

已写论文一览

slug一句话
clip4 亿图文对对比预训练
align-2021噪声网页图文规模化对齐
flamingo-2022冻结 LLM 的少样本 VLM
blip2-2023Q-Former 连接器
coca-2022对比 + 生成统一
llava视觉指令微调开源标杆
vit视觉 Transformer
mae掩码自编码器
dino自蒸馏视觉表征
sam分割一切模型
filip-2021细粒度 token 对齐
dalle-2CLIP 引导扩散生成

待写候选(按子类)

完整 26 篇见 research/papers-mllm.md。以下高 ROI 首批。

评测与基准(待写 4 篇)

slug论文状态
mme-benchmark-2023MME 14 子任务跑分起点待写
mmmu-2023大学级跨学科推理待写
mllm-benchmark-survey-2024200+ benchmark 地图待写
mme-survey-2024评测方法论综述待写

工业闭源标杆(待写 3 篇)

slug论文状态
gemini-1.5-2024百万 token + 小时级视频待写
gemini-2-5-2025Gemini 2.5 技术报告待写
internvl2-2024开源逼近 GPT-4V待写

开源架构(待写 10 篇)

slug论文状态
internvl-20236B 视觉基座 + QLLaMA待写
vila-pretrain-2023交错图文预训练待写
nvila-2024VILA 效率升级版待写
cogvlm-2023Visual Expert 深融合待写
minicpm-v-2024端侧 MLLM待写
见 research 表待写

与视频专题的交叉

主题本表(MLLM)视频表
工业长视频gemini-1.5 · gemini-2-5qwen2-vl-2024
开源视频榜internvl2 · nvilainternvideo2-2024
图像评测mme · mmmuvideomme-2024

无 slug 重复:两表候选池零交集,仅阅读路线互链。


关联项目

项目角色状态
llava-nextLLaVA 主线仓库(图像 + 视频)
lmms-evalMME / MMMU / VideoMME 统一评测
pytorch训练框架
transformers-videoHF 视频 Processor / 解码后端⏳ 待写
vllm-multimodal多模态视频 serving⏳ 待写

工具与实现

图像侧训练从 llava 仓库起步;视频上限见 视频理解阅读站 的 decord → lmms-eval 评测闭环。


里程碑

里程碑目标状态
M1 枢纽齐阶段 0–2 六篇在站
M2 编码器栈vit / mae / dino / sam 可读
M3 评测篇mme + mmmu 落站
M4 工业对标gemini + internvl2 落站
M5 候选 26 清零专表全部发布