VLM Foundation
把图片和文字塞进同一个坐标系——这是具身智能的视觉地基。先有 CLIP 把'狗'这个词和狗的样子绑在一起,后面所有'机器人看着图听人说话'的模型,骨子里都是这套对齐。
先读这三篇。
CLIP 看懂 → BLIP-2 桥接 LLM → LLaVA 把视觉变成对话的一部分。
-
1
Learning Transferable Visual Models From Natural Language Supervision
教 AI 同时认图和认字,把 4 亿对网上图文塞进同一张坐标。之后你说"一只猫",它就能从新图里挑出猫——不用为新任务再训一遍。
-
2
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
BLIP-2 不动两个大模型——一个负责看图、一个负责说话——只在中间训练一个小"翻译",就让 AI 学会了看图说话。
-
3
Improved Baselines with Visual Instruction Tuning
给会聊天的 AI 配一副"看图眼镜"。把眼镜从一片镜片换成两片,再多给它看点带字的图片,看图答题就刷榜了。
2021 到 2024,22 篇怎么排开。
祖师爷
经典
前沿