Multimodal Ecology
图、文、音、触、IMU——把更多通道塞进同一个嵌入空间。这一族不直接做机器人,但提供了关键基础设施:跨模态预训练、感知融合、Web-scale 图文数据。
先读这三篇。
ImageBind 用图像作锚点联通六模态 → OBELICS 把交错图文文档做成数据集 → AnyMAL 把任意模态注入 LLaMA。
-
1
ImageBind: One Embedding Space To Bind Them All
把图片当翻译官,六种感官(图、文、声、深度、热、动作)就能互相听懂彼此说话。
-
2
OBELICS
HuggingFace 把网上 1.41 亿个"图文穿插"的网页洗干净打包开源,让大家也能像 DeepMind 那样训出会看图读长文的模型。
-
3
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
一句话:给一个"只识字"的聪明大脑配几副翻译眼镜——看图、看视频、听声、感运动,统统先翻成"假文字"再喂进去,大脑本身一个字都不重学。 三件让人眼前一亮的事: 不动 LLM 主干:LLaMA-2-70B 全程冻结,只训前面那个小投影层(projection layer),训练成本
2019 到 2025,13 篇怎么排开。
祖师爷
经典
前沿
Multimodal Ecology 全部 13 篇。
| era | year | title | venue |
|---|---|---|---|
| 前沿 | 2025 | VLAS: VLA Model With Speech Instructions | ICLR |
| 前沿 | 2024 | MLA: Multisensory Language-Action Model | arXiv |
| 祖师爷 | 2019 | Connecting Touch and Vision via Cross-Modal Prediction | CVPR |
| 祖师爷 | 2023 | ImageBind: One Embedding Space To Bind Them All | CVPR |
| 经典 | 2022 | X-VLM: Multi-Grained Vision Language Pre-Training | ICML |
| 经典 | 2023 | AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model | EACL |
| 经典 | 2023 | AudioPaLM | arXiv |
| 经典 | 2023 | FROMAGe: Grounding LLMs to Images | ICML |
| 经典 | 2024 | OneLLM | CVPR |
| 前沿 | 2024 | Sparsh: Self-supervised Touch Representations | CoRL |
| 前沿 | 2025 | Tactile Beyond Pixels (Sparsh-X) | CoRL |
| 前沿 | 2025 | Tactile-VLA | CoRL |
| 前沿 | 2025 | TLA: Tactile-Language-Action | ICRA |