Topic VII · 多模态交互与数据生态

Multimodal Ecology

13papers

2founder

5classic

6frontier

图、文、音、触、IMU——把更多通道塞进同一个嵌入空间。这一族不直接做机器人，但提供了关键基础设施：跨模态预训练、感知融合、Web-scale 图文数据。

Primer · 入门 3 篇

先读这三篇。

ImageBind 用图像作锚点联通六模态 → OBELICS 把交错图文文档做成数据集 → AnyMAL 把任意模态注入 LLaMA。

1
ImageBind: One Embedding Space To Bind Them All 2023 · CVPR · ⭐⭐⭐
把图片当翻译官，六种感官（图、文、声、深度、热、动作）就能互相听懂彼此说话。
2
OBELICS 2023 · NeurIPS · ⭐⭐⭐
HuggingFace 把网上 1.41 亿个"图文穿插"的网页洗干净打包开源，让大家也能像 DeepMind 那样训出会看图读长文的模型。
3
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model 2023 · EACL · ⭐⭐⭐
一句话：给一个"只识字"的聪明大脑配几副翻译眼镜——看图、看视频、听声、感运动，统统先翻成"假文字"再喂进去，大脑本身一个字都不重学。三件让人眼前一亮的事：不动 LLM 主干：LLaMA-2-70B 全程冻结，只训前面那个小投影层（projection layer），训练成本

Distribution · 年份分布

祖师爷经典前沿

All papers · 按 era 排

era	year	title	venue
前沿	2025	VLAS: VLA Model With Speech Instructions	ICLR
前沿	2024	MLA: Multisensory Language-Action Model	arXiv
祖师爷	2019	Connecting Touch and Vision via Cross-Modal Prediction	CVPR
祖师爷	2023	ImageBind: One Embedding Space To Bind Them All	CVPR
经典	2022	X-VLM: Multi-Grained Vision Language Pre-Training	ICML
经典	2023	AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model	EACL
经典	2023	AudioPaLM	arXiv
经典	2023	FROMAGe: Grounding LLMs to Images	ICML
经典	2024	OneLLM	CVPR
前沿	2024	Sparsh: Self-supervised Touch Representations	CoRL
前沿	2025	Tactile Beyond Pixels (Sparsh-X)	CoRL
前沿	2025	Tactile-VLA	CoRL
前沿	2025	TLA: Tactile-Language-Action	ICRA