回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Topic VII · 多模态交互与数据生态

Multimodal Ecology

Multimodal Ecology — 多模态交互与数据生态
13papers
2founder
5classic
6frontier

图、文、音、触、IMU——把更多通道塞进同一个嵌入空间。这一族不直接做机器人,但提供了关键基础设施:跨模态预训练、感知融合、Web-scale 图文数据。


Primer · 入门 3 篇

先读这三篇

ImageBind 用图像作锚点联通六模态 → OBELICS 把交错图文文档做成数据集 → AnyMAL 把任意模态注入 LLaMA。

  1. 1
    ImageBind: One Embedding Space To Bind Them All 2023 · CVPR · ⭐⭐⭐

    把图片当翻译官,六种感官(图、文、声、深度、热、动作)就能互相听懂彼此说话。

  2. 2
    OBELICS 2023 · NeurIPS · ⭐⭐⭐

    HuggingFace 把网上 1.41 亿个"图文穿插"的网页洗干净打包开源,让大家也能像 DeepMind 那样训出会看图读长文的模型。

  3. 3
    AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model 2023 · EACL · ⭐⭐⭐

    一句话:给一个"只识字"的聪明大脑配几副翻译眼镜——看图、看视频、听声、感运动,统统先翻成"假文字"再喂进去,大脑本身一个字都不重学。 三件让人眼前一亮的事: 不动 LLM 主干:LLaMA-2-70B 全程冻结,只训前面那个小投影层(projection layer),训练成本


Distribution · 年份分布

2019 到 2025,13 篇怎么排开。

祖师爷 经典 前沿
All papers · 按 era 排

Multimodal Ecology 全部 13 篇。

erayeartitlevenue
前沿 2025 VLAS: VLA Model With Speech Instructions ICLR
前沿 2024 MLA: Multisensory Language-Action Model arXiv
祖师爷 2019 Connecting Touch and Vision via Cross-Modal Prediction CVPR
祖师爷 2023 ImageBind: One Embedding Space To Bind Them All CVPR
经典 2022 X-VLM: Multi-Grained Vision Language Pre-Training ICML
经典 2023 AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model EACL
经典 2023 AudioPaLM arXiv
经典 2023 FROMAGe: Grounding LLMs to Images ICML
经典 2024 OneLLM CVPR
前沿 2024 Sparsh: Self-supervised Touch Representations CoRL
前沿 2025 Tactile Beyond Pixels (Sparsh-X) CoRL
前沿 2025 Tactile-VLA CoRL
前沿 2025 TLA: Tactile-Language-Action ICRA