回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Multimodal Ecology · Plate Nº 64

ImageBind: One Embedding Space To Bind Them All

17 min read · 6102 字 · ⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

把图片当翻译官,六种感官(图、文、声、深度、热、动作)就能互相听懂彼此说话。

所以这一节是想说:ImageBind 用一张图就能把六种模态全串成一个共同的语义空间。


这是个什么场景

你刷到一张海滩的照片,脑子里立刻自动播放出一整个夏天:

海浪声、脚底烫沙、咸咸的海风、还有想发的那条朋友圈文案。

人类一张图就能"调"出五感,AI 不行。AI 像一群只会两两互译的翻译员,各做各的:

  • CLIP(图+文):会中英互译的人,但听不懂粤语。
  • AudioCLIP(声+文):会粤英互译的另一个人,但不会中文。
  • 想让"中文"和"粤语"对上?得再请人编一本"中粤词典"

更糟的是模态一多,词典数量就爆炸——6 种模态要做 15 本词典。而且像"热成像 + 文字"这种配对数据,现实里根本没人采集过

ImageBind 干的事就一句话:让所有模态都只跟图片对齐,剩下的两两关系会自己长出来——像所有城市都通北京,那从上海去广州中转一下就行,不用再修一条直飞航线。

所以这一节是想说:ImageBind 解决的是"模态太多、配对数据缺"——用图当桥,绕开了配对组合爆炸。


ImageBind — 场景示意:这论文要解决的现实问题
Plate Nº IImageBind — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:CLIP 这种"两两对齐" 类比:每两种语言专门做一本词典。要 6 种模态全互通,就得做 15 本词典。问题是——"热成像配音频"这种词典根本没人编,原始数据都没有。

  • 方案 B:AudioCLIP 把音频塞进 CLIP 类比:在中英词典里硬加一栏粤语。它确实能处理"声音",但每加一种模态就要重训一次,不可扩展,而且需要大量"声音+文字"配对。

  • 方案 C:MultiMAE 之类的多模态联合训练 类比:把所有翻译人员关在一个房间一起训练。听起来美好,但要求同一份样本同时具备所有模态——现实中没人能给你一段同时含图、声、深度、热成像、IMU 的视频。

  • 方案 D:监督式专家模型 类比:每种感官请一位专科医生(音频专家、深度专家……)。准是准,但互不相通,给你深度图的医生看不懂声音。

  • 核心难题:要把 N 个模态全连起来,传统思路要 O(N²) 份配对数据,而真实世界只有 O(N) 份(每个模态都有跟图配的)。

所以这一节是想说:之前要么数据不够、要么扩展性差、要么各做各的——核心瓶颈是"全模态共现的训练数据不存在"。


这篇论文的新想法

类比一下:班里同学都跟班长玩得熟,结果你会发现同学之间也自然认识了——因为大家共享了同一个朋友圈。

ImageBind 就是这招:只让每种模态去跟"图"对齐,模态之间的对齐就会自动浮现出来——作者起了个名字叫"涌现对齐"。

神奇之处在于:明明没让"热成像"和"声音"互相训练过,它俩居然也能互相检索。为什么?后面会拆开讲。

所以这一节是想说:核心创新是用图当中心枢纽,靠涌现把 O(N²) 配对压成 O(N)。


它分几步做的(方法)

整篇论文做了 4 件事:定义"图配 X"训练范式、设计编码器、用对比学习对齐、展示涌现行为。

1. 用图当总站,每种模态各自配上图

类比

想象一个机场枢纽:北京(图片)。

  • 上海(文字)有飞北京的航班
  • 广州(音频)有飞北京的航班
  • 深圳(深度)有飞北京的航班
  • 重庆(热成像)有飞北京的航班
  • 杭州(IMU 姿态)有飞北京的航班

没有直飞"上海到广州"的航班。但只要每个城市都通北京——你想从上海去广州,经北京中转就行。ImageBind 就是这个机场枢纽思路。

它在干什么

把六种模态分成两类:

  • 天然有图配对的数据:直接拿来用

    • 图 + 文:从大规模网络数据来(继承自 CLIP 用过的 LAION 那种)
    • 视频 + 音频:YouTube 视频自带(用 Audioset)
    • 图 + 深度:SUN RGB-D 数据集(带 RGBD 相机的房间扫描)
    • 图 + 热成像:LLVIP 数据集(同一场景拍可见光+红外)
    • 视频 + IMU:Ego4D(第一视角穿戴相机自带运动传感器)
  • 不需要凑齐:不需要"图同时配文+声+深度+热+IMU"的样本,每对独立训练就行。

模态(modality):信息的一种来源形式。图片是一种、文字是一种、声音是一种、深度图是一种。人有五感,AI 也在学多模态。

嵌入空间(embedding space):把任何东西(一张图、一句话、一段声音)变成一串几百到几千维的数字向量后,所有这些向量住的"空间"。语义相近的两个东西在这空间里就会挨得近。

涌现(emergent):你没专门教它,但它自己学会了。这里指模态 A 和模态 B 没直接训过,却能互相对齐。

为什么这步有用

  • 配对数据从"15 种组合"压缩到"5 种组合"——省 3 倍
  • 每对都有现成的大规模数据集,不用重新采集
  • 想加新模态(比如"气味")?只要有"气味+图"配对数据,直接接上就能用,不用动现有训练。

所以这一节是想说:把图设成中心枢纽,所有模态各自跟图配对,就能避开"全模态共现样本不存在"的死结。


2. 给每种模态配一个翻译器(编码器)

类比

想象六个语言不通的人坐一桌:

  • 每个人手里都有一台"翻译器",把自己的母语翻成统一的"世界语"。
  • 翻完之后大家说的都是世界语,自然能交流。

ImageBind 给每种模态都配了一个独立的"翻译器"(叫编码器),把原始信号变成 1024 维的向量。

编码器(encoder):把输入变成数字向量的神经网络。比如图片编码器把 224×224 像素变成一串 1024 个数字。

ViT(Vision Transformer):一种把图片切成 16×16 小块、再用注意力机制整合的图片编码器。

梅尔频谱(mel-spectrogram):把声音波形变成"二维图"——横轴时间,纵轴频率,颜色深浅是能量。这样声音就能用看图的网络处理。

它在干什么

模态 输入 编码器 备注
图 / 视频 224×224 像素 ViT-H 跟 OpenCLIP 共用,冻结不训
文字 一句话 Transformer 跟 OpenCLIP 共用,冻结不训
音频 2 秒梅尔频谱 ViT-B 把声音当二维图处理
深度 视差图(一通道) ViT-S 转成视差以保持尺度不变
热成像 单通道红外 ViT-S 当一通道图处理
IMU 6×2000 时序 1D 卷积 + Transformer 含加速度计 + 陀螺仪 XYZ

关键设计:图和文字的编码器借用 OpenCLIP 训练好的、再也不动。其他四个新模态的编码器从头开始训,目标只有一个:把自己的输出对齐到图编码器的输出。

为什么这步有用

  • 图编码器是"标准答案"——已经从 20 亿张图文配对里学到了丰富语义。其他模态只要"对齐到它",就能继承这套语义。
  • 不动 CLIP 那部分,省显存、训练快、不会把已有能力训坏。
  • 给"声音/深度/热/IMU"这种小数据集模态,找了个强壮的老师

所以这一节是想说:每模态各配一个翻译器,但只让新模态学着对齐到 CLIP 已有的"图+文"老师,相当于站在巨人肩膀上。


3. 对比学习:把对的拉近,把错的推开

类比

教小孩认动物。你拿一张狗的照片,让他从一堆词卡里挑——"狗"那张应该被拉到照片旁边,"猫"和"鸡"那些应该被推远。

ImageBind 用的就是对比学习:每个 mini-batch 里,正确的"图-音"配对要互相靠近,跟其他不相干的样本要互相远离。

对比学习(contrastive learning):训练目标是"正样本拉近,负样本推远"。这里"正"指真实配对,"负"指同一 batch 里其他无关样本。

InfoNCE 损失:对比学习常用的扣分公式,本质是"让正样本的相似度比所有负样本都高"。

温度(temperature τ):一个调节"对错差距"的旋钮,越小越严格(必须把正样本拉得贼近,错一点都不行),越大越宽松。

它在干什么

对每张图 i 和它配对的另一模态 i(比如声音),算两个向量的内积("相似度")。然后:

  • 正样本对的相似度 → 越大越好
  • 同一 batch 里其他样本和它的相似度 → 越小越好

公式翻译成人话:

在所有"图 i 和模态里候选 j"的相似度里,"正样本 j=i"那一份占的比例要尽可能接近 100%。把这件事变成一个扣分(分母里所有候选的指数和、分子是正样本的指数),扣分越小越好。

关键发现:涌现对齐

训练时只让"图-音"配对、"图-深"配对独立各练。但训练完一测试—— 音频和深度居然也对齐了:你给一段狗叫声,能在深度图里检索到"有狗的房间深度"。

为什么?类比:A 和 C 都跟 B(图)讲同一种"世界语",那 A 和 C 互相之间也能用世界语沟通——尽管它俩从没见过面。

为什么这步有用

  • 不需要"音频+深度"配对数据(根本没有),却能完成跨模态任务。
  • 这个性质来自统一的语义空间——只要每个模态都对齐到同一个图空间,它们之间就免费获得对齐。
  • 论文消融发现:温度 τ 用 0.2(深度)或 0.05(音频)固定值最好;用可学习温度反而变差——这跟 CLIP 的经验不一样。

所以这一节是想说:用最朴素的对比学习"拉近正、推开错",再借图当中介,就涌现出"我没训过的模态对"也能互相理解。


4. 玩出来的下游花活

类比

学会世界语之后,你不只能两两翻译——还能把两种语言的句子拼起来表达更复杂的意思

ImageBind 训练完只有一个对齐目标,但作者发现这个共享空间能玩出一堆不用再训练的应用:

它在干什么

  • 跨模态检索:给一段"火焰噼啪声",能从文字库里检索到"火焰在燃烧",从图片库里检索到火堆照片。
  • 嵌入空间算术:图片"水果在桌上"的向量 + 声音"鸟叫"的向量 = 检索出"鸟在水果旁"的图。向量相加居然就是语义合成
  • 音频做目标检测:把一个开源检测器(Detic)里的"文字类别向量"换成"狗叫声向量",不用重训它就能用声音定位画面里的狗。
  • 音频生成图片:把 DALLE-2(一个文生图模型)的"文字提示向量"换成"声音向量"——不用重训就能听声画图。

为什么这步有用

  • 这些功能全部不需要再训练——只是把不同模态的向量塞进已有的"用 CLIP 文字向量"的接口。
  • 证明这个共享空间不只是"两两能查",而是真的结构化、可组合的语义空间。
  • 给开发者一个新模板:以后做多模态产品,只对齐一次就能装出多种花样。

所以这一节是想说:训练只盯着一个对齐目标,但共享空间自然涌现出一堆"不用再训"的下游能力——这才是这篇真正的杀手锏。


ImageBind — 方法示意:核心 pipeline
Plate Nº IIImageBind — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你"什么决定胜负"。

数字 1:ESC 音频零样本 66.9%

  • 怎么算的:在 ESC-50 环境声音分类(50 类,比如"狗叫/雨声/钟表")上,没看过 ESC 一条数据,靠文字 prompt 直接分类。
  • 对比:AudioCLIP 用了"音频+文字"显式监督才到 68.6%;ImageBind 没用任何音频-文字配对,差距只有 1.7%。
  • 生活语言:相当于一个从没读过粤语词典的人,靠会中文 + 看过粤语电影,居然能听懂粤语笑话——还跟专门学过粤语的人差不多。

数字 2:Clotho 检索 R@1 = 6.0%

  • 怎么算的:给一段声音描述("狗在水边叫"),从 1045 段音频里找出对的,看是不是排第一名。
  • 对比:AVFIC(用了"音频+文字"自动挖配对训)是 3.0%——ImageBind 是它的 2 倍
  • 生活语言:没专门训过的反而打赢专门训过的。这是"涌现对齐"最直接的证据。

数字 3:换强壮图编码器 → 音频涨 4%、深度涨 7%

  • 怎么算的:图编码器从 ViT-B 升到 ViT-H(模型变大 5 倍),别的模态编码器保持不变
  • 对比:ESC 从 56.7→60.3、SUN-D 从 26.7→29.5。
  • 生活语言:图当老师,老师越强、学生(其他模态)越好——哪怕老师本身根本没看过声音和深度。这说明"图编码器质量"是这套体系的命根。

数字 4:少样本音频分类 → 4-shot 时打赢监督模型

  • 怎么算的:每类只给 1-8 个样本训线性分类器,对比 AudioMAE(专门音频自监督模型)。
  • 对比:1-shot 到 4-shot 区间,ImageBind 的零样本起点 + 少样本曲线全程领先专门为音频训过的模型。
  • 生活语言:先有"通用基础"再适配,比"从头专精"还好用——这跟 LLM 时代"大模型微调赢小模型从头训"一个道理。

数字 5:温度 τ → 学的反而比固定的差 6 个点

  • 怎么算的:ESC 上对比可学习温度(CLIP 用法)vs 固定温度。
  • 对比:固定 0.05 是 56.7,可学习反而 54.8。
  • 生活语言:CLIP 经验不能照搬。每种模态有自己合适的"严格度"——音频要严(τ=0.05),深度要松(τ=0.2)。这是工程上一个易踩的坑。

数字 6:spatially aligned 裁剪 → 深度任务掉 10 分

  • 怎么算的:训练"图+深度"对时,是否对图和深度做同一位置的随机裁剪。
  • 对比:对齐裁剪 26.7 vs 不对齐 16.0。
  • 生活语言:CLIP 那种"图和图随便裁"的自监督技巧不适用这里——因为图深要严格对应同一空间。这告诉我们对齐策略要看模态语义。

所以这一节是想说:决定胜负的不是模型大小或工程花招,而是"图编码器够强 + 模态对齐策略到位"。


你应该懂的几个新词

多模态(multimodal):同时处理两种以上输入。ImageBind 一次处理 6 种。

嵌入空间(embedding space):把任何东西变成数字向量住的高维空间。语义相近的住得近。

共享嵌入空间(joint / shared embedding):多种模态住同一个空间。CLIP 是 2 模态共享,ImageBind 是 6 模态共享。

涌现(emergent):没专门教过却自动出现的能力。这里指"模态 A、B 没配对训过却能互查"。

对比学习(contrastive learning):训练目标是"正样本拉近,负样本推开"。InfoNCE 是它的标配损失公式。

零样本(zero-shot):模型没见过这个任务任何训练样本,只靠通用知识直接做。CLIP 让这个词出圈,ImageBind 把它扩展到 6 种模态。

涌现零样本(emergent zero-shot):作者新造的词。区别于普通零样本——普通的是"有过文字监督",涌现的是"连文字监督都没有,纯靠图当桥"。

IMU(Inertial Measurement Unit):手机/手表/AR 眼镜里都有的运动传感器,含加速度计 + 陀螺仪。能感知"你在走路/跑步/跳"。

梅尔频谱(mel-spectrogram):声音的二维"图",横时间纵频率。声音处理网络的标准输入格式。

视差图 / 深度图:每个像素记录"这一点离相机多远"。RGBD 相机(如 Kinect)拍的就是这种图。

CLIP / OpenCLIP:图+文对齐的祖宗模型,训练于几亿图文对。ImageBind 整个体系建在它的基础上。

温度 τ:对比学习里调节"严格度"的小数。越小越苛刻,越大越宽松。

所以这一节是想说:这些词以后看任何多模态论文都会反复出现,把它们和生活类比挂钩。


它有什么搞不定的

ImageBind 不是万能,作者老实交代了几条短板:

  • 不是 SOTA 专家:和"为某任务专门训的"模型比,绝对分数仍然落后(IN1K 77.7% vs SOTA 91.0%)。它强在"通用 + 零样本",不在单项冠军。
  • 数据集偏狭:热成像数据全是户外街景,深度数据全是室内房间——所以模型对"户外深度"或"室内热成像"反而抓瞎。
  • 下游任务还得另调:要做检测、分割这种结构化任务,还得加 task-specific 头,光靠通用嵌入不够。
  • 承袭 CLIP 偏见:CLIP 训练数据里的性别、地域、文化偏见会原样传到所有 6 种模态,影响下游公平性。
  • 研究原型:作者明确说不能直接商用,需要更多审慎研究再落地。

所以这一节是想说:ImageBind 是"广而不深"的开拓性工作,要做产品还得在它基础上专精。


它和别的论文是什么关系

  • 直接前传:CLIP(2021) — ImageBind 整套思路是 CLIP 的"模态扩展版"。CLIP 解决"图+文"对齐,ImageBind 把它升级成 6 模态。先看 CLIP 再看 ImageBind 才能体会创新点
  • 同期对手:AudioCLIP — 把音频塞进 CLIP,但需要"音频+文字"显式监督。ImageBind 证明不需要这种显式监督,靠图当桥就够了。
  • 和 LLaVA 的关系:LLaVA 是"VLM 祖宗模板"(眼睛+翻译器+嘴巴),处理图+文聊天。ImageBind 是"多模态嵌入祖宗模板",做底层共享空间。两者层次不同——LLaVA 在做"理解+生成"应用层,ImageBind 在做"统一表示"基础层。后续工作(如 Macaw-LLM、PandaGPT)就把 ImageBind 当 LLaVA 的"多感官眼睛"用。
  • 和具身 AI 的连接:embodied AI 的传感器组合(RGB+深度+IMU+触觉)天然多模态,ImageBind 给了一种统一处理框架——把所有传感器都对齐到图空间。这条路通向后来 RDT、Octo 这些机器人基础模型。
  • 和 milliMap / WiFi 感知系列的关系:这些 RF 工作做单模态深度学习。ImageBind 暗示一条新路:只要有"RF + 图"配对(比如 RF-Pose 那种师生范式),就能把 WiFi、毫米波雷达接进来共享空间。

所以这一节是想说:ImageBind 是"多模态对齐"这个家族的奠基工作,往上接 CLIP,往下被具身 AI 和感知系列继承。


我建议这样读这篇

  1. 看摘要 + Figure 1(5 分钟):记住三件事——6 种模态、图当桥、emergent。
  2. 跳到 §3.2 "Binding modalities with images"(10 分钟):搞清楚"为什么只配图就够"。这是创新核心。
  3. 细读公式 (1) 一次(5 分钟):InfoNCE 没什么神秘,本质就是"分类问题"——在 batch 里挑出正样本。
  4. 看 Table 2 的 "Emergent vs Text Paired" 对比(10 分钟):体会 emergent zero-shot 不输 specialist 的震撼。
  5. 跳读 §4.4 "Analysis and Applications"(10 分钟):这是文章最有趣的部分——音频检索、声音生图、向量加法。做产品的灵感库
  6. 快速扫消融 §5.2(5 分钟):不要跳过 Table 5——温度、投影头、对齐裁剪,每个都是工程踩坑提醒。

读完这 6 步约 45 分钟,能在饭桌上跟人讲清"ImageBind 用图当桥串起六种感官"这个故事。

所以这一节是想说:精华在 §3.2 + §4.4 + Table 2/5,公式可略读,重点抓"涌现"这个画面。


一些好奇心问答

Q1:为什么是图,不是文字当中心?

文字也行,但图有两大优势:(1) 图天然跟其他感官对齐——一段视频自带音频、深度相机自带图+深度、Ego4D 自带图+IMU。(2) 文字描述太抽象,"狗叫声"很多种,但"狗叫的视频"包含具体的画面、姿态、环境——信息密度大

Q2:训练完,我能给它输入"任意 5 个模态组合"吗?

技术上可以,但论文只验证了"两两对齐"和"两两相加"。三模态及以上的组合(图+音频+深度同时输入)效果如何,作者没系统测——这是后续工作的空间。

Q3:复现要多大算力?

完整版用了 ViT-Huge 图编码器 + 32 张 V100/A100。但最大开销是预训练好的 CLIP,作者直接用 OpenCLIP 现成的,所以新增训练只是"4 个小编码器"——成本远比看上去低。学术机构能复现。

Q4:能不能加"气味"或"味觉"模态?

理论上可以,只要你能搞到"气味传感器读数 + 同时刻的图片"配对数据。难点不在算法,在数据采集。这条路是 ImageBind 给后来研究者的"开放扩展接口"。

Q5:为什么涌现对齐能成立?

直观解释:图空间已经被 CLIP 训得语义结构良好("狗"附近是"猫""狼""动物")。新模态对齐到图空间时,被迫继承这套结构——所以新模态彼此之间也保留了相同结构。数学上还没有完全严格的证明,但实验广泛验证。

Q6:跟 LLaVA 比,谁更基础?

ImageBind 更底层。LLaVA 是"应用层"——把图当输入给 LLM 聊天。ImageBind 是"表示层"——做了一个所有模态都能进去的统一向量空间。理想路径是 ImageBind 当 LLaVA 的多模态前端,让 LLaVA 不只看图还能听声、感深度——这就是 PandaGPT 等后续工作。

Q7:为啥不是 CLIP4Audio、CLIP4Depth 一个个加?

那种做法每加一种模态都要重训整个 CLIP,扩展性差。ImageBind 的设计是"新模态自己学,CLIP 不动"——加一个模态只需训一个小编码器,O(1) 成本

Q8:实操能用上的最小例子是什么?

最简单的:用 Hugging Face imagebind_huge 权重,给一段 wav 文件提取音频向量、给一张 jpg 提取图向量,算余弦相似度——你就有了一个音画检索器。20 行代码起步。

所以这一节是想说:实操问题作者大多想到了,门槛远比想象低,扩展空间也大。


如果你想再深入

按"前传 → 同期 → 续作 → 衍生"四类排序:

  1. 前传:CLIP(2021) — 必读。理解 ImageBind 必须先理解 CLIP 的 InfoNCE + 图文对齐。
  2. 前传:OpenCLIP / LAION-5B — ImageBind 用的就是这套。看完知道"图+文"配对数据怎么来的。
  3. 同期:AudioCLIP(2021) — 直接对手。读完会意识到"显式监督扩展" vs "图当桥涌现"两条路的差别。
  4. 续作:PandaGPT / Macaw-LLM(2023) — 把 ImageBind 当多模态前端塞给 LLM。是 ImageBind + LLaVA 的合体。
  5. 续作:LanguageBind(2023) — ImageBind 的逆向版本:用文字当中心。两篇对照看,能体会"中心模态选谁"的取舍。
  6. 衍生方向:具身 AI 中的多传感器对齐 — RDT、Octo 这些机器人基础模型,本质都在解"多模态共享表示"问题,跟 ImageBind 一脉相承。

所以这一节是想说:把 CLIP + ImageBind + LanguageBind 这三篇连起来读,就能看清 2021-2023 年多模态对齐的完整脉络。


最后一个画面

你录了 2 秒火堆噼啪的声音,扔进 ImageBind。 它给你检索出一句话——"A fire crackles while a pan of food is frying"。 然后你把这段声音直接喂给 DALLE-2,不改一行代码——它画出了一张"篝火上炒锅冒烟"的图。

这一刻,AI 第一次真的像人一样——不是听了声音再翻译成字再画图,而是听了声音直接想到画面

所以最后一节是想说:ImageBind 不只是技术指标好看,而是把"感官联想"这件本来只有人类会的事,变成了一个可以装进 50 行代码的能力。

引用本笔记 / Cite this note
BibTeX
@online{eai_imagebind_2026,
  title       = {(readable note) ImageBind: One Embedding Space To Bind Them All},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/imagebind/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim