回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Multimodal Ecology · Plate Nº 5

VLAS: VLA Model With Speech Instructions

16 min read · 5570 字 · ⭐⭐⭐ · auto 摘要

这是机器辅助生成的客观摘要笔记。教学版精读笔记由用户按节奏触发后单独成稿。

一句话讲什么(TL;DR)

机器人直接听原声干活:光凭你的嗓音就认出"是你在说话",再去拿你那只专属的杯子。

所以这一节是想说:不是"先转文字再干活",而是"耳朵直接通到大脑"。


这是个什么场景

早上厨房岛台上摆了三只杯子:绿的、红的、白的。

  • 爸爸刚进门:"帮我拿我的杯子。"
  • 半分钟后妈妈也喊:"帮我拿我的杯子。"
  • 同样一句话,机器人到底拿哪只?

光听字面意思根本判断不了——"我的"这两个字本身不指向任何一只具体的杯子,就像快递单上只写"送到我家",少了地址。

但你自己根本不会卡住:你一听声音就知道"哦这是爸爸",脑子里立刻调出"爸爸 = 绿杯"那条记忆,伸手就拿对了。机器人也能这样吗?这就是这篇论文想解的事。

VLA(Vision-Language-Action,视觉-语言-动作模型):一种"看着画面 + 听着指令 + 直接输出机械臂动作"的一体化模型。可以想成一个会看监控、会听对讲、会动机械手的工人。

论文叫 VLAS,比 VLA 多出来那个 S 就是 Speech(语音)——让机器人直接吃原始的声波,而不是先经过一个"速记员"把声音转成文字再读。

Figure 1:左边是普通 VLA,根本分不清"我的杯子"是哪只;右边是 VLAS,靠声纹认出说话人,再去拿对应的杯子
Plate Nº IFigure 1:左边是普通 VLA,根本分不清"我的杯子"是哪只;右边是 VLAS,靠声纹认出说话人,再去拿对应的杯子

所以这一节是想说:家庭机器人面对"一群人 + 私人物品"时,必须能听出"是谁",光听"说什么"不够。


VLAS — 场景示意:这论文要解决的现实问题
Plate Nº IIVLAS — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

之前的机器人模型(VLA)只能"看图 + 读文字"。要支持语音,得在前面挂一个外挂程序把声音转成文字。

ASR(Automatic Speech Recognition,自动语音识别):把语音变成文字稿的程序,相当于会议速记员。

把 ASR 挂到 VLA 前面就成了"语音 → 文字 → 动作"两段流水线。这种做法有四个毛病:

  • 传话游戏:第一段听错一个字,后面整句话就跑偏了。比如你说"绿杯",速记员写成"率杯",机器人就懵了。
  • 嗓音信息全丢了:转成文字稿之后,"是爸爸说的还是妈妈说的"这条信息就永远抹掉了。语调、情绪、口音也一并消失。
  • 变胖变慢:原本一个模型,现在要两个串联,又费内存又慢。
  • 无法处理"我的"这种话:因为光看文字"拿我的杯子",机器人没办法知道"我"是谁——文字根本没保存这个信息。

所以这一节是想说:把语音先转文字这条路,从原理上就丢掉了"是谁在说"这条关键信息。


这篇论文的新想法

不要速记员——让机器人直接听原始声波,再加一个"凭嗓音查档案"的小本本,就能知道"我的"指什么。

所以这一节是想说:把"听声音"和"查个人档案"做成机器人的一部分,而不是外挂。


它分几步做的(方法)

整个系统拼起来像一台四部件的厨房机器:耳朵(听声音)、眼睛(看画面)、记事本(查档案)、手(出动作)。下面一节一节拆给你看。

整体架构:图像走一条线,语音走一条线,声纹查到的档案走第三条线,最后全部汇入一个大模型生成动作
Plate Nº III整体架构:图像走一条线,语音走一条线,声纹查到的档案走第三条线,最后全部汇入一个大模型生成动作

1. 站在前人肩膀上:用一个已经会"看图说话"的现成模型当底子

类比:你雇厨房学徒,发现他已经会买菜会切菜了——那你只要再教他"听点菜单"和"颠勺"两件事,省了头三年功夫。

它在干什么:作者直接拿了一个开源的、已经会看图回答问题的现成模型当起点(叫 LLaVA),然后只在它身上加耳朵、加手。

LLM(Large Language Model,大语言模型):一个会接话的大型程序,给它前半句它能猜后半句。可以想成一个学了无数文章的高中文科生,给他写半句他能写下半句。

预训练 / 微调:先在一大堆通用资料上学一遍叫"预训练"(像高中三年学语数外),再在某个具体任务上短期补课叫"微调"(像高考前突击专题)。

为什么这样设计:从零教一个程序"看图 + 说话"要烧上百万美元的电费。直接用别人训好的模型,省到几张专业显卡几天就能做完。

所以这一节是想说:能用现成的就别重做,本论文不发明轮子,只新加耳朵和手。


2. 把声音翻译成"大模型的语言"

类比:图像、声音、文字,对大模型来说像三个说不同方言的客人——画面像广东话、声波像四川话、文字才是普通话。要让它们一起开会,得先派三个翻译把方言全译成普通话。

等等,先慢一拍——大模型为什么只懂"数字向量"? 因为大模型内部所有运算都是矩阵乘法,吃进去的必须是一串数字。文字也是先被切碎成"词"再查表变成数字向量才能进模型。所以图像、声音都要走同一道程序:变成一串"它认识的数字"。

它在干什么

  • 先把声波画成一张频谱图(像声音的 X 光片)。

    频谱图:横轴是时间、纵轴是音的高低、颜色深浅代表强弱。和物理课画的"声音波形图"是亲戚。

  • 把频谱图扔给一个开源的语音处理程序(叫 Whisper),它会输出一串数字向量,每个向量代表一小段声音的"含义"。

    向量:高中学过——一串有方向有长度的数字。这里就是一长串数字,描述这段声音的特征。 两个向量越像,它们的夹角越小——这个直觉一会儿要用到。

  • 这些向量一开始是 1500 个,太多了塞进大模型会很慢。论文用了一个简单办法:每 5 个相邻向量合并成 1 个,变成 300 个。
  • 最后用一个小翻译网络(叫 MLP)把这 300 个声音向量翻译成大模型能直接读的"词向量"。

    MLP(多层感知机):一个由几层简单运算堆成的小程序,专门做"把一种数字格式变成另一种数字格式"的活。可以想成函数 y = f(x),只是 x 和 y 都是一串数字。

为什么这样设计

  • 用现成的 Whisper:它已经在几十万小时的语音上学过了,省事。
  • 把 1500 压成 300:少处理 5 倍的东西,速度直接快 5 倍。但太狠(比如压到 75 个)会把声音的意思也压没。论文实测 5 倍是甜蜜点

所以这一节是想说:声音被翻译成大模型能读的"词",三种感官(图、声、字)从此能在同一张桌子上对话。


3. 三阶段分步教:先听写,再答题,最后动手

训练分三阶段示意图
Plate Nº IV训练分三阶段示意图

类比:教小孩做菜不能第一天就让他抡菜刀。先听写菜名(把厨师念的菜名写下来),再听菜名答步骤("宫保鸡丁怎么做?"),最后才听指令真下厨。每一关都把上一关学的本事拿来用。

它在干什么:把大目标"听话干活"拆成三段课。

  • 第一阶段:听写

    • 任务:给它一段语音,让它输出对应的文字。
    • 目的:让"声音的翻译网络"先和大模型对上暗号。
    • 这阶段只动那一个翻译小网络,其他全部冻住(不让动)。

      冻住:训练时把某些部分锁死,不让它的内部数字被修改。可以想成考试前给笔记本上锁,不允许涂改。

  • 第二阶段:答题

    • 任务:给它一张图 + 一段问语音,让它说出答案。
    • 目的:把"听"和"看"打通,让它能听口头题答题。
    • 数据混合三种:图 + 文字问答、图 + 语音问答、纯听写。
  • 第三阶段:动手

    • 任务:给它两路相机画面 + 一段语音指令,让它输出机械臂的动作
    • 训练时一半样本用语音、一半用文字,两种都不偏废。

Loss(损失,扣分):模型每次猜测后,把"猜的"和"正确答案"对比,差得多就扣分多,差得少就扣分少。整个学习过程就是想办法让总扣分越来越小。可以想成:模型在反复刷题,每错一道扣分,目标是把扣分降到最低。

梯度下降:模型调整自己的方法。把"扣分"想成一座山的高度,梯度下降就是蒙着眼睛下山——每一步都摸出最陡的下坡方向,往下迈一小步,不停重复,最终到山谷底(扣分最少)。

为什么这样设计:直接跳到第三阶段会失败——因为机器人动作的训练数据相对少,不够把"听语音"这件大事从零学会。先用大量便宜的语音数据把"耳朵"练好,再用少量动作数据点拨"手",是常见的省力办法。

所以这一节是想说:能力不能跳着教,要先听写、再答题、最后动手,每阶段建立在上一阶段之上。


4. 凭嗓音查档案:Voice RAG

类比:你进公司大门时,门禁先扫脸,扫到"这是李四",然后从档案柜里抽出他的卡片"李四 → 工程部 → 喜欢绿杯",把这张卡片塞进会议资料里。开会的时候你随手翻到这张卡片,就知道"李四的杯子是绿的"。

声纹:每个人说话时声波的频率分布有自己的特点,独一无二,像声音版的指纹。

RAG(Retrieval-Augmented Generation,检索增强生成):回答前先去外部资料库查相关资料,再连着资料一起回答。可以想成开卷考试——遇到题先翻书,再答。

普通的 RAG 用文字当查询钥匙。VLAS 用声纹当钥匙——

它在干什么

  • 一段语音进来,先用一个现成的"声纹识别"程序提取声纹。
  • 用声纹去一个小档案库查:"这是李四,他的杯子是绿的,他爱把东西放抽屉。"
  • 把查到的这段文字背景和原始语音、原始图像一起喂给大模型。
  • 大模型综合这三路信息,输出动作。

关键公式翻译成人话

最终送进大模型的输入 = [声音的翻译] 拼上 [声纹查到的档案文字的翻译] 拼上 [图像的翻译]

三段东西头尾相接,组成一长串"词"。

为什么这样设计

  • 用文字而不是数字向量当档案:文字方便人工编辑。新加一个用户时手写一行"王五:红杯,怕烫"就行。
  • 用现成的声纹识别程序:这技术早就成熟,银行声纹支付都用了,没必要重做。
  • 新用户来了不用重训模型——只要档案库里加一行就行。

它有多关键:实验里关掉 RAG 这一块,准确率从 86% 直接掉到 16%。这说明 RAG 不是锦上添花,是这套系统的命根子。

所以这一节是想说:声纹是钥匙,档案是开卷资料,"我的"问题靠这套机制解决。


5. 让大模型把"动作"也当字写

类比:大模型本来只会写字。现在要让它"写动作"。办法是——把动作切成 256 格,每格借用大模型词表里最冷门的一个字当代号。模型一吐这个字,机器人就照那一格的动作执行。

它在干什么

  • 机器人每一步动作可以用 7 个数字描述:
    • 末端执行器(夹爪所在位置)的 x、y、z 三个坐标
    • 三个旋转角度(绕 x、y、z 轴各转多少度)
    • 夹爪开合(0=张开、1=闭合)
  • 每个数字离散成 0–255 共 256 格。
  • 大模型词表里有上万个字,挑出 256 个几乎从不出现的冷门字当动作代号。
  • 模型一次吐 7 个这种字,机器人就照着做一步。

多步预测的小技巧:训练时把连续 5 步动作拼成一个标签(35 个字),让大模型一次预测 5 步动作,机器人连续执行。这让运行速度从每秒 1.17 步涨到每秒 2.5 步,还更稳——因为环境短期内变化不大,提前规划反而准。

所以这一节是想说:动作被改装成"冷门字",整个大模型不动,只是新增了一些动作题来教它。


语音数据怎么造的:把图文问答和文字指令喂给一个文字转语音程序,配上 1152 种不同声音,造出几十万条语音样本
Plate Nº V语音数据怎么造的:把图文问答和文字指令喂给一个文字转语音程序,配上 1152 种不同声音,造出几十万条语音样本
用户偏好任务示例:同一句"拿我的杯子",对不同说话人执行不同动作
Plate Nº VI用户偏好任务示例:同一句"拿我的杯子",对不同说话人执行不同动作
真机演示:UR5 机械臂根据嗓音识别去拿对应主人的杯子
Plate Nº VII真机演示:UR5 机械臂根据嗓音识别去拿对应主人的杯子

VLAS — 方法示意:核心 pipeline
Plate Nº VIIIVLAS — 方法示意:核心 pipeline

关键数字(What works)

下面 6 个数字是这篇论文最关键的证据。

数字 1:长任务得分 3.70 vs 3.13

  • 设置:把 5 个连续小任务串成长任务(满分 5 分),用 39 个训练时没出现过的新嗓音测试。
  • VLAS(直接听语音)= 3.70 分
  • VLA + ASR 速记员 = 3.13 分
  • 生活语言:每跑 5 个任务,VLAS 多完成 1.5 个左右子任务。家里串联做饭"切菜+下锅+装盘"时,VLAS 出错前能多干一截。

数字 2:3.74 vs 3.80(几乎打平)

  • 设置:同样的长任务,但喂文字指令(不走语音)。看加语音通道是否拖累原文字能力。
  • VLAS = 3.74 分;纯文字 VLA = 3.80 分
  • 生活语言:差 0.06 分肉眼看不出来。给机器人加耳朵没让它"嘴"变笨——这点很关键,否则用户会觉得"还不如老的"。

数字 3:定制化任务 86.5% vs 19.2%

  • 设置:作者新建的"我的杯子"类任务,5 个子任务。
  • VLAS = 86.5%;纯文字 VLA = 19.2%(差不多就是 5 选 1 瞎猜)
  • 生活语言:VLAS 是 4.5 倍。这种"我的""我喜欢的"指令,没声纹根本玩不了。

数字 4:去掉 RAG 直接崩盘

  • VLAS(带 RAG)= 86.5%
  • VLAS−RAG(关掉档案)= 16.0%比纯 VLA 还差!
  • 生活语言:模型在训练时已经习惯"声音 + 档案"配套出现,突然抽掉档案它就懵了。这反过来证明档案查询深度融入了模型的思考,不是可以随手拆掉的外挂。

数字 5:副业语音识别词错率 2.79%

  • 设置:在标准英文有声书数据集上测纯听写能力。

    词错率 WER:每 100 个词错几个。越低越好。

  • VLAS = 2.79% vs 专业语音识别程序 Whisper = 2.7%
  • 生活语言:差 0.09 个百分点(每 100 词多错 0.09 个),可视为打平。一个机器人模型,附带把语音识别也做到了和专业产品一样的水平

数字 6:真人 vs 合成语音 86.5% → 78.6%

  • 设置:找 10 个真人录"和合成语音内容相同"的话,重测定制化任务。
  • 生活语言:掉了 7.9 个百分点。说明模型在合成语音上略过拟合(学得太死)。家里有口音重的爷爷、感冒的妈妈、哭闹的小孩,体验会比论文数字再低一档。

所以这一节是想说:核心卖点(定制化)是 4 倍跨越,副作用(拖累原能力)几乎没有,但合成→真人有缺口,工程上还得补。


你应该懂的几个新词

  • VLA(Vision-Language-Action,视觉-语言-动作模型):会看图、会听话、直接出动作的一体机器人模型。
  • VLAS:本论文,VLA 多了一个 S(语音)。
  • ASR(Automatic Speech Recognition,自动语音识别):把语音转文字的程序,会议速记员。
  • 声纹(Voiceprint):每个人说话的频谱有独特图案,像声音版指纹。
  • RAG(Retrieval-Augmented Generation,检索增强生成):回答前先翻资料库再答,相当于开卷考试。
  • LLM(Large Language Model,大语言模型):能接下半句的大型程序,相当于读过无数文章的高中文科生。
  • 预训练 / 微调:先广撒网学通识、再针对一个任务突击补课。
  • MLP:一种简单结构的小程序,作用是"把一种数字格式翻译成另一种数字格式"。
  • 频谱图(Spectrogram):声波画成的彩色图像,横轴时间、纵轴频率、颜色代表强弱。声音的 X 光片。
  • 离散化:把一个能取无限值的数字(比如 0.0~1.0 的任意小数)切成若干格,只能取 0/1/2/.../255 这种整数。像把考试成绩从分数变成 ABCD 四档。
  • 行为克隆(Behavior Cloning):让模型抄录专家做过的动作,像学徒抄师傅每一步。
  • Loss(扣分):模型答错的总分。学习就是想办法把这个分降到最低。
  • 梯度下降:调参方法。蒙着眼下山,每步往最陡下坡方向迈一小步。

所以这一节是想说:上面这十几个词在论文里反复出现,懂了它们就能读 80% 的内容。


它有什么搞不定的

  • 真人语音掉点:训练用的是合成语音(一个程序读出来的),真人录音掉了 8 个百分点。家里有口音、感冒、小孩哭闹,性能会再降。
  • 没记忆:每一步动作都是孤立判断的。复杂多步任务里第二步开始时已经忘了第一步干了啥。论文承认这是它在长任务上输给另一篇带"记忆"的论文(RoboFlamingo)的原因。
  • 新用户冷启动:买回家第一天机器人不知道谁是谁。论文没说怎么建档案库——是让用户每个人录一段音 + 手填偏好吗?没交代。
  • 只在仿真 + 单机械臂上验证:真机演示只有 UR5 一种机械臂的成功案例,没给定量成功率。

所以这一节是想说:方法很漂亮,但要真做产品还得补真人数据、加记忆模块、想清楚"新用户怎么入库"。


它和别的几篇是什么关系

可以画一棵家谱:

  • OpenVLA / RT-2:VLAS 的"父辈"。它们定义了"看图听文字出动作"这条路线。VLAS 在它们基础上把"听文字"扩成"听声音 + 听声纹"。
  • RoboFlamingo:VLAS 的"同辈强者"。它在长任务上比 VLAS 强(4.09 vs 3.74),关键是它带"短期记忆"。作者明说"我们俩的优势可以叠加"。
  • MUTEX:VLAS 的"前辈尝试者"。也支持多种输入(含语音),但用了较老的视觉模型,没充分发挥大模型能力。VLAS 算是用更强的底子把这条路重做了一遍。
  • PaLM-E / SayCan:路线不同。它们是"大脑指挥固定的几只手"(高层规划 + 预设技能);VLAS 是"一个人既思考又直接动手"(端到端动作生成)。

集合关系:所有"VLM 出动作"的论文 ⊃ "支持多模态指令"的子集 ⊃ "支持原生语音 + 声纹"的子集 = {VLAS}。

所以这一节是想说:VLAS 是在 VLA 这条路上往"原生语音 + 个性化"方向走得最远的一篇。


我建议这样读这篇

  1. 先看摘要 + Figure 1(10 分钟)。Figure 1 一图胜千言,直接看出 VLAS 比 VLA 强在哪。
  2. 跳到 Figure 2 看整体架构(5 分钟)。脑子里建一张图:"声音→Whisper→翻译网络;图像→ViT→翻译网络;声纹→查档案→文字翻译;三路合一进 LLM 出动作。"别着急看公式
  3. 读方法节 Section 3.1(30 分钟)。每个组件配着 Figure 2 看。这是核心。
  4. 直接跳到 Table 2 看定制化任务(15 分钟)。对比 VLAS、VLAS−RAG、VLA+RAG 三行——这是论文最想证明的卖点。
  5. 如果关心部署,看附录 B.5(10 分钟)。多步预测能跑到每秒 2.5 步。

跳过:详细的数据集生成流程(Section 3.2 后半)、附录 B.1 的失败案例分析。

所以这一节是想说:5 步精读路线,2 小时之内能抓住论文核心。


一些好奇心问答(FAQ)

Q1:这模型有多大? A:约 70-80 亿参数。和当下主流的开源大模型同档(OpenVLA-7B、Vicuna-7B 都是这个量级)。

Q2:训练数据从哪来? A:大部分是公开的——干净英文有声书(LibriSpeech)、图文问答(LLaVA)、机器人仿真(CALVIN)。论文自己造了两个:把图文问答用文字转语音程序读出来叫 SQA,把机器人指令也读出来叫 CSI。

Q3:用了多少张专业显卡训练? A:8 张 A100(一种大约几万美元一张的专业显卡)。论文有意思的是第一阶段单卡反而比多卡好——多卡同步开销大于并行收益。

Q4:我自己能跑吗? A:推理(让训好的模型干活)一张 40GB 的 A100 够。训练就别想了——估计要 50–80 卡天,相当于 8 卡跑 1 周。

Q5:能换中文吗? A:原理上可以——Whisper 本来就支持中文。但 SQA 和 CSI 全是英文合成语音,换中文要重做这两个数据集

Q6:为什么不用更简单的"语音→文字→VLA"方案? A:因为转成文字之后,"是谁在说"这条信息永远丢了。论文整篇都在解决这个问题。如果你不需要"我的"这种指代,普通 VLA + ASR 也够用。

Q7:声纹库怎么建? A:论文几乎没说。猜测是手动维护的简单字典:{声纹特征:背景文字字符串}。新用户来了得手动录入。这是论文公开的弱点。

Q8:真机能跑多快? A:用多步预测的小技巧,每秒 2.5 个动作。家庭场景够用——人手日常操作也就每秒 1-3 个动作。

所以这一节是想说:复现需要不小成本,但工程接口和瓶颈都很清楚。


如果你想再深入

读懂 VLAS 之前,可以先读这几篇打底:

  1. LLaVA(视觉-语言基座):本论文的"父亲"。读完知道"看图说话"的模型是怎么搭起来的。
  2. Whisper(语音识别):本论文用的"耳朵"。在 68 万小时多语言语音上预训练。
  3. RT-2(VLA 路线开山之作):先读它再读 VLAS,能看出"加语音"是个增量改进。

读完 VLAS 想看续作 / 对照:

  1. OpenVLA:开源 VLA 的标杆。VLAS 在论文里把它当主要对比对象之一。
  2. RoboFlamingo:在长任务上击败 VLAS 的"同辈"。带短期记忆,作者说两条路线可以叠加。

所以这一节是想说:先读 LLaVA + Whisper + RT-2 三篇打底,再读 VLAS 像看了三集前传后看正片,事半功倍。

引用本笔记 / Cite this note
BibTeX
@online{eai_vlas_2026,
  title       = {(readable note) VLAS: VLA Model With Speech Instructions},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/vlas/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim