回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
High-Level Planning · Plate Nº 3

SayCan: Do As I Can, Not As I Say

14 min read · 4946 字 · ⭐⭐ · auto 摘要

这是给"完全没碰过 AI / 编程"的读者写的版本。下面所有"专业词"第一次出现都会用一两句话讲清,并尽量用初高中常识打比方。

一句话讲什么(TL;DR)

让"见多识广但出不了门的 AI"出主意,让机器人自己摸口袋说"这事我现在能做",两边都点头才动手。

所以这一节是想说:AI 出嘴,机器人出手,两个分一起算。


这是个什么场景

想象你周末瘫在沙发上刷手机,可乐一不小心洒了一桌子,你顺嘴对家里的机器人喊:

"我刚把可乐洒桌上了,能帮帮我吗?"

你脑子里的画面很简单:它走过去、拿块海绵、回来擦干净。

但站在机器人那一头,事情完全不是这么回事:

  • 得懂"洒了"、"帮帮我"是中文里的常用词,但不知道对应自己身上要做哪几个动作。
  • 知道自己有几条机械臂、几根手指头,但不知道"擦桌子"在自己这套动作清单里叫什么。

打几个生活里的比方就是:

  • 你妈让你"把屋子收拾一下",你新养的宠物狗听懂了"屋子"和"一下",但完全不会"收拾"——能听不能做。
  • 一个只看过武侠小说的人让你"练一下凌波微步"——他知道这招听起来厉害,但你根本不知道脚要怎么迈。
  • 你跟外国朋友点菜,他用菜单上没有的菜名报菜——服务员一脸懵,因为店里压根没这道菜。

这篇论文想修的,就是这条裂缝:人嘴里说的话,和机器人手能做的动作,对不上号

SayCan 整体流程
Plate Nº ISayCan 整体流程

所以这一节是想说:人说的话和机器人能做的事,中间隔着一条沟,论文就是想架桥。


SayCan — 场景示意:这论文要解决的现实问题
Plate Nº IISayCan — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

研究者之前主要试了两条路:

  • 路 A:只让"AI 大脑"出主意

    • 做法:把句子丢给一个会说话的 AI(比如 ChatGPT 那种),让它写出"步骤 1、步骤 2"。
    • 问题:AI 像一个只读过书没出过门的学霸——它可能让你"用吸尘器",但你家厨房根本没吸尘器。它不知道你家有什么。
  • 路 B:只让"机器人手"自己学

    • 做法:机器人在房间里反复试错,学会"抓"、"放"、"走"等小动作。
    • 问题:你跟它说"帮我恢复一下体力",它完全懵——这种抽象指令它根本听不懂。
  • 路 C:两个简单地接起来

    • 做法:让 AI 写句子,然后用"找最像的小动作"硬匹配。
    • 问题:AI 一旦写出个不存在的动作(比如"用吸尘器"),匹配就强行配到最像的那个,结果错得离谱。
  • 共同毛病:要么"会说不会做",要么"会做不会想"。

指令(instruction):用户用一句自然语言说出的任���,比如"帮我擦桌子"。

所以这一节是想说:以前要么只让脑子工作,要么只让手工作,没人把两个绑一起。


这篇论文的新想法

一句话点睛:

让 AI 提名候选动作并打"想不想做"的分(Say),让机器人自己打"做不做得到"的分(Can),两个分相乘,谁高听谁的。

所以这一节是想说:选下一步 = "应该做" × "能做",缺一不可。


它分几步做的(方法)

整套方法的名字直接说明结构:Say(说) + Can(能)

1. 先准备一份"动作菜单"

类比:点外卖 App 上不会让你自由写"我想吃个不太辣的、温温的、有蛋白质的东西",它给你一份菜单,让你从里面选。

它在干什么: 机器人事先训好了一堆小动作,每个动作都配一句英文描述,比如:

  • "pick up the sponge"(拿起海绵)
  • "go to the table"(走到桌子那儿)
  • "place on counter"(放到台面上)

把这些英文短句列成一张大菜单(论文里有 551 道菜),后面所有打分都从这张菜单里选。

技能(skill):机器人已经学会的一个小动作,比如"拿起海绵"。论文一共准备了 551 个。

为什么这步有用:把"自由作文"变成"选择题",AI 就不会说出机器人做不到的事。

所以这一节是想说:一切从一张固定的菜单开始,AI 不能瞎点。


2. Say —— 让 AI 给菜单上每道菜打分

类比:考试时老师不让你自由写"下一步该干啥"的作文,而是给你一张选项 A/B/C/D,让你对每个选项给一个百分比:"我觉得这个对的可能性是多少"。

它在干什么

  1. 写一段开头话术,比如:

    "Human: 我刚把可乐洒桌上了,能帮帮我吗? Robot: 1. ..."

  2. 把菜单上每道菜的描述("pick up the sponge")一个一个接到 "Robot: 1. " 后面。

  3. 让 AI 算"在这段话后面接这道菜,听起来有多顺"——分数越高,说明这道菜越像"应该做的下一步"。

关键术语

大语言模型(Large Language Model, LLM):一个读了海量文字的 AI,擅长接龙下一句。把它当成一个见多识广但没出过门的朋友。

概率分布(probability distribution):每个选项一个 0~1 之间的数,加起来等于 1,表示"我相信每个选项的程度"。和高中概率题里的分布意思一样。

打分模式(scoring mode):不让 AI 自由写句子,而是给候选答案让它打分。和选择题打勾、不让作文,是一个道理。

为什么这步有用

  • AI 不会说出菜单外的东西。
  • 不需要再做"匹配"这种容易出错的中间步骤。
  • 给每道菜一个连续的分数,方便后面跟另一边的分相乘。

所以这一节是想说:AI 不写作文,只对菜单打分——这样它的每个回答都"合法"。


3. Can —— 让机器人自己说"我现在做得到吗"

类比:朋友推荐你去某餐厅吃饭,你伸手摸一圈口袋发现没钱包——这步当下做不了。"摸口袋"就是机器人在做的事。

它在干什么

  • 每个动作都配了一个"小裁判"。
  • 这个小裁判看一眼机器人头上摄像头拍到的画面,再听一下要做的动作叫什么名字,然后输出一个 0~1 之间的数。
  • 这个数的意思是:"在当前这个画面下,做这个动作能成功的概率"

举几个例子,让你直观理解:

  • 海绵就在镜头正前方 → "拿起海绵"得分接近 1。
  • 海绵被一堆杂物挡住 → "拿起海绵"得分接近 0。
  • 你站在客厅 → "走到桌子那儿"得分中等(要走过去)。
  • 你已经在桌子前 → "走到桌子那儿"得分接近 0(没必要走了)。

可供性(affordance):环境给某个动作"提供"的可能性。比如门把手对你"招手"说"我可以被转动"。在这篇论文里就是"现在做这个动作,成不成"的分。

价值函数(value function):本来是强化学习里的术语,可以先粗暴理解为"在当前局势下,做这个动作能赢的概率"。游戏里每个位置上方飘着的"通关概率预测"就是这个东西。

这个小裁判怎么训出来的(先记结论,看不懂可以跳):

  • 让仿真里的机器人反复试一个动作。
  • 成功了奖励 1 分,失败了 0 分。
  • 让小裁判学会"看一眼画面就能猜出来这次能不能成"。

强化学习(reinforcement learning, RL):让 AI 通过反复试错、拿奖惩来学。和你打游戏死了重来、慢慢知道哪个套路能过关,是一回事。

Value function 在不同场景下的打分
Plate Nº IIIValue function 在不同场景下的打分

为什么这步有用:把"环境到底允不允许这步"这个物理事实塞进了决策里。AI 想再多,物理上做不到也得 0 分。

所以这一节是想说:机器人摸一摸口袋,告诉你这事儿现在干不干得了。


4. 合体 —— 两个分相乘

类比:你周末选餐厅会同时看两件事:

  • 朋友推荐分(Say)
  • 餐厅有没有营业(Can)

两个都高才动身;只有一项高(朋友吹爆但今天闭店),还是去不了。

它在干什么

  • 对菜单上每个动作算两个分:AI 的"应不应该做"分 + 小裁判的"现在能不能做"分。
  • 把两个分相乘,得到一个最终分。
  • 最终分最高的那个动作去做。
  • 做完之后,把刚才做的写进开头话术里,再问一遍:"好,下一步呢?"
  • 一直循环,直到 AI 说 "done"(完成了)就停。

人话翻译版的核心公式:

最终分 = AI 觉得这步合理的程度  ×  机器人觉得这步现在做得到的程度
        = p(动作描述 | 指令)     ×  p(成功 | 当前画面, 动作描述)

argmax:从一堆候选里挑分数最大的那个。和你考试结束选"我哪门考得最好"一样。

为什么这步有用

  • 只看 AI:会推荐根本没有的物体。
  • 只看机器人:根本听不懂任务在说啥。
  • 一相乘,两边都得满意才能赢。

所以这一节是想说:AI 和机器人投票,谁都不能独裁,必须两个分都高。


5. 一些工程上的"脏活"

类比:高考完发布会上看着光鲜的状元,背后其实是一桌子卷子、一抽屉错题本——理想很丰满,幕后全是反复手工修补。SayCan 也一样。

理想很丰满,但现实里有几个细节得手动调:

  • 小裁判的分数要"拉直":训练完小裁判输出的分可能挤在 0.20.5 之间,得手动把它拉到 01 才像"概率"。
  • 每个新厨房都得重调:换个房间、换个光线,分数就偏了,工程师得重新调一遍。
  • 抓海绵和走过去用了不同的算法各自训一套:一套负责"真的去做",一套负责"打分"。这两件事 AI 圈到现在还没完全合一。

行为克隆(Behavioral Cloning, BC):让 AI 看人类演示,每一步都照抄。徒弟跟师傅做菜每刀都模仿,就是这个意思。论文里用 BC 训"真的执行"。

遥操作(teleoperation):人戴着 VR 头盔、拿着摇杆,操控机器人做动作,给 AI 当教材。论文里 10 台机器人收了 11 个月数据。

所以这一节是想说:好看的公式背后,还有很多手工调参的脏活。


SayCan — 方法示意:核心 pipeline
Plate Nº IVSayCan — 方法示意:核心 pipeline

关键数字(What works)

实验在两个地方做:

  • 仿厨房(专门搭的练习场,机器人在这练过)
  • 真办公室厨房(机器人没在这练过,搬过去试)

一共 101 条指令、7 个家族,例如:单步任务、抽象名词任务、长程任务等。

下面 6 个数字最关键:

  • 仿厨房:规划 84%、执行 74%

    • 含义:100 次里有 84 次能选对正确的步骤序列;74 次真的把任务做完了。
    • 对比:当时 AI + 真机器人组合的第一个像样数字。
    • 意味着:第一次证明了"AI 和机器人可以严肃合作"。
  • 真办公室厨房:规划 81%、执行 60%

    • 对比:规划只掉 3 个点,执行掉了 14 个点。
    • 意味着:AI 这边换环境影响小(它读过书,知道厨房长啥样);但机器人的手严重依赖练过的画面,一换就抖。
  • 去掉机器人那半(只听 AI 的):规划 67%

    • 对比:比完整版低 17 个百分点。
    • 意味着:相当于"光听朋友推荐不看营业时间"——AI 会推荐场景里根本不存在的东西。
  • 让 AI 自由生成 + 硬匹配菜单:规划 74%

    • 对比:比"打分相乘"低 10 个百分点。
    • 意味着:"给候选打分"比"自由生成再硬找最像"更稳。
  • 换个更小的 AI(参数少很多):规划掉到 38%

    • 对比:原版用了一个超大模型。
    • 意味着:AI 越聪明,机器人越能干——这是这篇论文最有冲击力的发现。
  • 多语言(中文 / 法语 / 西语):12 条非英语指令,11 条规划完美。

    • 意味着:AI 读过多语言,机器人就免费会多语言。这是个意外收获。

规划成功率(plan success rate):100 次里能"想对"步骤顺序的次数比例。

执行成功率(execution success rate):100 次里"想对又做对"的次数比例。当然 ≤ 规划成功率。

长程任务的多步推理
Plate Nº V长程任务的多步推理

所以这一节是想说:方法是有效的,而且 AI 越强,效果越好。


你应该懂的几个新词

指令(instruction):用户说出的一句话任务。

技能(skill):机器人事先学会的一个小动作。

大语言模型(LLM):读了海量文字、擅长接龙的 AI。

概率分布(probability distribution):给每个选项分配 0~1 的"相信程度",加起来等于 1。

打分模式(scoring mode):让 AI 给候选答案打分,而不是让它自由写。

可供性(affordance):环境对某动作"现在做不做得到"的支持度。门把手在向你"招手"说"我可以被转"。

价值函数(value function):粗略理解为"在当前局势做这个动作能赢的概率"。

强化学习(RL):通过反复试错、拿奖惩学习。打游戏死了重来就是这个套路。

行为克隆(BC):照抄人类演示动作。

提示工程(prompt engineering):给 AI 的开头话术里塞几个示范,让它模仿格式。

闭环 vs 开环:闭环 = 做一步看一眼、再决定下一步;开环 = 一口气把计划列完不管中间。SayCan 是"每一步开始时看一眼",没看做完一步成不成功。

仿真到真实(sim-to-real):先让机器人在电脑里的虚拟环境练,再搬到现实——像考前模拟卷再上真考场。

所以这一节是想说:上面这些词以后再看到不用慌,你都见过了。


它有什么搞不定的

下面这些是用户实际会撞上的坑:

  • 菜单外的事一概不会

    • 你说"帮我打开微波炉",但菜单里没有"open microwave"——它直接放弃,不会临时拼凑。
  • 做到一半失败它不知道

    • 抓海绵手滑掉了,它继续走去桌子假装擦——表演完整流程,桌子还是脏的。
    • 因为它只在每一步开始时看一眼,不在动作中途回头确认。
  • 手工调参是软肋

    • 换个新厨房,工程师得重调阈值,否则分数全偏移。
  • "不要 X"这种否定容易出错

    • 你说"给我点不含咖啡因的",它可能直接给你咖啡——因为 AI 在打分时反而把"咖啡"那项的分推高了(因为整句里出现了"咖啡因"三个字)。
    • 论文用了一个补丁叫"思维链"(让 AI 先解释再打分)来缓解。
  • 长程任务容易提前 done

    • 让它带饮料和零食,它带完饮料就觉得任务完成、输出 done。65% 的失败属于这一类。

思维链(Chain-of-Thought, CoT):让 AI 在给出答案前先写一段"为什么"的推理。和数学题写过程不只写答案,是一回事。

所以这一节是想说:方法不是万能的,菜单、闭环、调参、否定、长程都是它的软肋。


它和别的几篇是什么关系

可以画成一条时间线:

2022.1   Huang et al. "Language Models as Zero-Shot Planners"  ← 前传,没加 affordance
2022.4   SayCan(本篇)                                          ← 加了 affordance 乘法
2022.7   Inner Monologue                                       ← 续作 v1.5:加闭环反馈
2022.9   Code as Policies                                      ← 表亲:让 AI 输出代码
2023.3   PaLM-E                                                ← 表亲:把图像直接喂进 AI
2023.7   RT-2                                                  ← 反命题:端到端,省掉 SayCan 的两段式

用集合的画法:

  • 会"想"但不一定会"做":路 A 的 AI 规划,包括 Huang 2022。
  • 会"做"但不会"想":路 B 的纯机器人控制。
  • 想 ∩ 做 = SayCan + 后续所有作品所在的圈子。

端到端(end-to-end):一个大模型直接吃图 + 文字,吐出动作;中间没有"先 plan 再做"。SayCan 不是端到端,RT-2 是。

所以这一节是想说:SayCan 是"想 + 做"路线的开山作,后面的论文都是它的衍生。


我建议这样读这篇

时间不多的话,按这条 5 步路线读,大约 90 分钟:

  1. 30 秒:先看摘要 + 第 1 页那张"洒了可乐"的图,理解要解决什么。
  2. 5 分钟:跳到 Algorithm 1(伪代码)和 Figure 3(流程图)——核心就是个 while 循环 + 概率乘法,看完已经懂 70%。
  3. 15 分钟:回头读第 3 节"SayCan"主体,重点是公式 Say × Can,不要被符号吓退。
  4. 15 分钟:跳到第 5.1 节看实验数字,确认"去掉 Can 掉 17%、换弱 AI 掉 14%"这两个对比。
  5. 可跳过:第 2 节 RL 数学背景、第 4 节网络架构细节、附录全部(除非你要复现)。

如果你只有 30 分钟:摘要 → Algorithm 1 → 实验表格,就够你跟人对话了。

所以这一节是想说:核心就一个公式 + 一个 while 循环,剩下的是工程细节。


一些好奇心问答(FAQ)

Q1:这个 AI 模型多大?我家电脑跑得动吗?

  • 论文里用了一个超大 AI(参数极多,闭源,普通人用不到)。
  • 但作者也证明:换小一点的 AI,效果会下降到 38%,还能用。
  • 想自己玩,可以用网上免费的中型 AI 替代,普通游戏显卡就能跑。

Q2:训练数据从哪来?

  • 人戴 VR 头盔、拿摇杆,遥控 10 台机器人收了 11 个月,共 68000 条演示。
  • 这部分没有公开——普通团队没钱复现。
  • 论文同时给了一个简化的桌面玩具版本,能在网页上跑。

Q3:代码开源吗?

  • 完整版没开源。
  • 项目主页 say-can.github.io 上有个简化的网页 Demo,截至 2024 年还能跑。

Q4:跑一次多久?

  • 每一步都得给菜单上 551 道菜各打一次分——长程任务(10 步左右)一次决策可能要十几秒到分钟级。
  • 这是一个性能瓶颈,后续的 RT-2 200 毫秒就能动。

Q5:为什么不直接让 AI 看图说话?

  • 这就是后来的 PaLM-E 和 RT-2 在做的事——把视觉直接接进 AI。
  • SayCan 当时还没这种"多模态 AI",所以采用了"AI 出嘴 + 单独视觉打分"的折中方案。

Q6:为什么 Say 和 Can 要相乘,不是相加?

  • 相乘的物理含义是"两个独立条件同时成立的概率"。
  • 类比:你周末出门 = "天气好" × "有空"。两个都得真,缺一不可。相加就变成"两个加权打分",会出现一边特别低也能压住。

Q7:如果菜单上没有合适的动作,会发生什么?

  • 所有动作得分都低,但最高分还是会被选上——所以可能选了个不太对的动作硬上。
  • 论文没有"放弃 / 求助人类"机制;后续的 Inner Monologue 加上了。

Q8:这论文影响有多大?

  • 它是"AI + 机器人"领域的拐点之一。
  • 论文出来 18 个月后,谷歌就推出了 RT-2、PaLM-E。
  • 你今天刷到的"端到端机器人 demo 视频",思想上都能追到这篇。

所以这一节是想说:方法不是即插即用,但思想已经渗透进整个领域。


如果你想再深入

  • 前传:Huang et al. 2022 "Language Models as Zero-Shot Planners"

    • 看 SayCan 为什么必须加"Can"——没加之前长啥样。
  • 续作 v1.5:Inner Monologue

    • 在 SayCan 上加"做完一步看一眼"的闭环反馈,思路清晰,是理解"如何修补 SayCan"的最佳样本。
  • 反命题:RT-2

    • 同组人 18 个月后做的端到端版本,把 SayCan 的两段式合成一个大模型。读完两篇能看清整个领域的路线之争。
  • 变体:Code as Policies

    • 让 AI 输出 Python 代码而不是自然语言步骤——理解"输出格式选择"对 AI-当-规划者多重要。
  • 升级:PaLM-E

    • 把图像直接喂进 AI,省掉 SayCan 那种单独训打分模型的步骤。

读顺序建议:

SayCan(你在这)  →  Huang 2022(前传)  →  Inner Monologue(闭环)
                                       ↘
                                         Code as Policies / PaLM-E(变体)
                                                     ↘
                                                       RT-2(端到端反命题)

所以这一节是想说:SayCan 是入门的最佳起点,后面的几篇是它的不同变奏。

引用本笔记 / Cite this note
BibTeX
@online{eai_saycan_2026,
  title       = {(readable note) SayCan: Do As I Can, Not As I Say},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2022 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/saycan/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim