SayCan: Do As I Can, Not As I Say
这是给"完全没碰过 AI / 编程"的读者写的版本。下面所有"专业词"第一次出现都会用一两句话讲清,并尽量用初高中常识打比方。
一句话讲什么(TL;DR)
让"见多识广但出不了门的 AI"出主意,让机器人自己摸口袋说"这事我现在能做",两边都点头才动手。
所以这一节是想说:AI 出嘴,机器人出手,两个分一起算。
这是个什么场景
想象你周末瘫在沙发上刷手机,可乐一不小心洒了一桌子,你顺嘴对家里的机器人喊:
"我刚把可乐洒桌上了,能帮帮我吗?"
你脑子里的画面很简单:它走过去、拿块海绵、回来擦干净。
但站在机器人那一头,事情完全不是这么回事:
- 它听得懂"洒了"、"帮帮我"是中文里的常用词,但不知道对应自己身上要做哪几个动作。
- 它知道自己有几条机械臂、几根手指头,但不知道"擦桌子"在自己这套动作清单里叫什么。
打几个生活里的比方就是:
- 你妈让你"把屋子收拾一下",你新养的宠物狗听懂了"屋子"和"一下",但完全不会"收拾"——能听不能做。
- 一个只看过武侠小说的人让你"练一下凌波微步"——他知道这招听起来厉害,但你根本不知道脚要怎么迈。
- 你跟外国朋友点菜,他用菜单上没有的菜名报菜——服务员一脸懵,因为店里压根没这道菜。
这篇论文想修的,就是这条裂缝:人嘴里说的话,和机器人手能做的动作,对不上号。

所以这一节是想说:人说的话和机器人能做的事,中间隔着一条沟,论文就是想架桥。

之前的人怎么做的,为什么不够好
研究者之前主要试了两条路:
路 A:只让"AI 大脑"出主意
- 做法:把句子丢给一个会说话的 AI(比如 ChatGPT 那种),让它写出"步骤 1、步骤 2"。
- 问题:AI 像一个只读过书没出过门的学霸——它可能让你"用吸尘器",但你家厨房根本没吸尘器。它不知道你家有什么。
路 B:只让"机器人手"自己学
- 做法:机器人在房间里反复试错,学会"抓"、"放"、"走"等小动作。
- 问题:你跟它说"帮我恢复一下体力",它完全懵——这种抽象指令它根本听不懂。
路 C:两个简单地接起来
- 做法:让 AI 写句子,然后用"找最像的小动作"硬匹配。
- 问题:AI 一旦写出个不存在的动作(比如"用吸尘器"),匹配就强行配到最像的那个,结果错得离谱。
共同毛病:要么"会说不会做",要么"会做不会想"。
指令(instruction):用户用一句自然语言说出的任���,比如"帮我擦桌子"。
所以这一节是想说:以前要么只让脑子工作,要么只让手工作,没人把两个绑一起。
这篇论文的新想法
一句话点睛:
让 AI 提名候选动作并打"想不想做"的分(Say),让机器人自己打"做不做得到"的分(Can),两个分相乘,谁高听谁的。
所以这一节是想说:选下一步 = "应该做" × "能做",缺一不可。
它分几步做的(方法)
整套方法的名字直接说明结构:Say(说) + Can(能)。
1. 先准备一份"动作菜单"
类比:点外卖 App 上不会让你自由写"我想吃个不太辣的、温温的、有蛋白质的东西",它给你一份菜单,让你从里面选。
它在干什么: 机器人事先训好了一堆小动作,每个动作都配一句英文描述,比如:
- "pick up the sponge"(拿起海绵)
- "go to the table"(走到桌子那儿)
- "place on counter"(放到台面上)
把这些英文短句列成一张大菜单(论文里有 551 道菜),后面所有打分都从这张菜单里选。
技能(skill):机器人已经学会的一个小动作,比如"拿起海绵"。论文一共准备了 551 个。
为什么这步有用:把"自由作文"变成"选择题",AI 就不会说出机器人做不到的事。
所以这一节是想说:一切从一张固定的菜单开始,AI 不能瞎点。
2. Say —— 让 AI 给菜单上每道菜打分
类比:考试时老师不让你自由写"下一步该干啥"的作文,而是给你一张选项 A/B/C/D,让你对每个选项给一个百分比:"我觉得这个对的可能性是多少"。
它在干什么:
写一段开头话术,比如:
"Human: 我刚把可乐洒桌上了,能帮帮我吗? Robot: 1. ..."
把菜单上每道菜的描述("pick up the sponge")一个一个接到 "Robot: 1. " 后面。
让 AI 算"在这段话后面接这道菜,听起来有多顺"——分数越高,说明这道菜越像"应该做的下一步"。
关键术语:
大语言模型(Large Language Model, LLM):一个读了海量文字的 AI,擅长接龙下一句。把它当成一个见多识广但没出过门的朋友。
概率分布(probability distribution):每个选项一个 0~1 之间的数,加起来等于 1,表示"我相信每个选项的程度"。和高中概率题里的分布意思一样。
打分模式(scoring mode):不让 AI 自由写句子,而是给候选答案让它打分。和选择题打勾、不让作文,是一个道理。
为什么这步有用:
- AI 不会说出菜单外的东西。
- 不需要再做"匹配"这种容易出错的中间步骤。
- 给每道菜一个连续的分数,方便后面跟另一边的分相乘。
所以这一节是想说:AI 不写作文,只对菜单打分——这样它的每个回答都"合法"。
3. Can —— 让机器人自己说"我现在做得到吗"
类比:朋友推荐你去某餐厅吃饭,你伸手摸一圈口袋发现没钱包——这步当下做不了。"摸口袋"就是机器人在做的事。
它在干什么:
- 每个动作都配了一个"小裁判"。
- 这个小裁判看一眼机器人头上摄像头拍到的画面,再听一下要做的动作叫什么名字,然后输出一个 0~1 之间的数。
- 这个数的意思是:"在当前这个画面下,做这个动作能成功的概率"。
举几个例子,让你直观理解:
- 海绵就在镜头正前方 → "拿起海绵"得分接近 1。
- 海绵被一堆杂物挡住 → "拿起海绵"得分接近 0。
- 你站在客厅 → "走到桌子那儿"得分中等(要走过去)。
- 你已经在桌子前 → "走到桌子那儿"得分接近 0(没必要走了)。
可供性(affordance):环境给某个动作"提供"的可能性。比如门把手对你"招手"说"我可以被转动"。在这篇论文里就是"现在做这个动作,成不成"的分。
价值函数(value function):本来是强化学习里的术语,可以先粗暴理解为"在当前局势下,做这个动作能赢的概率"。游戏里每个位置上方飘着的"通关概率预测"就是这个东西。
这个小裁判怎么训出来的(先记结论,看不懂可以跳):
- 让仿真里的机器人反复试一个动作。
- 成功了奖励 1 分,失败了 0 分。
- 让小裁判学会"看一眼画面就能猜出来这次能不能成"。
强化学习(reinforcement learning, RL):让 AI 通过反复试错、拿奖惩来学。和你打游戏死了重来、慢慢知道哪个套路能过关,是一回事。

为什么这步有用:把"环境到底允不允许这步"这个物理事实塞进了决策里。AI 想再多,物理上做不到也得 0 分。
所以这一节是想说:机器人摸一摸口袋,告诉你这事儿现在干不干得了。
4. 合体 —— 两个分相乘
类比:你周末选餐厅会同时看两件事:
- 朋友推荐分(Say)
- 餐厅有没有营业(Can)
两个都高才动身;只有一项高(朋友吹爆但今天闭店),还是去不了。
它在干什么:
- 对菜单上每个动作算两个分:AI 的"应不应该做"分 + 小裁判的"现在能不能做"分。
- 把两个分相乘,得到一个最终分。
- 选最终分最高的那个动作去做。
- 做完之后,把刚才做的写进开头话术里,再问一遍:"好,下一步呢?"
- 一直循环,直到 AI 说 "done"(完成了)就停。
人话翻译版的核心公式:
最终分 = AI 觉得这步合理的程度 × 机器人觉得这步现在做得到的程度
= p(动作描述 | 指令) × p(成功 | 当前画面, 动作描述)
argmax:从一堆候选里挑分数最大的那个。和你考试结束选"我哪门考得最好"一样。
为什么这步有用:
- 只看 AI:会推荐根本没有的物体。
- 只看机器人:根本听不懂任务在说啥。
- 一相乘,两边都得满意才能赢。
所以这一节是想说:AI 和机器人投票,谁都不能独裁,必须两个分都高。
5. 一些工程上的"脏活"
类比:高考完发布会上看着光鲜的状元,背后其实是一桌子卷子、一抽屉错题本——理想很丰满,幕后全是反复手工修补。SayCan 也一样。
理想很丰满,但现实里有几个细节得手动调:
- 小裁判的分数要"拉直":训练完小裁判输出的分可能挤在 0.2
0.5 之间,得手动把它拉到 01 才像"概率"。 - 每个新厨房都得重调:换个房间、换个光线,分数就偏了,工程师得重新调一遍。
- 抓海绵和走过去用了不同的算法各自训一套:一套负责"真的去做",一套负责"打分"。这两件事 AI 圈到现在还没完全合一。
行为克隆(Behavioral Cloning, BC):让 AI 看人类演示,每一步都照抄。徒弟跟师傅做菜每刀都模仿,就是这个意思。论文里用 BC 训"真的执行"。
遥操作(teleoperation):人戴着 VR 头盔、拿着摇杆,操控机器人做动作,给 AI 当教材。论文里 10 台机器人收了 11 个月数据。
所以这一节是想说:好看的公式背后,还有很多手工调参的脏活。

关键数字(What works)
实验在两个地方做:
- 仿厨房(专门搭的练习场,机器人在这练过)
- 真办公室厨房(机器人没在这练过,搬过去试)
一共 101 条指令、7 个家族,例如:单步任务、抽象名词任务、长程任务等。
下面 6 个数字最关键:
仿厨房:规划 84%、执行 74%
- 含义:100 次里有 84 次能选对正确的步骤序列;74 次真的把任务做完了。
- 对比:当时 AI + 真机器人组合的第一个像样数字。
- 意味着:第一次证明了"AI 和机器人可以严肃合作"。
真办公室厨房:规划 81%、执行 60%
- 对比:规划只掉 3 个点,执行掉了 14 个点。
- 意味着:AI 这边换环境影响小(它读过书,知道厨房长啥样);但机器人的手严重依赖练过的画面,一换就抖。
去掉机器人那半(只听 AI 的):规划 67%
- 对比:比完整版低 17 个百分点。
- 意味着:相当于"光听朋友推荐不看营业时间"——AI 会推荐场景里根本不存在的东西。
让 AI 自由生成 + 硬匹配菜单:规划 74%
- 对比:比"打分相乘"低 10 个百分点。
- 意味着:"给候选打分"比"自由生成再硬找最像"更稳。
换个更小的 AI(参数少很多):规划掉到 38%
- 对比:原版用了一个超大模型。
- 意味着:AI 越聪明,机器人越能干——这是这篇论文最有冲击力的发现。
多语言(中文 / 法语 / 西语):12 条非英语指令,11 条规划完美。
- 意味着:AI 读过多语言,机器人就免费会多语言。这是个意外收获。
规划成功率(plan success rate):100 次里能"想对"步骤顺序的次数比例。
执行成功率(execution success rate):100 次里"想对又做对"的次数比例。当然 ≤ 规划成功率。

所以这一节是想说:方法是有效的,而且 AI 越强,效果越好。
你应该懂的几个新词
指令(instruction):用户说出的一句话任务。
技能(skill):机器人事先学会的一个小动作。
大语言模型(LLM):读了海量文字、擅长接龙的 AI。
概率分布(probability distribution):给每个选项分配 0~1 的"相信程度",加起来等于 1。
打分模式(scoring mode):让 AI 给候选答案打分,而不是让它自由写。
可供性(affordance):环境对某动作"现在做不做得到"的支持度。门把手在向你"招手"说"我可以被转"。
价值函数(value function):粗略理解为"在当前局势做这个动作能赢的概率"。
强化学习(RL):通过反复试错、拿奖惩学习。打游戏死了重来就是这个套路。
行为克隆(BC):照抄人类演示动作。
提示工程(prompt engineering):给 AI 的开头话术里塞几个示范,让它模仿格式。
闭环 vs 开环:闭环 = 做一步看一眼、再决定下一步;开环 = 一口气把计划列完不管中间。SayCan 是"每一步开始时看一眼",没看做完一步成不成功。
仿真到真实(sim-to-real):先让机器人在电脑里的虚拟环境练,再搬到现实——像考前模拟卷再上真考场。
所以这一节是想说:上面这些词以后再看到不用慌,你都见过了。
它有什么搞不定的
下面这些是用户实际会撞上的坑:
菜单外的事一概不会
- 你说"帮我打开微波炉",但菜单里没有"open microwave"——它直接放弃,不会临时拼凑。
做到一半失败它不知道
- 抓海绵手滑掉了,它继续走去桌子假装擦——表演完整流程,桌子还是脏的。
- 因为它只在每一步开始时看一眼,不在动作中途回头确认。
手工调参是软肋
- 换个新厨房,工程师得重调阈值,否则分数全偏移。
"不要 X"这种否定容易出错
- 你说"给我点不含咖啡因的",它可能直接给你咖啡——因为 AI 在打分时反而把"咖啡"那项的分推高了(因为整句里出现了"咖啡因"三个字)。
- 论文用了一个补丁叫"思维链"(让 AI 先解释再打分)来缓解。
长程任务容易提前 done
- 让它带饮料和零食,它带完饮料就觉得任务完成、输出 done。65% 的失败属于这一类。
思维链(Chain-of-Thought, CoT):让 AI 在给出答案前先写一段"为什么"的推理。和数学题写过程不只写答案,是一回事。
所以这一节是想说:方法不是万能的,菜单、闭环、调参、否定、长程都是它的软肋。
它和别的几篇是什么关系
可以画成一条时间线:
2022.1 Huang et al. "Language Models as Zero-Shot Planners" ← 前传,没加 affordance
2022.4 SayCan(本篇) ← 加了 affordance 乘法
2022.7 Inner Monologue ← 续作 v1.5:加闭环反馈
2022.9 Code as Policies ← 表亲:让 AI 输出代码
2023.3 PaLM-E ← 表亲:把图像直接喂进 AI
2023.7 RT-2 ← 反命题:端到端,省掉 SayCan 的两段式
用集合的画法:
- 会"想"但不一定会"做":路 A 的 AI 规划,包括 Huang 2022。
- 会"做"但不会"想":路 B 的纯机器人控制。
- 想 ∩ 做 = SayCan + 后续所有作品所在的圈子。
端到端(end-to-end):一个大模型直接吃图 + 文字,吐出动作;中间没有"先 plan 再做"。SayCan 不是端到端,RT-2 是。
所以这一节是想说:SayCan 是"想 + 做"路线的开山作,后面的论文都是它的衍生。
我建议这样读这篇
时间不多的话,按这条 5 步路线读,大约 90 分钟:
- 30 秒:先看摘要 + 第 1 页那张"洒了可乐"的图,理解要解决什么。
- 5 分钟:跳到 Algorithm 1(伪代码)和 Figure 3(流程图)——核心就是个 while 循环 + 概率乘法,看完已经懂 70%。
- 15 分钟:回头读第 3 节"SayCan"主体,重点是公式
Say × Can,不要被符号吓退。 - 15 分钟:跳到第 5.1 节看实验数字,确认"去掉 Can 掉 17%、换弱 AI 掉 14%"这两个对比。
- 可跳过:第 2 节 RL 数学背景、第 4 节网络架构细节、附录全部(除非你要复现)。
如果你只有 30 分钟:摘要 → Algorithm 1 → 实验表格,就够你跟人对话了。
所以这一节是想说:核心就一个公式 + 一个 while 循环,剩下的是工程细节。
一些好奇心问答(FAQ)
Q1:这个 AI 模型多大?我家电脑跑得动吗?
- 论文里用了一个超大 AI(参数极多,闭源,普通人用不到)。
- 但作者也证明:换小一点的 AI,效果会下降到 38%,还能用。
- 想自己玩,可以用网上免费的中型 AI 替代,普通游戏显卡就能跑。
Q2:训练数据从哪来?
- 人戴 VR 头盔、拿摇杆,遥控 10 台机器人收了 11 个月,共 68000 条演示。
- 这部分没有公开——普通团队没钱复现。
- 论文同时给了一个简化的桌面玩具版本,能在网页上跑。
Q3:代码开源吗?
- 完整版没开源。
- 项目主页 say-can.github.io 上有个简化的网页 Demo,截至 2024 年还能跑。
Q4:跑一次多久?
- 每一步都得给菜单上 551 道菜各打一次分——长程任务(10 步左右)一次决策可能要十几秒到分钟级。
- 这是一个性能瓶颈,后续的 RT-2 200 毫秒就能动。
Q5:为什么不直接让 AI 看图说话?
- 这就是后来的 PaLM-E 和 RT-2 在做的事——把视觉直接接进 AI。
- SayCan 当时还没这种"多模态 AI",所以采用了"AI 出嘴 + 单独视觉打分"的折中方案。
Q6:为什么 Say 和 Can 要相乘,不是相加?
- 相乘的物理含义是"两个独立条件同时成立的概率"。
- 类比:你周末出门 = "天气好" × "有空"。两个都得真,缺一不可。相加就变成"两个加权打分",会出现一边特别低也能压住。
Q7:如果菜单上没有合适的动作,会发生什么?
- 所有动作得分都低,但最高分还是会被选上——所以可能选了个不太对的动作硬上。
- 论文没有"放弃 / 求助人类"机制;后续的 Inner Monologue 加上了。
Q8:这论文影响有多大?
- 它是"AI + 机器人"领域的拐点之一。
- 论文出来 18 个月后,谷歌就推出了 RT-2、PaLM-E。
- 你今天刷到的"端到端机器人 demo 视频",思想上都能追到这篇。
所以这一节是想说:方法不是即插即用,但思想已经渗透进整个领域。
如果你想再深入
前传:Huang et al. 2022 "Language Models as Zero-Shot Planners"
- 看 SayCan 为什么必须加"Can"——没加之前长啥样。
续作 v1.5:Inner Monologue
- 在 SayCan 上加"做完一步看一眼"的闭环反馈,思路清晰,是理解"如何修补 SayCan"的最佳样本。
反命题:RT-2
- 同组人 18 个月后做的端到端版本,把 SayCan 的两段式合成一个大模型。读完两篇能看清整个领域的路线之争。
变体:Code as Policies
- 让 AI 输出 Python 代码而不是自然语言步骤——理解"输出格式选择"对 AI-当-规划者多重要。
升级:PaLM-E
- 把图像直接喂进 AI,省掉 SayCan 那种单独训打分模型的步骤。
读顺序建议:
SayCan(你在这) → Huang 2022(前传) → Inner Monologue(闭环)
↘
Code as Policies / PaLM-E(变体)
↘
RT-2(端到端反命题)
所以这一节是想说:SayCan 是入门的最佳起点,后面的几篇是它的不同变奏。
◼
引用本笔记 / Cite this note
@online{eai_saycan_2026,
title = {(readable note) SayCan: Do As I Can, Not As I Say},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2022 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/saycan/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim