回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
High-Level Planning · Plate Nº 76

Inner Monologue: Embodied Reasoning through Planning with Language Models

16 min read · 5505 字 · ⭐⭐⭐ · auto 摘要

这是给"完全没碰过 AI / 机器人"的读者写的版本。专业词第一次出现都会用一两句话讲清,并尽量用日常生活打比方。

一句话讲什么(TL;DR)

让机器人边干活边在心里念叨:看到啥、做成没、人改主意没,全翻成文字塞回 AI,它就能边做边改计划。

所以这一节是想说:这篇论文给机器人装了一个"内心独白",让它一边做一边想下一步。


这是个什么场景

周末你在家做番茄炒蛋,突然发现冰箱里没鸡蛋了,你会怎么办?

正常人会这样:

  1. 打开冰箱看一眼——"诶,鸡蛋没了。"
  2. 喊一声:"老妈,咱家还有蛋吗?"
  3. 老妈说:"你爸刚拿去煮面了。"
  4. 你心想:"那不能炒蛋了,要不改做番茄汤?"
  5. 顺手拿个锅,重新开始。

注意这个过程:你一边看一边想一边问一边改。看到→想→改主意→再看,这是人干活的常态。

可在 2022 年,让 AI 帮机器人"列计划"的主流做法,更像那种死板的菜谱卡:

  • 开做之前一次性列好 1-2-3-4 步。
  • 然后闭着眼睛照单子往下做。
  • 中途打翻了油、火关了、家人喊"别炒了改煮汤"——它一律听不见,继续按老单子炒。

Inner Monologue 想干的事,就是把机器人从"照菜谱卡硬执行"变成那个会抬头看冰箱、会喊话、会改主意的下厨人。

所以这一节是想说:让机器人从"开局列计划,闭眼往前冲"变成"走一步看一步、随时改主意"。


Inner Monologue — 场景示意:这论文要解决的现实问题
Plate Nº IInner Monologue — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:传统任务规划(TAMP) 类比:每天上班前在纸上写好一份精确到分钟的行程表,路上堵车也不改。写得很细但完全不抗意外——一旦真实世界稍微偏一点,整个计划就报废。

  • 方案 B:分层强化学习(HRL) 类比:上面是经理,下面是工人,经理只发"高层指令",工人自己想办法。问题:经理不会说话也不会读说明书,新任务来了完全不会扩展。

  • 方案 C:直接让 LLM 列计划(Huang et al. 2022) 类比:你给一个超博学但从没去过你家的朋友打电话,让他口述"怎么做番茄炒蛋"。他会给你一份完美单子——但说完就挂电话了,之后你切到手、煤气没气、鸡蛋摔了,他都不知道

  • 方案 D:SayCan 类比:博学朋友 + 会做饭的厨师组队。朋友每说一步,厨师都自评"我会不会做这步",两人投票选最该做的。进步:知道自己会不会。短板:但厨师不会回头告诉朋友"我刚才那步翻车了",朋友还是闭眼按原计划往下报。

  • 共同的核心问题:LLM 是单向的——只发指令不收反馈。机器人的世界本质上随机会失败、人会改主意,没有反馈环路 = 闭着眼睛干活

所以这一节是想说:之前的方法要么不抗意外,要么就算自评也只是单向输出,从没真正闭环。


这篇论文的新想法

把环境里发生的所有事都翻译成文字塞回 LLM 的提示词里,让 LLM 边读边接着写下一步——形成一个像"内心独白"的连续段落。

不需要重新训练、不需要新模型、不需要复杂工程,就是一直把新发生的事拼到 prompt 后面

所以这一节是想说:核心创新就是"什么都用文字塞回去"——简单得令人发指,但没人这样做过。


它分几步做的(方法)

整个论文做了三件事:把反馈分类、把反馈翻成文字、让 LLM 接龙写下去。

1. 把环境反馈分成三种"嘴"

一句类比:就像打游戏时屏幕上的三种提示——结算画面、小地图、NPC 对话框,每种说的话不一样。

展开看:

  • 结算画面:"任务完成 / 失败"——告诉你这一关过没过。
  • 小地图:随时显示周围有什么——你不主动看也会刷新。
  • NPC 对话框:你按 F 才弹出,它才告诉你信息。

机器人需要的反馈也长这样。

它在干什么

论文把所有可以塞回 LLM 的反馈分成三类:

  1. Success(成功检测):刚才那一步动作做成了没?输出"True / False"。
  2. Passive Scene(被动场景描述):每走一步,自动把周围有啥告诉 AI。比如"我看到可乐、水、巧克力棒"。
  3. Active Scene(主动场景查询):AI 自己反问"抽屉是开着的吗?"——人或另一个视觉模型给答复。

等等,先慢一拍——这里说的 LLM 是啥?

简单说就是 ChatGPT 那种"会接话的大模型"。它本职工作是看一段文字、预测下一段最合理的文字。这篇论文里所有的"AI 大脑"都是这种东西,没换。

反馈(feedback):环境对机器人动作的回应。摔了一跤是反馈,撞墙了是反馈,人骂你也是反馈。

检测器(detector):一个小模型,专门干一件事,比如"看一眼图判断动作有没有成功"。

VQA(Visual Question Answering,视觉问答):给图 + 一个问题,模型回答这个问题。这里用来当 Active Scene 的回复者。

为什么这步有用

  • 三类反馈各有强项:成功检测告诉你"这一步成没成",被动场景告诉你"现在世界长啥样",主动查询让 AI 在不确定时主动开口问
  • 把它们分开可以做对照实验:哪种反馈最关键?——后面表 1、2、3 就在回答这件事。

所以这一节是想说:先把"机器人能拿到的反馈"分成三类,剩下的工作就是让 LLM 同时读懂这三种。


2. 让所有反馈都变成"自然语言",拼进同一段话里

一句类比:跨国会议上有人讲粤语、有人讲四川话、有人写邮件——老板拍板:一律翻成普通话写到白板上排队,谁都看得懂。

Inner Monologue 就是这个白板:所有视觉模型、所有传感器、所有人类输入,全部翻成一句英文,按时间顺序拼进 LLM 的 prompt 里。

它在干什么

每走一步,prompt 末尾都会追加几行新东西,看起来像一段连续的剧本:

Robot Action: pick up the coke
Success: False
Robot Action: pick up the coke
Success: True
Scene: I see coke in the gripper
Robot Action: bring it to user

LLM 看到这个 prompt,自然会接着续写下一行 Robot Action——续写就是它在被训练时学过的事。

等等,先慢一拍——prompt 是啥?

你给 ChatGPT 输入框里打的那一段字,就是 prompt。LLM 的工作永远是"看 prompt → 预测下一段文字"。Inner Monologue 的全部魔法就是不停往这段字后面拼新内容。

prompt(提示词):你给 LLM 看的那一段输入。LLM 是个"文字接龙引擎",它的任务永远是预测"下一段最合理的文字"。

few-shot prompting(少样本提示):在 prompt 开头放 2-3 个示范例子,LLM 看到例子就照葫芦画瓢。这里没微调任何模型,全靠示范。

闭环(closed-loop):动作执行 → 反馈 → 再决策 → 再动作,构成一个圈。开环就是发完指令不管。

关键设计:所有信息走同一根管道

  • 不搞复杂的多模态融合架构。
  • 不训新模型。
  • LLM 看到的就是一段越来越长的英文段落。
  • 这段段落本身就是机器人的"内心独白"。

为什么这步有用

  • LLM 本来就最擅长读连续段落、续写下一句——把机器人状态翻成段落是让 AI 干它最擅长的事
  • 不需要训练 = 换 LLM、换机器人、换任务都几乎零成本——把 PaLM 换成 InstructGPT,prompt 不用改。
  • 这个抽象后来变成具身 AI 的"事实标准":再后来的 ReAct、Voyager、各种 LLM agent,骨架都是这个。

所以这一节是想说:只要把世界全部翻译成英文塞进同一段 prompt,LLM 自然会接龙规划下一步。


3. 让 LLM 在接龙过程中"想出声"——chain of thought

一句类比:考试时老师让你"写出解题过程",你的正确率立刻上去——人想清楚了再下笔,AI 也一样。

它在干什么

在某些任务里,prompt 里特意鼓励 LLM 写出 Robot thought: ... 这一行:

Robot action: Pick the red block and place it in the purple bowl.
Scene: Completed ['Red block is in purple bowl.']
Robot thought: One more block is needed to be inside the purple bowl.
Robot action: Pick the purple block ...
Scene: The purple block is too heavy to be picked up.
Robot thought: I need to find a lighter block.
Robot action: Pick the blue block ...

chain of thought(思维链,CoT):让模型在给答案前先把推理步骤写出来。Wei et al. 2022 提出,证明这能让 LLM 在数学/推理题上准确率显著提升。

替代目标(self-proposed goal):原计划被堵死时,AI 自己提出一个新的目标。这里 LLM 看到"紫块太重",自己想出"我要找个轻的"。

为什么这步有用

  • "想出声"让多个反馈不会被 LLM 直接淹没。它会先复盘当前进度,再决定下一步。
  • 它涌现了一堆没在 prompt 里教过的能力:自己改目标、回答关于场景的问题、识别中文指令、对错别字鲁棒——这些都是在写思考的过程中"顺手学会"的。
  • 论文叫这些为 emergent capabilities(涌现能力):没专门教,模型会了。

所以这一节是想说:让 LLM 写出来"我在想什么",不仅规划更稳,还冒出一堆没教过的本事。


关键数字(What works)

数字本身不重要,重要的是它们告诉你哪一种反馈最值钱

数字 1:仿真桌面任务,未见过的"颜色错配 bowl"任务从 0% 涨到 86%

  • 怎么算的:仿真环境里 50 局平均成功率。任务"把方块放到颜色不匹配的碗里",专门的 CLIPort 模型从来没见过,得 0%。Inner Monologue(Object + Scene 反馈)做到 86%。
  • 对比:CLIPort 0%;只用 Object 62%;Object + Success 76%;Object + Scene 86%
  • 生活语言:把训练时根本没出过的题,做到 86 分——证明 LLM 的推理能力直接搬过来就能用,不用为新任务重新训练。

数字 2:真实抓取任务从 20% → 90%(4.5 倍)

  • 怎么算的:UR5e 机械臂做"3 块堆叠 + 食物分类"两个任务,10 次平均。
  • 对比:单 Object 反馈 20%;Object + Success 90%
  • 生活语言:只把"成功检测"加上去,成功率涨 4.5 倍——最便宜的反馈反而最值钱

数字 3:在对抗干扰下,移动操控任务 0% → 75%

  • 怎么算的:厨房里 Everyday Robots 做"取饮料、开抽屉"等任务,故意人为弄乱(撞机械臂、把东西移走)。
  • 对比:SayCan 0%;Inner Monologue(Success + Object)75%
  • 生活语言:SayCan 在被人捣乱时直接死给你看,因为它不知道刚才翻车了;Inner Monologue 知道翻车,会重试或换计划。

数字 4:总计 120 次评测,30.8% → 60.4%

  • 怎么算的:把所有有/无干扰、所有任务族加在一起平均。
  • 对比:SayCan 30.8%;Inner Monologue 60.4%——几乎翻倍。
  • 生活语言:在论文设定的最复杂场景(带人为干扰),Inner Monologue 的整体成功率是 SayCan 的两倍。反馈环路是值钱的工程升级

数字 5:零训练,零微调

  • 怎么算的:所有 LLM 都用预训练原版(PaLM、InstructGPT),没改一行权重。
  • 对比:传统机器人方法动辄要 $10k+ GPU 时间训练。
  • 生活语言:换 LLM、换任务都不需要重训。这把"具身 AI 实验"门槛压低到只要会写 prompt

数字 6:涌现 5 种 prompt 没教过的能力

  • 怎么算的:作者列出了 5 种 prompt 没显式教的行为:换语言(中文)、自定目标、对错别字鲁棒、回答场景问题、对反馈顺序鲁棒。
  • 生活语言:你只教它"按表执行",它自己学会了"听人改主意 + 主动查询 + 跨语言"。这是这篇论文最让人惊讶的部分——LLM 的通用智能可以"漏"到机器人控制里。

所以这一节是想说:数据告诉我们"加反馈环路 = 翻倍以上的鲁棒性",且最便宜的成功检测就能带来巨大涨幅。


你应该懂的几个新词

Embodied AI(具身 AI):让 AI 不只是聊天,而是有"身体"——能看、能动、能影响物理世界。机器人是其中一种典型形态。

LLM(Large Language Model,大语言模型):一个超大的"文字接龙机器"。GPT-3、PaLM 都是。它的本职工作就是看一段文字预测下一段。

Inner Monologue(内心独白):本文的核心抽象。把环境反馈、人类指令、动作记录全部翻成文字塞进 LLM 的 prompt,让规划过程像一段连续的"自言自语"。

Closed-loop / Open-loop(闭环 / 开环):闭环 = 边做边收反馈再决策;开环 = 一次发完指令不管。Inner Monologue 是闭环;之前的 LLM-as-planner 是开环。

Affordance(可供性):一个动作"在当前情况下做不做得到"的概率。SayCan 用价值函数估它。可以理解成机器人对自己的能力自评。

Success Detector(成功检测器):看一眼图(或读状态)判断"这一步动作做成了没"的小模型。Inner Monologue 把它的输出翻成 True/False 字符串塞回 prompt。

Scene Description(场景描述):把当前看到的东西用一句话说出来。比如"我看到可乐、水、巧克力棒"。

Visual Question Answering(VQA,视觉问答):给图 + 问题,模型回答。这里 LLM 主动反问时由 VQA(或人)回答。

Few-shot Prompting(少样本提示):在 prompt 开头放几个例子,LLM 模仿例子的格式。Inner Monologue 完全靠这个实现规划,没微调任何模型。

Chain of Thought(思维链,CoT):让 LLM 写出"我在想什么"的中间步骤,能显著提升推理任务表现。论文在桌面任务里加了这个。

Emergent Capabilities(涌现能力):模型表现出 prompt 里没显式教过的行为。Inner Monologue 涌现了多语言交互、自定目标、跨指令切换等 5 种能力。

所以这一节是想说:上面这些词以后看具身 AI / LLM agent 论文都会反复出现,先把它们和生活类比挂钩。


它有什么搞不定的

  • 场景描述靠人或脚本:仿真和厨房实验里,scene description 是用脚本或人提供的"oracle"。换到完全自动的视觉模型上,效果会跌。论文承认这是个限制。
  • 被低层策略卡死:哪怕 LLM 推理再聪明,下面的抓取策略不会拧瓶盖,整套系统也拧不开。Inner Monologue 不能凭空提升机械臂的物理能力。
  • LLM 偶尔无视反馈:作者发现有时 LLM "硬刚"——明明 scene 里没那个东西,它还是要去抓。LLM 也会"幻觉"。
  • 没有不确定性建模:所有反馈都是"硬翻译"成肯定句,AI 看不到"这个检测器对自己 60% 自信"。论文留作 future work。

所以这一节是想说:天花板有两个——感知模型的可靠性 + 低层动作策略的能力,LLM 自己再聪明也跨不过去。


它和别的论文是什么关系

  • 直接前作:SayCan(2022) SayCan 解决"LLM 不知道自己会不会做"的问题,加了 affordance 自评。但仍然是开环——动作做完了不告诉 LLM 结果。Inner Monologue 在 SayCan 上面补上了反馈环路。本仓库 saycan.md 就是直接前作。

  • 方法论亲戚:LLaVA(2023) LLaVA 是"让 LLM 长眼睛",把视觉编码塞进 LLM。Inner Monologue 走的是另一条路:不动 LLM 架构,把视觉信息全部翻成英文塞 prompt。两条路最后都通向"多模态智能",但 Inner Monologue 的路更轻量,零训练。详见 llava.md

  • 后继:OpenVLA / VLA 家族 到了 2024 年,业界开始把 LLM + 视觉 + 动作全部塞进一个端到端模型(Vision-Language-Action)。Inner Monologue 是这条路的"前身"——它证明了用语言做所有桥梁是可行的,但还没把动作输出也塞进 LLM。详见 openvla.mdvlas.md

  • 集合关系:你可以把"用 LLM 控制机器人"想成一棵进化树。Inner Monologue 是树干上的关键分叉——之前所有方案都开环,从它开始所有人都做闭环

  • 因果关系

    • CoT(2022.1) + SayCan(2022.4)Inner Monologue(2022.7):把"会想"和"会做"合起来。
    • Inner Monologue → ReAct(2022.10):把同一思路推到纯文字 agent 上(搜索引擎 + 思考)。
    • Inner Monologue → Voyager(2023):在 Minecraft 里让 LLM 写代码 + 看反馈,骨架完全照搬。

所以这一节是想说:Inner Monologue 是"LLM 控机器人"从开环跨到闭环的分水岭,后面的 LLM agent 都长得像它。


我建议这样读这篇

零基础读者不要从头读到尾。建议这样走:

  1. 看 Figure 1(2 分钟):一眼看明白"人 → 机器人 → Scene/Success → 机器人 → ..."的闭环流程。
  2. 跳读第 3 节"Sources of Feedback"(10 分钟):只看 Success / Passive / Active 三类怎么定义,不要纠结公式(其实没什么公式)。
  3. 细读第 4.1 节 + Table 1(15 分钟):仿真桌面任务,看 Object / Object+Success / Object+Scene 三档对比,体会"加越多反馈涨越多"。
  4. 快速扫第 4.3 节 + Table 3(10 分钟):真实厨房机器人,看"对抗干扰"那几行——这里 SayCan 直接 0%,Inner Monologue 75%,最直观。
  5. 重点看第 4.4 节"Emergent Capabilities" + Figure 5(15 分钟):这是最有趣的部分,看 LLM 自己冒出多语言、自定目标等能力的对话剧本。
  6. 跳过附录的 prompts(除非你想自己实现):知道思路就行,prompt 工程细节不耽误理解。

读完这 6 步大约 50-60 分钟,已经能在和别人讨论 LLM agent 时讲清这篇的核心贡献。

所以这一节是想说:这篇精华在"闭环框架 + 涌现能力",技术细节非常少,重点是看实验和对话剧本。


一些好奇心问答

Q1:这篇有 train 模型吗?

完全没有。所有 LLM(PaLM、InstructGPT)都是预训练原版,所有视觉模型也是现成的。整篇论文的"代码"基本就是写 prompt + 把信息拼进 prompt + 调 API。这也是它影响力大的关键——门槛极低。

Q2:那为什么要发 CoRL?

因为它第一次明确提出"用语言做反馈环路"是一个独立的研究问题,并系统性地拆出三种反馈、三个机器人环境、对照实验。后来所有 LLM agent 论文都默认这是一个独立的设计维度。

Q3:Inner Monologue 和 ReAct 啥关系?

ReAct(2022.10)几乎是 Inner Monologue 的"无身体版":把"环境反馈"换成"搜索引擎结果",把"动作"换成"调 API"。骨架完全一样。Inner Monologue 早 3 个月,但因为 ReAct 在 NLP 圈火得更快,很多人误以为是 ReAct 先做的。

Q4:成功检测器自己也会出错怎么办?

会,论文承认了:False Negative(明明做对了说没做对)会让机器人无谓重试;False Positive(没做对说做对了)会让 LLM 在错的状态上规划,走得越来越偏。论文没解决这个,只是分析了失败模式。未来工作之一就是让反馈带不确定性。

Q5:为什么仿真和真实机器人用的 LLM 不一样(InstructGPT vs PaLM)?

作者在三个独立环境里都做了实验,刻意用不同 LLM 证明方法本身和具体 LLM 无关。换模型、prompt 微调一下就行。这是论文的鲁棒性证据。

Q6:能不能让两个 Inner Monologue agent 互相对话?

论文没做,但理论上可以——两个 LLM 互相把对方的输出当反馈塞进自己的 prompt。后来的 multi-agent 系统(ChatDev、AutoGen)走的就是这条路。

Q7:中文能直接用吗?

可以。Figure 5c 展示了 LLM 收到中文指令"请把蓝色方块也放到蓝色的碗里面"后,自动翻译成英文 goal state,再继续规划。这条没在 prompt 里教,是涌现能力。

Q8:能跑在我家机器人上吗?

如果你有:(1) 一个能调 API 的 LLM(OpenAI / Claude / 本地 Llama 都行);(2) 一个能识别物体的视觉模型;(3) 一组预训练的低层动作(抓、放、移)。把它们全部翻译成文字接到 prompt 里——就能跑。核心代码不到 200 行

所以这一节是想说:实操问题(要不要训、能不能换模型、能不能跑中文、能不能在家做)作者基本都想到了,复现门槛很低。


如果你想再深入

按"前作 → 同期 → 后继 → 衍生"四类排序:

  1. 前作:Huang et al. 2022 "Language Models as Zero-Shot Planners"(arXiv 2201.07207)— 第一篇用 GPT-3 给机器人列计划的论文。读它能理解 Inner Monologue 多解决了什么:闭环。
  2. 前作:SayCan(arXiv 2204.01691)— 同一作者团队的直接前身。Inner Monologue 在它上面加了反馈环。本仓库有 saycan.md 笔记。
  3. 同期:Chain of Thought(arXiv 2201.11903)— Wei et al. 提出"让 LLM 写思考步骤"。Inner Monologue 在桌面任务里直接复用了这个套路(Robot thought: ...)。
  4. 后继:ReAct(arXiv 2210.03629)— "Reasoning + Acting"。把 Inner Monologue 的思路推到纯文字 agent 上。如果你只能读一篇 LLM agent 论文,读这个。
  5. 衍生:Voyager(arXiv 2305.16291)— Minecraft 里的 LLM agent,骨架就是 Inner Monologue + 代码生成。能直观看到"内心独白"在游戏里跑起来什么样。

所以这一节是想说:把 SayCan + Inner Monologue + ReAct 这三篇连着读,能看清"LLM agent"这个词在 2022 年怎么从开环走到闭环的。


最后一个画面

论文 Figure 5c 里有这样一段对话:

Human: Put the blocks in the bowls with mismatching colors.
Robot thought: Goal state is ["Yellow block is in the blue bowl.", ...]
Robot action: Pick the yellow block and place it in the blue bowl.
Scene: Completed ["Yellow block is in the blue bowl."]
Robot thought: Blue block is not in the yellow bowl.
Human: 我改变主意了,请把蓝色方块也放到蓝色的碗里面。
Robot thought: Goal state is ["Yellow block is in the blue bowl.", "Blue block is in the blue bowl."]
Robot action: Pick the blue block and place it in the blue bowl.
Scene: Completed ["Yellow block is in the blue bowl.", "Blue block is in the blue bowl."]
Robot thought: I'm done.

这一刻,机器人用中文听懂了人改主意重新写了目标状态完成了任务——而 prompt 里没有任何中文示范,也没有"中途换目标"的示范

整段交互看起来就像两个人在合作做家务。这是 2022 年第一次有论文让人觉得:"哦,机器人不再是只会执行预设脚本的机械玩具,它真的在'听懂'。"

所以最后一节是想说:Inner Monologue 不仅是一个工程方案,更是开启"LLM 给机器人当大脑"这个时代的标志性瞬间。

引用本笔记 / Cite this note
BibTeX
@online{eai_inner_monologue_2026,
  title       = {(readable note) Inner Monologue: Embodied Reasoning through Planning with Language Models},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2022 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/inner-monologue/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim