RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
TL;DR
教机器人做新动作,光说话不够、给一张完成图也不够。这篇论文说:在画面上画一条"手该走的路"——机器人立刻照着做。
所以这一节是想说:把任务表达从"语义层"降到"几何层",泛化新任务一下就上来了。
这是个什么场景
想象你在教朋友打羽毛球,他学会了"挥拍这个动作"。第二天你让他打网球。如果你只甩一句"打网球啊"——他可能反应不过来,因为"羽毛球"和"网球"在文字上是两件事。但如果你直接拿手比划一道弧线:"手要这样划过去"——他立刻就懂了。动作和动作之间,比文字和文字之间更像。
机器人的烦恼一模一样。论文里这只机械臂站在桌前,桌上摆着可乐罐、薯片袋、香蕉。它训练时学过 8 类活儿(捡、放近、立起来、推倒、开抽屉、关抽屉、放进容器、从容器拿出来),共 542 个具体任务、约 73K 条人类遥操作示教。
现在你让它做一件全新的事:把毛巾对折。它没见过"折毛巾"这三个字,也没见过这个动作。但仔细想——"拎起一角拉到另一边"和"把可乐罐挪到百事罐旁边",在机械爪的运动路径上几乎一模一样:抓住、划一道弧、放下。
问题出在任务是用语言描述的。"折毛巾"和"挪可乐罐"在文字上离得很远,模型没法把已经学会的肌肉记忆迁过来。RT-Trajectory 的核心观察:画一条曲线,比说一句话更接近"动作本身"。
所以这一节是想说:机器人对"新任务"水土不服的根因,是任务描述方式离动作太远。

之前的人怎么做
文中把已有的"任务条件"(policy conditioning)方式分成三档:
档 1:one-hot 任务编号
- 早期做法:每个任务给个 ID 编号,模型按编号查表执行。
- 缺点:完全没法泛化,新任务=新编号=完全没见过。
档 2:语言条件(language-conditioned)
- 代表作:RT-1、RT-2、PaLM-E 系列。
- 把任务说成自然语言:"move pepsi can near rxbar blueberry"。
- 优点:能泛化"换种说法"——同一个任务你换措辞它也认。
- 缺点:对新动作类型不敏感。"折毛巾"和"挪罐子"在语言嵌入空间里距离很远,即使动作很像,模型也找不到借鉴对象。论文叫这种情况 under-specified on the end state(末态欠定)——光说"折",不知道折成什么样、怎么折。
档 3:目标图条件(goal-image conditioned)
- 代表作:RT-1-Goal、Lynch et al. 2019。
- 给一张"做完后的画面"当目标。
- 优点:能描述语言难表达的细节。
- 缺点:末态过定(over-specified)。整张图里很多像素和任务无关(背景、光照),模型容易被这些干扰带偏;而且要在新场景下提供这张图很麻烦——你得先用某种方法生成"未来的样子"。
档 4:整段视频条件
- 给一段完整动作视频。
- 缺点:太长太复杂,编码进 transformer 很难,学起来也难。
论文画了一张图(Fig 2)总结:横轴是"具体度",从语言(最少)到视频(最多)。RT-Trajectory 想插在中间——比语言具体(说明了走什么轨迹),比视频抽象(不要求逐像素一致)。
所以这一节是想说:现有方案要么模糊得没法学新动作,要么具体得没法跨场景,中间地带是空的。
新想法
一句话:用 2D 轨迹草图(trajectory sketch)当任务描述。
具体长什么样?想象拿着摄像头的初始画面,在上面画一条彩色曲线,曲线的颜色随时间渐变(编码"什么时候走到哪里"),曲线上某些点画圆圈表示"在这里夹紧"或"在这里松开"。
这个表达有几个微妙的好处:
- 是几何层的,不是语义层的。"折毛巾的轨迹"和"挪罐子的轨迹"在像素空间里都是"从 A 弧线到 B",机器人能识别其中的相似性。
- 训练标签不用人工标注。已有的示教数据里都记了机械爪的 3D 位置,把它通过摄像头标定参数投影到 2D 像素坐标就行——叫 hindsight(事后) 是因为是事后回看轨迹再画的。
- 推理时人也能画。给个画图 GUI,鼠标拖一下就行。
- 跟图像生成模型天然兼容。曲线本身就是 RGB 图,理论上可以用 Stable Diffusion 这类东西生成。
类比:之前的任务描述像 GPS 输入"目的地名称"(语言)或者"目的地照片"(目标图),现在变成在地图上画一条路线——既告诉你去哪儿,也告诉你大概走哪条路、哪里转弯。
所以这一节是想说:曲线既具体到能描述动作、又抽象到能跨任务复用,是描述粒度的甜点。
方法分步
整个 pipeline 分三步:训练标签、模型训练、推理时怎么搞到曲线。
第 1 步:Hindsight 轨迹打标签
类比:好比你跑完步把手机轨迹截图——事后回看走了哪条路,就有了一张免费的"答案图"。
输入:一条人类遥操作示教 τ = {(o_t, a_t)},含每帧 RGB 画面 + 机械爪的 3D 位置。
输出:一张和原画面同分辨率的 RGB 图,叫 trajectory sketch。
等等,先慢一拍——什么叫"事后"?因为示教数据已经存在了,机械爪走过的每一步都被记下来。我们只是回头把这些 3D 位置点投到摄像头画面上,画成一条曲线当训练标签。不用人工再标。
具体做法(论文 Fig 3):
(a) 提取 2D 轨迹
- 每一帧拿到机械爪中心的 3D 位置(机器人基座坐标系下)。
- 用摄像头的内外参矩阵投影到像素坐标,得到一串 2D 点。
- 相邻点用直线连起来 → 一条曲线。
- 假设:摄像头和机器人底座在一段示教里不动("stationary manipulation",桌面操作场景这一假设 OK)。
(b) Color Grading(颜色编码)——好比给地图路线"按时间渐变上色",看一眼就知道先走哪段后走哪段。
- 红色通道编码时间进度:值 =
(t+1)/T,T 是这条示教的总长度。曲线一开始红色淡、结尾红色浓,相当于把"速度"和"方向"画进去。 - 绿色通道编码高度:值 =
(h_{t+1} - h_min) / (h_max - h_min),归一化到 0~1。这是 "2.5D" 版本特有的——光看 2D 曲线分不清"机械爪是往里走还是往上抬",把高度塞进绿色通道就能区分。
(c) Interaction Markers(交互标记)——好比在地图上贴俩图钉:这里上车、那里下车。
- 怎么判断机械爪在某一刻"开始抓"还是"开始松"?
- 看夹爪位置的"目标值 vs 实际值"差
δ_t = p̂_t - p_t:如果 δ > 0 且目标位置 > 阈值 ε,说明在用力夹但夹不到位 → 正在抓东西。 - 状态转换的瞬间(前一帧没在抓、这一帧开始抓)就是关键时刻。
- 在该时刻的 2D 像素位置画绿色圆圈(开始抓)或蓝色圆圈(开始松)。
两种最终格式:
- RT-Trajectory (2D):曲线 + 时间颜色 + 圆圈标记(不含高度)。
- RT-Trajectory (2.5D):上述基础上加绿色通道的高度信息。
第 2 步:训练 policy
类比:像让一个原本只会"看图"的学徒,加一张"路线小抄"在旁边——他要学会瞄一眼小抄、再看画面,决定手怎么动。
骨架沿用 RT-1(一个 transformer-based 的 behavior cloning 模型,行为克隆,就是照人类示教抄作业)。
- 输入:6 帧 RGB 历史画面 + trajectory sketch。
- 改动:把 sketch 沿通道维 concat 到每帧 RGB 上(RGB 3 通道 → 加完变 6 通道),用 ImageNet 预训练的 EfficientNet-B3 当 image tokenizer。
- 新增的 3 个输入通道在第一个卷积层的权重初始化为全 0——意思是模型一开始假装小抄不存在(不破坏原本的视觉能力),训练过程中再慢慢学着读它。
- 移除 RT-1 原本用来注入语言的 FiLM 层(因为不用语言了)。
- 损失:标准 behavior cloning,最大化
log P(a_t | o_t, c_traj)。
公式人话翻译:模型看到画面 + 草图,预测下一步该做什么动作;让它的预测尽量贴近示教数据里的真实动作。
第 3 步:推理时怎么搞到 sketch
类比:训练完了,真上战场——这条曲线谁来画?论文给了四种"画师",从最朴素到最自动化都覆盖。
- 人手画(GUI):给个画板,用户对着初始画面拖鼠标。还能选几个像素标"这点高度多少",剩下的线性插值。
- 从人类示教视频抠:用 MediaPipe 检测人手 21 个关键点 → 拇指食指代表夹爪 → 用深度图升到 3D → 重投影到机器人摄像头视角画曲线。
- LLM + Code as Policies:用 GPT-4 写代码生成一串 3D 路径点(原本是给 IK 解算器用的),重投影画成曲线。
- 图像生成模型:用 PaLM-E 风格模型直接生成 sketch 图(输出是 ViT-VQGAN 的 token,detokenize 成图)。
所以这一节是想说:训练标签自动出,推理时曲线来源极其灵活——人画、视频、LLM、图像生成都行,policy 都能用。
关键数字
训练数据规模
- 73K 条真实机器人示教,542 个任务,8 大技能类,17 种厨房物品。
新任务 7 个(机器人训练时没见过)
- Place Fruit(把水果放进容器)
- Upright and Move(先立起再挪走)
- Move within Drawer(在抽屉里挪东西)
- Restock Drawer(把零食精确放到抽屉的特定槽位)
- Pick from Chair(从椅子上拿东西)
- Fold Towel(折毛巾)
- Swivel Chair(推转转椅)
每个任务跑约 64 次评测,总成功率:
| 方法 | 整体成功率 |
|---|---|
| RT-1(语言) | 16.7% |
| RT-2(语言 + 网络规模 VQA) | 11.1% |
| RT-1-Goal(目标图) | 26% |
| RT-Trajectory (2D) | 50% |
| RT-Trajectory (2.5D) | 67% |
逐项细看(Table 4):
| 任务 | RT-Traj (2D) | RT-Traj (2.5D) | RT-1 | RT-2 | RT-1-Goal |
|---|---|---|---|---|---|
| Place Fruit | 75% | 75% | 0% | 33% | 8% |
| Upright and Move | 33% | 50% | 17% | 0% | 0% |
| Move within Drawer | 67% | 100% | 33% | 0% | 17% |
| Restock Drawer | 92% | 67% | 42% | 17% | 42% |
| Pick from Chair | 0% | 38% | 0% | 0% | 17% |
| Fold Towel | 75% | 75% | 0% | 0% | 0% |
| Swivel Chair | 0% | 70% | 17% | 0% | 50% |
几个亮眼细节:
- Pick from Chair:2D 版完全做不来(0%),2.5D 版能做到 38%——因为"从椅子上拿"的高度和桌面物体不同,必须靠绿色通道的高度信息消歧义。
- Move within Drawer:2.5D 版 100%,因为抽屉内部是凹陷的,高度信息至关重要。
- Fold Towel:所有 baseline 都 0%,trajectory 版 75%——折叠这种"非语义新动作"恰好是论文想攻击的痛点。
- Swivel Chair:2D 版 0%,2.5D 版 70%——光看 2D 不知道是"推还是拉",深度信息救场。
人类视频和 LLM 来源的曲线也能用(Table 1):
- 人类视频折毛巾:成功率 75%(IK 直接执行只有 25%)
- LLM 生成开抽屉路径:60%(IK 直接执行 71%——这个略低,论文解释是 LLM 给的是直线 waypoint,IK 直接走更精准;但 RT-Traj 在 Pick 上反而 89% > IK 83%,因为 RT-Traj 能根据物体朝向微调)
所以这一节是想说:数字差距不是 5%、10% 的水平,是从 17% 跳到 67%,这是方法层面的代差。
应该懂的新词
- policy conditioning(策略条件):告诉模型"现在该执行哪个任务"的输入信号。RT-Trajectory 的贡献就是换了一种 conditioning 方式。
- hindsight labeling(事后标签):训练数据已经存在,回头看一遍生成新的标签。这个词在强化学习里很常见(HER、Hindsight Experience Replay),意思是"过去的失败也能当成功来学",这里的用法略有变形,指"过去的轨迹回头投影到画面"。
- end-effector(末端执行器):机械爪的"手"那部分。论文里 trajectory 指的是 end-effector 中心点的运动路径,不是整个机器人。
- camera extrinsics / intrinsics(外参 / 内参):把 3D 世界点投影到 2D 像素的两个矩阵。外参描述摄像头在世界里的位置,内参描述摄像头本身的焦距、像素尺寸等。论文假设这两组参数都已标定。
- behavior cloning(BC):模仿学习里最简单的一种——直接监督学习,让模型的动作分布贴近人类示教。
- FiLM layers(Feature-wise Linear Modulation):RT-1 里用来把语言 embedding 注入视觉特征的机制,这里因为不用语言所以拆掉了。
- VQGAN / ViT-VQGAN:把图像编码成离散 token 的模型。论文里图像生成模型通过预测这些 token 来"画"出 trajectory sketch。
- Code as Policies (CaP):让 LLM 写 Python 代码控制机器人的范式,原本输出是给 IK 解算器的。
- IK(Inverse Kinematics):逆运动学。给定末端目标位姿,反算各个关节该转多少度。
- Fréchet distance(弗雷歇距离):衡量两条曲线相似度的度量。直觉:你和狗各走一条曲线,狗绳能拉多短就是 Fréchet 距离——它在乎的是"对应顺序下的最坏情况",而不是平均距离。论文用它来量化"评测时的轨迹和训练里最像的轨迹差多远"。
所以这一节是想说:术语听起来花哨,核心就三件事——把 3D 投到 2D、用 transformer BC 学、用 Fréchet 量距离。
搞不定的
论文自己列了几个限制,我再加一些读后觉得需要警惕的点。
作者明说的局限
- 假设机器人底座不动。论文只在桌面操作场景做实验。如果底座要移动(mobile manipulation),摄像头视角随之变化,事后投影出来的曲线就不再是同一个像素坐标系下的"轨迹"了。需要扩展到 whole-body control 才能解决。
- policy 只是"尽力"跟随轨迹,不能强制约束。比如你画的曲线绕开了易碎品,但 policy 可能为了完成任务还是会走过去。论文承认需要后续工作支持"硬约束"。
读者应该自己想到的局限
- 依赖摄像头标定。任何一次摄像头位置移动、内参变化都会让 trajectory sketch 失效,因为"曲线"是相对于像素坐标定义的。
- 2D 投影的本质模糊。即使是 2.5D 版本,也只能编码相对高度(h_min 到 h_max 之间归一化),不知道绝对深度。如果新场景的 h_min/h_max 范围和训练数据完全不同,这个表达就漏了。Pick from Chair 2D 版 0%、2.5D 版才 38% 就反映了这种局限。
- 任务表达力受限于"曲线 + 圆圈"。涉及多步骤推理、条件分支("如果东西是玻璃的就轻放")、长时序记忆("先做 A 再做 B")这些任务,轨迹 sketch 表达不出来。
- prompt engineering 是把双刃剑。论文吹"换条曲线就能改行为",但这也意味着实际部署需要试错。Sec 4.2 里他们用 held-out policy 跑很多次找出"最成功的那条曲线"再当 prompt——这在生产环境是个偷懒的做法。
- 跟 RT-2 比胜之不武。RT-2 是语言条件的 VLA,它的强项是"知识泛化"(从网络规模数据学到的语义),而 RT-Trajectory 比的是"动作泛化"。两者在不同维度,11% 这个数字不能简单理解为"RT-Trajectory 比 RT-2 强 6 倍"。
- 数据成本看着低,实际不低。"事后投影"听起来 free,但前提是你已经有 73K 条示教数据。这些数据本身的采集成本是隐形的。
所以这一节是想说:trajectory sketch 是降维打击没错,但它把一类问题(动作泛化)做好了,另一类问题(语义、约束、长程)原封不动。
与别篇关系
直接前作:RT-1
- RT-Trajectory 的 backbone 完全是 RT-1,连数据集都共享。区别只在 conditioning 方式。
- 读 RT-Trajectory 之前最好先理解 RT-1 的 transformer + token 化的输入方式。
对照组:RT-2
- RT-2 是用 PaLM-E 这种 VLM 把语言→动作的 VLA。RT-Trajectory 没用 VLM,但论文里 RT-2 反而比 RT-1 还差(11% vs 17%)——说明 VLM 的语义先验在"新动作"任务上不仅没帮忙,还可能因为"语言距离远"误导了模型。
- 这是 VLA 圈一个有意思的反例:更多语义不一定更好,有时几何信号更直接。
同门:CLIPort、PerAct
- 这一脉是"2D/3D object-centric 表达"。CLIPort 把 CLIP 特征贴到像素上,PerAct 用 voxel grid 表达 3D 动作。论文 Section 2 把它们归入"中间程度具体"的同类工作。RT-Trajectory 跟它们的差别在于:CLIPort/PerAct 还是在描述"目标位置 / 目标体素",RT-Trajectory 描述的是"运动轨迹"。
思想前驱:VIMA、CaP
- VIMA 用多模态 prompt(图 + 文字)当任务条件,RT-Trajectory 等于把这个模态收窄到"画在画面上的曲线"。
- Code as Policies 让 LLM 写代码生成 waypoint,本身可以独立执行。RT-Trajectory 把它降级成"曲线生成器"——LLM 写出的 waypoint 不直接执行,而是画成 sketch 喂给学习的 policy,反而比 IK 直接执行更鲁棒(因为 policy 能根据视觉调整)。
后续影响
- 这条思路启发了一系列 "trajectory-as-prompt" 的工作。后来 2024 年的 RT-H、Magma 等都有"用动作中间表示当桥梁"的影子。
- 也是早期"2D pixel-space prompt"思路的范本,跟同期的 PIVOT、MOO 等可以并读。
所以这一节是想说:在 RT 家族里 RT-Trajectory 是"换 conditioning"那一支,跟"换骨架"(RT-2 加 VLM)和"换数据"(OpenX)是平行的探索方向。
阅读顺序
如果你是初学者,建议这样读:
- Abstract + Fig 1:先看图。论文核心就是"上图:训练时事后投影;下图:推理时人画、视频、LLM、图像生成都能产出曲线"。
- Section 1(Intro)末尾两段:作者明确写"language under-specifies, goal-image over-specifies, we propose middle-ground"——抓住这个对比就抓住了全文的论证骨架。
- Fig 2:横轴具体度的连续谱,把 RT-Trajectory 在中间这件事可视化了。
- Fig 3:理解 trajectory sketch 长什么样、2D vs 2.5D 区别。
- Section 3.2 Hindsight Trajectory Labels:这是方法的灵魂——为什么训练数据"免费"。
- Section 3.3 一段就够:知道是 RT-1 backbone + concat sketch 即可,不用啃细节。
- Section 4.2 + Table 4:看数字。重点对比 RT-1 vs RT-Trajectory(2.5D)——同样的训练数据、同样的骨架,conditioning 一换,从 17% 跳到 67%。
- Section 4.3:曲线的多种来源。这部分对实际工程化最重要。
- Section 4.5 + Fig 9:Fréchet distance 分析。如果你只看这一节会觉得"不就是相似度匹配吗",但作者想说的其实是"评测任务真的是 OOD,不是数据泄漏"。
- Section 5 Limitations:注意自己写的两条限制,比正文更诚实。
如果你赶时间,只读 1+2+4+7 即可知道全部要点。
如果你要复现,重点啃 Section 3.2、Appendix B(GUI 怎么做、视频怎么投影、RT-1-Goal 怎么实现)。
所以这一节是想说:先看图、再看数、最后啃细节。这篇论文图比文字清楚。
FAQ
Q1:为什么 trajectory sketch 比语言更通用?语言不是更抽象吗?
A:抽象不等于通用。语言抽象是因为它把动作压缩成"含义",含义之间不一定线性。"折毛巾"和"挪可乐罐"含义差很远,但动作的几何形状很像。trajectory 直接落到几何,就把这种"语义不像但动作像"的迁移机会暴露给了模型。
Q2:那是不是任何"几何中间表示"都能起这作用?
A:不一定。论文比较的还有目标图(goal image),它也是几何的,但因为信息量太大、太多无关像素,反而比 trajectory sketch 差(26% vs 67%)。trajectory sketch 的妙处是几何 + 稀疏——只画轨迹和交互点,没有干扰像素。
Q3:训练时用机械爪的 3D 位置投到 2D,那推理时人画的曲线和训练里的曲线"分布"一样吗?
A:不完全一样。论文也观察到推理时人画的曲线"more squiggly than the ones for training"(更弯弯绕)。但好在 trajectory 表达粒度比较粗,policy 能容忍这种分布差异。Sec 4.3 用人类视频抠出来的曲线、LLM 生成的直线曲线都能跑,说明鲁棒性还行。
Q4:2.5D 版本只比 2D 多了一个绿色通道编码高度,为什么效果差这么多?
A:因为"高度"在桌面操作里是高频信号——抓东西的高度差几厘米就抓不到,移动时往里走还是往上抬完全是两个动作。2D 版只能靠透视投影"猜"高度,遇到"在桌子之外的高度"(椅子上、抽屉里)就完全失灵。论文 Fig 21 的对比图很直观。
Q5:为什么 RT-2 比 RT-1 还差?这反常识。
A:RT-2 在"语义泛化"(新物体名词、新概念)上确实比 RT-1 强。但这篇论文测的是"新动作泛化",VLM 的语言先验在这件事上没帮忙,反而因为模型更大、训练数据混合更多语义噪声,在不需要语义先验的任务上欠拟合 base 数据。这是个提醒:模型选型要看任务,不是越大越好。
Q6:人画曲线这件事,scale 上得来吗?
A:作者承认这是个限制。论文里他们其实是"prompt engineering"——拿一个 held-out policy 跑很多次找出最成功的那条曲线再当 prompt。生产环境想避免人画,要么靠 LLM 生成、要么靠图像生成模型生成。后者目前还是 noisy。这块是后续工作的重要开口。
Q7:这工作和 diffusion policy 是什么关系?
A:方向不同。Diffusion policy 是换"动作生成机制"(用 diffusion 模型采样动作),骨架是动作头那一侧的改造。RT-Trajectory 是换"任务输入方式",骨架还是 BC + transformer。两者可以叠加:理论上你可以做一个"trajectory sketch 条件 + diffusion 动作头"的模型。
Q8:Fréchet distance 那一节有什么用?跟方法不直接相关啊?
A:是元层面的论证。作者要回答审稿人的潜在质疑:"你说你泛化到新任务了,会不会其实只是新任务的轨迹和训练数据里某些轨迹很像、相当于 retrieval 而不是 generalization?" Fréchet 距离分析说明:评测任务的轨迹和训练数据最近的轨迹也有显著差距(特别是高度维度),所以确实是泛化、不是 retrieval。
所以这一节是想说:这篇论文经得起追问,但每个回答都暴露了一个"下一个论文该做的事"的缺口。
延伸阅读
前置必读(理解骨架)
- RT-1(Brohan et al., 2023b):本文的 transformer 骨架来源。
- BC-Z(Jang et al., 2022):goal-conditioned BC 的代表,本文 baseline 思路从这一脉来。
同期对照(不同 conditioning 思路)
- RT-2(Brohan et al., 2023a):语言 conditioning 的旗舰。
- VIMA(Jiang et al., 2023):多模态 prompt 思路,跟 trajectory sketch 思路相似但更宽。
- VoxPoser(Huang et al., 2023):用 LLM + 3D value map 当条件,是另一种"几何中间表示"。
- CLIPort(Shridhar et al., 2021):2D pixel-space attention 的早期工作。
后续工作(receiving the baton)
- RT-H(Belkhale et al., 2024):在 RT-1 之上加"动作 hierarchy",跟 trajectory sketch 一样想用中间表示当桥梁。
- PIVOT(Nasiriany et al., 2024):把"在画面上画箭头/曲线"作为 VLM 输出的标准 prompt 形式。
- π0、RDT、OpenVLA:当前 VLA 主流,可以看 trajectory sketch 思路在新一代里有没有保留。
工具背景
- MediaPipe(Lugaresi et al., 2019):本文人手姿态估计用的库。
- Code as Policies(Liang et al., 2022):本文 LLM 路径生成的方法。
- ViT-VQGAN(Yu et al., 2022):本文图像生成模型的 backbone。
- PaLM-E(Driess et al., 2023):本文图像生成模型的训练范式。
相似度度量背景
- Fréchet 1906 原文(不强求读,知道是法国数学家定义的曲线相似度即可)。
- Eiter & Mannila 1994:离散版 Fréchet 的算法实现。
所以这一节是想说:把这篇放在 RT 家族 + 多模态 prompt 谱系里看,它是"几何中间表达"思路的一个干净样本。
◼
引用本笔记 / Cite this note
@online{eai_rt_trajectory_2026,
title = {(readable note) RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2023 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/rt-trajectory/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim