回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
End-to-End VLA · Plate Nº 113

RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches

17 min read · 6022 字 · ⭐⭐⭐ · auto 摘要

TL;DR

教机器人做新动作,光说话不够、给一张完成图也不够。这篇论文说:在画面上画一条"手该走的路"——机器人立刻照着做。

所以这一节是想说:把任务表达从"语义层"降到"几何层",泛化新任务一下就上来了。


这是个什么场景

想象你在教朋友打羽毛球,他学会了"挥拍这个动作"。第二天你让他打网球。如果你只甩一句"打网球啊"——他可能反应不过来,因为"羽毛球"和"网球"在文字上是两件事。但如果你直接拿手比划一道弧线:"手要这样划过去"——他立刻就懂了。动作和动作之间,比文字和文字之间更像

机器人的烦恼一模一样。论文里这只机械臂站在桌前,桌上摆着可乐罐、薯片袋、香蕉。它训练时学过 8 类活儿(捡、放近、立起来、推倒、开抽屉、关抽屉、放进容器、从容器拿出来),共 542 个具体任务、约 73K 条人类遥操作示教。

现在你让它做一件全新的事:把毛巾对折。它没见过"折毛巾"这三个字,也没见过这个动作。但仔细想——"拎起一角拉到另一边"和"把可乐罐挪到百事罐旁边",在机械爪的运动路径上几乎一模一样:抓住、划一道弧、放下。

问题出在任务是用语言描述的。"折毛巾"和"挪可乐罐"在文字上离得很远,模型没法把已经学会的肌肉记忆迁过来。RT-Trajectory 的核心观察:画一条曲线,比说一句话更接近"动作本身"

所以这一节是想说:机器人对"新任务"水土不服的根因,是任务描述方式离动作太远。


RT-Trajectory — 场景示意:这论文要解决的现实问题
Plate Nº IRT-Trajectory — 场景示意:这论文要解决的现实问题

之前的人怎么做

文中把已有的"任务条件"(policy conditioning)方式分成三档:

档 1:one-hot 任务编号

  • 早期做法:每个任务给个 ID 编号,模型按编号查表执行。
  • 缺点:完全没法泛化,新任务=新编号=完全没见过。

档 2:语言条件(language-conditioned)

  • 代表作:RT-1、RT-2、PaLM-E 系列。
  • 把任务说成自然语言:"move pepsi can near rxbar blueberry"。
  • 优点:能泛化"换种说法"——同一个任务你换措辞它也认。
  • 缺点:对新动作类型不敏感。"折毛巾"和"挪罐子"在语言嵌入空间里距离很远,即使动作很像,模型也找不到借鉴对象。论文叫这种情况 under-specified on the end state(末态欠定)——光说"折",不知道折成什么样、怎么折。

档 3:目标图条件(goal-image conditioned)

  • 代表作:RT-1-Goal、Lynch et al. 2019。
  • 给一张"做完后的画面"当目标。
  • 优点:能描述语言难表达的细节。
  • 缺点:末态过定(over-specified)。整张图里很多像素和任务无关(背景、光照),模型容易被这些干扰带偏;而且要在新场景下提供这张图很麻烦——你得先用某种方法生成"未来的样子"。

档 4:整段视频条件

  • 给一段完整动作视频。
  • 缺点:太长太复杂,编码进 transformer 很难,学起来也难。

论文画了一张图(Fig 2)总结:横轴是"具体度",从语言(最少)到视频(最多)。RT-Trajectory 想插在中间——比语言具体(说明了走什么轨迹),比视频抽象(不要求逐像素一致)。

所以这一节是想说:现有方案要么模糊得没法学新动作,要么具体得没法跨场景,中间地带是空的。


新想法

一句话:用 2D 轨迹草图(trajectory sketch)当任务描述

具体长什么样?想象拿着摄像头的初始画面,在上面画一条彩色曲线,曲线的颜色随时间渐变(编码"什么时候走到哪里"),曲线上某些点画圆圈表示"在这里夹紧"或"在这里松开"。

这个表达有几个微妙的好处:

  1. 是几何层的,不是语义层的。"折毛巾的轨迹"和"挪罐子的轨迹"在像素空间里都是"从 A 弧线到 B",机器人能识别其中的相似性。
  2. 训练标签不用人工标注。已有的示教数据里都记了机械爪的 3D 位置,把它通过摄像头标定参数投影到 2D 像素坐标就行——叫 hindsight(事后) 是因为是事后回看轨迹再画的。
  3. 推理时人也能画。给个画图 GUI,鼠标拖一下就行。
  4. 跟图像生成模型天然兼容。曲线本身就是 RGB 图,理论上可以用 Stable Diffusion 这类东西生成。

类比:之前的任务描述像 GPS 输入"目的地名称"(语言)或者"目的地照片"(目标图),现在变成在地图上画一条路线——既告诉你去哪儿,也告诉你大概走哪条路、哪里转弯。

所以这一节是想说:曲线既具体到能描述动作、又抽象到能跨任务复用,是描述粒度的甜点。


方法分步

整个 pipeline 分三步:训练标签、模型训练、推理时怎么搞到曲线。

第 1 步:Hindsight 轨迹打标签

类比:好比你跑完步把手机轨迹截图——事后回看走了哪条路,就有了一张免费的"答案图"。

输入:一条人类遥操作示教 τ = {(o_t, a_t)},含每帧 RGB 画面 + 机械爪的 3D 位置。 输出:一张和原画面同分辨率的 RGB 图,叫 trajectory sketch。

等等,先慢一拍——什么叫"事后"?因为示教数据已经存在了,机械爪走过的每一步都被记下来。我们只是回头把这些 3D 位置点投到摄像头画面上,画成一条曲线当训练标签。不用人工再标。

具体做法(论文 Fig 3):

(a) 提取 2D 轨迹

  • 每一帧拿到机械爪中心的 3D 位置(机器人基座坐标系下)。
  • 用摄像头的内外参矩阵投影到像素坐标,得到一串 2D 点。
  • 相邻点用直线连起来 → 一条曲线。
  • 假设:摄像头和机器人底座在一段示教里不动("stationary manipulation",桌面操作场景这一假设 OK)。

(b) Color Grading(颜色编码)——好比给地图路线"按时间渐变上色",看一眼就知道先走哪段后走哪段。

  • 红色通道编码时间进度:值 = (t+1)/T,T 是这条示教的总长度。曲线一开始红色淡、结尾红色浓,相当于把"速度"和"方向"画进去。
  • 绿色通道编码高度:值 = (h_{t+1} - h_min) / (h_max - h_min),归一化到 0~1。这是 "2.5D" 版本特有的——光看 2D 曲线分不清"机械爪是往里走还是往上抬",把高度塞进绿色通道就能区分。

(c) Interaction Markers(交互标记)——好比在地图上贴俩图钉:这里上车、那里下车。

  • 怎么判断机械爪在某一刻"开始抓"还是"开始松"?
  • 看夹爪位置的"目标值 vs 实际值"差 δ_t = p̂_t - p_t:如果 δ > 0 且目标位置 > 阈值 ε,说明在用力夹但夹不到位 → 正在抓东西。
  • 状态转换的瞬间(前一帧没在抓、这一帧开始抓)就是关键时刻。
  • 在该时刻的 2D 像素位置画绿色圆圈(开始抓)或蓝色圆圈(开始松)。

两种最终格式

  • RT-Trajectory (2D):曲线 + 时间颜色 + 圆圈标记(不含高度)。
  • RT-Trajectory (2.5D):上述基础上加绿色通道的高度信息。

第 2 步:训练 policy

类比:像让一个原本只会"看图"的学徒,加一张"路线小抄"在旁边——他要学会瞄一眼小抄、再看画面,决定手怎么动。

骨架沿用 RT-1(一个 transformer-based 的 behavior cloning 模型,行为克隆,就是照人类示教抄作业)。

  • 输入:6 帧 RGB 历史画面 + trajectory sketch。
  • 改动:把 sketch 沿通道维 concat 到每帧 RGB 上(RGB 3 通道 → 加完变 6 通道),用 ImageNet 预训练的 EfficientNet-B3 当 image tokenizer。
  • 新增的 3 个输入通道在第一个卷积层的权重初始化为全 0——意思是模型一开始假装小抄不存在(不破坏原本的视觉能力),训练过程中再慢慢学着读它。
  • 移除 RT-1 原本用来注入语言的 FiLM 层(因为不用语言了)。
  • 损失:标准 behavior cloning,最大化 log P(a_t | o_t, c_traj)

公式人话翻译:模型看到画面 + 草图,预测下一步该做什么动作;让它的预测尽量贴近示教数据里的真实动作。

第 3 步:推理时怎么搞到 sketch

类比:训练完了,真上战场——这条曲线谁来画?论文给了四种"画师",从最朴素到最自动化都覆盖。

  1. 人手画(GUI):给个画板,用户对着初始画面拖鼠标。还能选几个像素标"这点高度多少",剩下的线性插值。
  2. 从人类示教视频抠:用 MediaPipe 检测人手 21 个关键点 → 拇指食指代表夹爪 → 用深度图升到 3D → 重投影到机器人摄像头视角画曲线。
  3. LLM + Code as Policies:用 GPT-4 写代码生成一串 3D 路径点(原本是给 IK 解算器用的),重投影画成曲线。
  4. 图像生成模型:用 PaLM-E 风格模型直接生成 sketch 图(输出是 ViT-VQGAN 的 token,detokenize 成图)。

所以这一节是想说:训练标签自动出,推理时曲线来源极其灵活——人画、视频、LLM、图像生成都行,policy 都能用。


关键数字

训练数据规模

  • 73K 条真实机器人示教,542 个任务,8 大技能类,17 种厨房物品。

新任务 7 个(机器人训练时没见过)

  • Place Fruit(把水果放进容器)
  • Upright and Move(先立起再挪走)
  • Move within Drawer(在抽屉里挪东西)
  • Restock Drawer(把零食精确放到抽屉的特定槽位)
  • Pick from Chair(从椅子上拿东西)
  • Fold Towel(折毛巾)
  • Swivel Chair(推转转椅)

每个任务跑约 64 次评测,总成功率:

方法 整体成功率
RT-1(语言) 16.7%
RT-2(语言 + 网络规模 VQA) 11.1%
RT-1-Goal(目标图) 26%
RT-Trajectory (2D) 50%
RT-Trajectory (2.5D) 67%

逐项细看(Table 4):

任务 RT-Traj (2D) RT-Traj (2.5D) RT-1 RT-2 RT-1-Goal
Place Fruit 75% 75% 0% 33% 8%
Upright and Move 33% 50% 17% 0% 0%
Move within Drawer 67% 100% 33% 0% 17%
Restock Drawer 92% 67% 42% 17% 42%
Pick from Chair 0% 38% 0% 0% 17%
Fold Towel 75% 75% 0% 0% 0%
Swivel Chair 0% 70% 17% 0% 50%

几个亮眼细节:

  • Pick from Chair:2D 版完全做不来(0%),2.5D 版能做到 38%——因为"从椅子上拿"的高度和桌面物体不同,必须靠绿色通道的高度信息消歧义。
  • Move within Drawer:2.5D 版 100%,因为抽屉内部是凹陷的,高度信息至关重要。
  • Fold Towel:所有 baseline 都 0%,trajectory 版 75%——折叠这种"非语义新动作"恰好是论文想攻击的痛点。
  • Swivel Chair:2D 版 0%,2.5D 版 70%——光看 2D 不知道是"推还是拉",深度信息救场。

人类视频和 LLM 来源的曲线也能用(Table 1):

  • 人类视频折毛巾:成功率 75%(IK 直接执行只有 25%)
  • LLM 生成开抽屉路径:60%(IK 直接执行 71%——这个略低,论文解释是 LLM 给的是直线 waypoint,IK 直接走更精准;但 RT-Traj 在 Pick 上反而 89% > IK 83%,因为 RT-Traj 能根据物体朝向微调)

所以这一节是想说:数字差距不是 5%、10% 的水平,是从 17% 跳到 67%,这是方法层面的代差。


应该懂的新词

  • policy conditioning(策略条件):告诉模型"现在该执行哪个任务"的输入信号。RT-Trajectory 的贡献就是换了一种 conditioning 方式。
  • hindsight labeling(事后标签):训练数据已经存在,回头看一遍生成新的标签。这个词在强化学习里很常见(HER、Hindsight Experience Replay),意思是"过去的失败也能当成功来学",这里的用法略有变形,指"过去的轨迹回头投影到画面"。
  • end-effector(末端执行器):机械爪的"手"那部分。论文里 trajectory 指的是 end-effector 中心点的运动路径,不是整个机器人。
  • camera extrinsics / intrinsics(外参 / 内参):把 3D 世界点投影到 2D 像素的两个矩阵。外参描述摄像头在世界里的位置,内参描述摄像头本身的焦距、像素尺寸等。论文假设这两组参数都已标定。
  • behavior cloning(BC):模仿学习里最简单的一种——直接监督学习,让模型的动作分布贴近人类示教。
  • FiLM layers(Feature-wise Linear Modulation):RT-1 里用来把语言 embedding 注入视觉特征的机制,这里因为不用语言所以拆掉了。
  • VQGAN / ViT-VQGAN:把图像编码成离散 token 的模型。论文里图像生成模型通过预测这些 token 来"画"出 trajectory sketch。
  • Code as Policies (CaP):让 LLM 写 Python 代码控制机器人的范式,原本输出是给 IK 解算器的。
  • IK(Inverse Kinematics):逆运动学。给定末端目标位姿,反算各个关节该转多少度。
  • Fréchet distance(弗雷歇距离):衡量两条曲线相似度的度量。直觉:你和狗各走一条曲线,狗绳能拉多短就是 Fréchet 距离——它在乎的是"对应顺序下的最坏情况",而不是平均距离。论文用它来量化"评测时的轨迹和训练里最像的轨迹差多远"。

所以这一节是想说:术语听起来花哨,核心就三件事——把 3D 投到 2D、用 transformer BC 学、用 Fréchet 量距离。


搞不定的

论文自己列了几个限制,我再加一些读后觉得需要警惕的点。

作者明说的局限

  1. 假设机器人底座不动。论文只在桌面操作场景做实验。如果底座要移动(mobile manipulation),摄像头视角随之变化,事后投影出来的曲线就不再是同一个像素坐标系下的"轨迹"了。需要扩展到 whole-body control 才能解决。
  2. policy 只是"尽力"跟随轨迹,不能强制约束。比如你画的曲线绕开了易碎品,但 policy 可能为了完成任务还是会走过去。论文承认需要后续工作支持"硬约束"。

读者应该自己想到的局限

  1. 依赖摄像头标定。任何一次摄像头位置移动、内参变化都会让 trajectory sketch 失效,因为"曲线"是相对于像素坐标定义的。
  2. 2D 投影的本质模糊。即使是 2.5D 版本,也只能编码相对高度(h_min 到 h_max 之间归一化),不知道绝对深度。如果新场景的 h_min/h_max 范围和训练数据完全不同,这个表达就漏了。Pick from Chair 2D 版 0%、2.5D 版才 38% 就反映了这种局限。
  3. 任务表达力受限于"曲线 + 圆圈"。涉及多步骤推理、条件分支("如果东西是玻璃的就轻放")、长时序记忆("先做 A 再做 B")这些任务,轨迹 sketch 表达不出来。
  4. prompt engineering 是把双刃剑。论文吹"换条曲线就能改行为",但这也意味着实际部署需要试错。Sec 4.2 里他们用 held-out policy 跑很多次找出"最成功的那条曲线"再当 prompt——这在生产环境是个偷懒的做法。
  5. 跟 RT-2 比胜之不武。RT-2 是语言条件的 VLA,它的强项是"知识泛化"(从网络规模数据学到的语义),而 RT-Trajectory 比的是"动作泛化"。两者在不同维度,11% 这个数字不能简单理解为"RT-Trajectory 比 RT-2 强 6 倍"。
  6. 数据成本看着低,实际不低。"事后投影"听起来 free,但前提是你已经有 73K 条示教数据。这些数据本身的采集成本是隐形的。

所以这一节是想说:trajectory sketch 是降维打击没错,但它把一类问题(动作泛化)做好了,另一类问题(语义、约束、长程)原封不动。


与别篇关系

直接前作:RT-1

  • RT-Trajectory 的 backbone 完全是 RT-1,连数据集都共享。区别只在 conditioning 方式。
  • 读 RT-Trajectory 之前最好先理解 RT-1 的 transformer + token 化的输入方式。

对照组:RT-2

  • RT-2 是用 PaLM-E 这种 VLM 把语言→动作的 VLA。RT-Trajectory 没用 VLM,但论文里 RT-2 反而比 RT-1 还差(11% vs 17%)——说明 VLM 的语义先验在"新动作"任务上不仅没帮忙,还可能因为"语言距离远"误导了模型。
  • 这是 VLA 圈一个有意思的反例:更多语义不一定更好,有时几何信号更直接。

同门:CLIPort、PerAct

  • 这一脉是"2D/3D object-centric 表达"。CLIPort 把 CLIP 特征贴到像素上,PerAct 用 voxel grid 表达 3D 动作。论文 Section 2 把它们归入"中间程度具体"的同类工作。RT-Trajectory 跟它们的差别在于:CLIPort/PerAct 还是在描述"目标位置 / 目标体素",RT-Trajectory 描述的是"运动轨迹"。

思想前驱:VIMA、CaP

  • VIMA 用多模态 prompt(图 + 文字)当任务条件,RT-Trajectory 等于把这个模态收窄到"画在画面上的曲线"。
  • Code as Policies 让 LLM 写代码生成 waypoint,本身可以独立执行。RT-Trajectory 把它降级成"曲线生成器"——LLM 写出的 waypoint 不直接执行,而是画成 sketch 喂给学习的 policy,反而比 IK 直接执行更鲁棒(因为 policy 能根据视觉调整)。

后续影响

  • 这条思路启发了一系列 "trajectory-as-prompt" 的工作。后来 2024 年的 RT-H、Magma 等都有"用动作中间表示当桥梁"的影子。
  • 也是早期"2D pixel-space prompt"思路的范本,跟同期的 PIVOT、MOO 等可以并读。

所以这一节是想说:在 RT 家族里 RT-Trajectory 是"换 conditioning"那一支,跟"换骨架"(RT-2 加 VLM)和"换数据"(OpenX)是平行的探索方向。


阅读顺序

如果你是初学者,建议这样读:

  1. Abstract + Fig 1:先看图。论文核心就是"上图:训练时事后投影;下图:推理时人画、视频、LLM、图像生成都能产出曲线"。
  2. Section 1(Intro)末尾两段:作者明确写"language under-specifies, goal-image over-specifies, we propose middle-ground"——抓住这个对比就抓住了全文的论证骨架。
  3. Fig 2:横轴具体度的连续谱,把 RT-Trajectory 在中间这件事可视化了。
  4. Fig 3:理解 trajectory sketch 长什么样、2D vs 2.5D 区别。
  5. Section 3.2 Hindsight Trajectory Labels:这是方法的灵魂——为什么训练数据"免费"。
  6. Section 3.3 一段就够:知道是 RT-1 backbone + concat sketch 即可,不用啃细节。
  7. Section 4.2 + Table 4:看数字。重点对比 RT-1 vs RT-Trajectory(2.5D)——同样的训练数据、同样的骨架,conditioning 一换,从 17% 跳到 67%。
  8. Section 4.3:曲线的多种来源。这部分对实际工程化最重要。
  9. Section 4.5 + Fig 9:Fréchet distance 分析。如果你只看这一节会觉得"不就是相似度匹配吗",但作者想说的其实是"评测任务真的是 OOD,不是数据泄漏"。
  10. Section 5 Limitations:注意自己写的两条限制,比正文更诚实。

如果你赶时间,只读 1+2+4+7 即可知道全部要点。

如果你要复现,重点啃 Section 3.2、Appendix B(GUI 怎么做、视频怎么投影、RT-1-Goal 怎么实现)。

所以这一节是想说:先看图、再看数、最后啃细节。这篇论文图比文字清楚。


FAQ

Q1:为什么 trajectory sketch 比语言更通用?语言不是更抽象吗?

A:抽象不等于通用。语言抽象是因为它把动作压缩成"含义",含义之间不一定线性。"折毛巾"和"挪可乐罐"含义差很远,但动作的几何形状很像。trajectory 直接落到几何,就把这种"语义不像但动作像"的迁移机会暴露给了模型。

Q2:那是不是任何"几何中间表示"都能起这作用?

A:不一定。论文比较的还有目标图(goal image),它也是几何的,但因为信息量太大、太多无关像素,反而比 trajectory sketch 差(26% vs 67%)。trajectory sketch 的妙处是几何 + 稀疏——只画轨迹和交互点,没有干扰像素。

Q3:训练时用机械爪的 3D 位置投到 2D,那推理时人画的曲线和训练里的曲线"分布"一样吗?

A:不完全一样。论文也观察到推理时人画的曲线"more squiggly than the ones for training"(更弯弯绕)。但好在 trajectory 表达粒度比较粗,policy 能容忍这种分布差异。Sec 4.3 用人类视频抠出来的曲线、LLM 生成的直线曲线都能跑,说明鲁棒性还行。

Q4:2.5D 版本只比 2D 多了一个绿色通道编码高度,为什么效果差这么多?

A:因为"高度"在桌面操作里是高频信号——抓东西的高度差几厘米就抓不到,移动时往里走还是往上抬完全是两个动作。2D 版只能靠透视投影"猜"高度,遇到"在桌子之外的高度"(椅子上、抽屉里)就完全失灵。论文 Fig 21 的对比图很直观。

Q5:为什么 RT-2 比 RT-1 还差?这反常识。

A:RT-2 在"语义泛化"(新物体名词、新概念)上确实比 RT-1 强。但这篇论文测的是"新动作泛化",VLM 的语言先验在这件事上没帮忙,反而因为模型更大、训练数据混合更多语义噪声,在不需要语义先验的任务上欠拟合 base 数据。这是个提醒:模型选型要看任务,不是越大越好。

Q6:人画曲线这件事,scale 上得来吗?

A:作者承认这是个限制。论文里他们其实是"prompt engineering"——拿一个 held-out policy 跑很多次找出最成功的那条曲线再当 prompt。生产环境想避免人画,要么靠 LLM 生成、要么靠图像生成模型生成。后者目前还是 noisy。这块是后续工作的重要开口。

Q7:这工作和 diffusion policy 是什么关系?

A:方向不同。Diffusion policy 是换"动作生成机制"(用 diffusion 模型采样动作),骨架是动作头那一侧的改造。RT-Trajectory 是换"任务输入方式",骨架还是 BC + transformer。两者可以叠加:理论上你可以做一个"trajectory sketch 条件 + diffusion 动作头"的模型。

Q8:Fréchet distance 那一节有什么用?跟方法不直接相关啊?

A:是元层面的论证。作者要回答审稿人的潜在质疑:"你说你泛化到新任务了,会不会其实只是新任务的轨迹和训练数据里某些轨迹很像、相当于 retrieval 而不是 generalization?" Fréchet 距离分析说明:评测任务的轨迹和训练数据最近的轨迹也有显著差距(特别是高度维度),所以确实是泛化、不是 retrieval。

所以这一节是想说:这篇论文经得起追问,但每个回答都暴露了一个"下一个论文该做的事"的缺口。


延伸阅读

前置必读(理解骨架)

  • RT-1(Brohan et al., 2023b):本文的 transformer 骨架来源。
  • BC-Z(Jang et al., 2022):goal-conditioned BC 的代表,本文 baseline 思路从这一脉来。

同期对照(不同 conditioning 思路)

  • RT-2(Brohan et al., 2023a):语言 conditioning 的旗舰。
  • VIMA(Jiang et al., 2023):多模态 prompt 思路,跟 trajectory sketch 思路相似但更宽。
  • VoxPoser(Huang et al., 2023):用 LLM + 3D value map 当条件,是另一种"几何中间表示"。
  • CLIPort(Shridhar et al., 2021):2D pixel-space attention 的早期工作。

后续工作(receiving the baton)

  • RT-H(Belkhale et al., 2024):在 RT-1 之上加"动作 hierarchy",跟 trajectory sketch 一样想用中间表示当桥梁。
  • PIVOT(Nasiriany et al., 2024):把"在画面上画箭头/曲线"作为 VLM 输出的标准 prompt 形式。
  • π0、RDT、OpenVLA:当前 VLA 主流,可以看 trajectory sketch 思路在新一代里有没有保留。

工具背景

  • MediaPipe(Lugaresi et al., 2019):本文人手姿态估计用的库。
  • Code as Policies(Liang et al., 2022):本文 LLM 路径生成的方法。
  • ViT-VQGAN(Yu et al., 2022):本文图像生成模型的 backbone。
  • PaLM-E(Driess et al., 2023):本文图像生成模型的训练范式。

相似度度量背景

  • Fréchet 1906 原文(不强求读,知道是法国数学家定义的曲线相似度即可)。
  • Eiter & Mannila 1994:离散版 Fréchet 的算法实现。

所以这一节是想说:把这篇放在 RT 家族 + 多模态 prompt 谱系里看,它是"几何中间表达"思路的一个干净样本。

引用本笔记 / Cite this note
BibTeX
@online{eai_rt_trajectory_2026,
  title       = {(readable note) RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/rt-trajectory/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim