End-to-End VLA · Plate Nº 113

RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches

17 min read · 6022 字 · ⭐⭐⭐ · auto 摘要

#diffusion #transformer #language #vision #manipulation #imitation

TL;DR

教机器人做新动作，光说话不够、给一张完成图也不够。这篇论文说：在画面上画一条"手该走的路"——机器人立刻照着做。

所以这一节是想说：把任务表达从"语义层"降到"几何层"，泛化新任务一下就上来了。

这是个什么场景

想象你在教朋友打羽毛球，他学会了"挥拍这个动作"。第二天你让他打网球。如果你只甩一句"打网球啊"——他可能反应不过来，因为"羽毛球"和"网球"在文字上是两件事。但如果你直接拿手比划一道弧线："手要这样划过去"——他立刻就懂了。动作和动作之间，比文字和文字之间更像。

机器人的烦恼一模一样。论文里这只机械臂站在桌前，桌上摆着可乐罐、薯片袋、香蕉。它训练时学过 8 类活儿（捡、放近、立起来、推倒、开抽屉、关抽屉、放进容器、从容器拿出来），共 542 个具体任务、约 73K 条人类遥操作示教。

现在你让它做一件全新的事：把毛巾对折。它没见过"折毛巾"这三个字，也没见过这个动作。但仔细想——"拎起一角拉到另一边"和"把可乐罐挪到百事罐旁边"，在机械爪的运动路径上几乎一模一样：抓住、划一道弧、放下。

问题出在任务是用语言描述的。"折毛巾"和"挪可乐罐"在文字上离得很远，模型没法把已经学会的肌肉记忆迁过来。RT-Trajectory 的核心观察：画一条曲线，比说一句话更接近"动作本身"。

所以这一节是想说：机器人对"新任务"水土不服的根因，是任务描述方式离动作太远。

Plate Nº IRT-Trajectory — 场景示意：这论文要解决的现实问题

之前的人怎么做

文中把已有的"任务条件"（policy conditioning）方式分成三档：

档 1：one-hot 任务编号

早期做法：每个任务给个 ID 编号，模型按编号查表执行。
缺点：完全没法泛化，新任务=新编号=完全没见过。

档 2：语言条件（language-conditioned）

代表作：RT-1、RT-2、PaLM-E 系列。
把任务说成自然语言："move pepsi can near rxbar blueberry"。
优点：能泛化"换种说法"——同一个任务你换措辞它也认。
缺点：对新动作类型不敏感。"折毛巾"和"挪罐子"在语言嵌入空间里距离很远，即使动作很像，模型也找不到借鉴对象。论文叫这种情况 under-specified on the end state（末态欠定）——光说"折"，不知道折成什么样、怎么折。

档 3：目标图条件（goal-image conditioned）

代表作：RT-1-Goal、Lynch et al. 2019。
给一张"做完后的画面"当目标。
优点：能描述语言难表达的细节。
缺点：末态过定（over-specified）。整张图里很多像素和任务无关（背景、光照），模型容易被这些干扰带偏；而且要在新场景下提供这张图很麻烦——你得先用某种方法生成"未来的样子"。

档 4：整段视频条件

给一段完整动作视频。
缺点：太长太复杂，编码进 transformer 很难，学起来也难。

论文画了一张图（Fig 2）总结：横轴是"具体度"，从语言（最少）到视频（最多）。RT-Trajectory 想插在中间——比语言具体（说明了走什么轨迹），比视频抽象（不要求逐像素一致）。

所以这一节是想说：现有方案要么模糊得没法学新动作，要么具体得没法跨场景，中间地带是空的。

新想法

一句话：用 2D 轨迹草图（trajectory sketch）当任务描述。

具体长什么样？想象拿着摄像头的初始画面，在上面画一条彩色曲线，曲线的颜色随时间渐变（编码"什么时候走到哪里"），曲线上某些点画圆圈表示"在这里夹紧"或"在这里松开"。

这个表达有几个微妙的好处：

是几何层的，不是语义层的。"折毛巾的轨迹"和"挪罐子的轨迹"在像素空间里都是"从 A 弧线到 B"，机器人能识别其中的相似性。
训练标签不用人工标注。已有的示教数据里都记了机械爪的 3D 位置，把它通过摄像头标定参数投影到 2D 像素坐标就行——叫 hindsight（事后） 是因为是事后回看轨迹再画的。
推理时人也能画。给个画图 GUI，鼠标拖一下就行。
跟图像生成模型天然兼容。曲线本身就是 RGB 图，理论上可以用 Stable Diffusion 这类东西生成。

类比：之前的任务描述像 GPS 输入"目的地名称"（语言）或者"目的地照片"（目标图），现在变成在地图上画一条路线——既告诉你去哪儿，也告诉你大概走哪条路、哪里转弯。

所以这一节是想说：曲线既具体到能描述动作、又抽象到能跨任务复用，是描述粒度的甜点。

方法分步

整个 pipeline 分三步：训练标签、模型训练、推理时怎么搞到曲线。

第 1 步：Hindsight 轨迹打标签

类比：好比你跑完步把手机轨迹截图——事后回看走了哪条路，就有了一张免费的"答案图"。

输入：一条人类遥操作示教 τ = {(o_t, a_t)}，含每帧 RGB 画面 + 机械爪的 3D 位置。输出：一张和原画面同分辨率的 RGB 图，叫 trajectory sketch。

等等，先慢一拍——什么叫"事后"？因为示教数据已经存在了，机械爪走过的每一步都被记下来。我们只是回头把这些 3D 位置点投到摄像头画面上，画成一条曲线当训练标签。不用人工再标。

具体做法（论文 Fig 3）：

(a) 提取 2D 轨迹

每一帧拿到机械爪中心的 3D 位置（机器人基座坐标系下）。
用摄像头的内外参矩阵投影到像素坐标，得到一串 2D 点。
相邻点用直线连起来 → 一条曲线。
假设：摄像头和机器人底座在一段示教里不动（"stationary manipulation"，桌面操作场景这一假设 OK）。

(b) Color Grading（颜色编码）——好比给地图路线"按时间渐变上色"，看一眼就知道先走哪段后走哪段。

红色通道编码时间进度：值 = (t+1)/T，T 是这条示教的总长度。曲线一开始红色淡、结尾红色浓，相当于把"速度"和"方向"画进去。
绿色通道编码高度：值 = (h_{t+1} - h_min) / (h_max - h_min)，归一化到 0~1。这是 "2.5D" 版本特有的——光看 2D 曲线分不清"机械爪是往里走还是往上抬"，把高度塞进绿色通道就能区分。

(c) Interaction Markers（交互标记）——好比在地图上贴俩图钉：这里上车、那里下车。

怎么判断机械爪在某一刻"开始抓"还是"开始松"？
看夹爪位置的"目标值 vs 实际值"差 δ_t = p̂_t - p_t：如果 δ > 0 且目标位置 > 阈值 ε，说明在用力夹但夹不到位 → 正在抓东西。
状态转换的瞬间（前一帧没在抓、这一帧开始抓）就是关键时刻。
在该时刻的 2D 像素位置画绿色圆圈（开始抓）或蓝色圆圈（开始松）。

两种最终格式：

RT-Trajectory (2D)：曲线 + 时间颜色 + 圆圈标记（不含高度）。
RT-Trajectory (2.5D)：上述基础上加绿色通道的高度信息。

第 2 步：训练 policy

类比：像让一个原本只会"看图"的学徒，加一张"路线小抄"在旁边——他要学会瞄一眼小抄、再看画面，决定手怎么动。

骨架沿用 RT-1（一个 transformer-based 的 behavior cloning 模型，行为克隆，就是照人类示教抄作业）。

输入：6 帧 RGB 历史画面 + trajectory sketch。
改动：把 sketch 沿通道维 concat 到每帧 RGB 上（RGB 3 通道 → 加完变 6 通道），用 ImageNet 预训练的 EfficientNet-B3 当 image tokenizer。
新增的 3 个输入通道在第一个卷积层的权重初始化为全 0——意思是模型一开始假装小抄不存在（不破坏原本的视觉能力），训练过程中再慢慢学着读它。
移除 RT-1 原本用来注入语言的 FiLM 层（因为不用语言了）。
损失：标准 behavior cloning，最大化 log P(a_t | o_t, c_traj)。

公式人话翻译：模型看到画面 + 草图，预测下一步该做什么动作；让它的预测尽量贴近示教数据里的真实动作。

第 3 步：推理时怎么搞到 sketch

类比：训练完了，真上战场——这条曲线谁来画？论文给了四种"画师"，从最朴素到最自动化都覆盖。

人手画（GUI）：给个画板，用户对着初始画面拖鼠标。还能选几个像素标"这点高度多少"，剩下的线性插值。
从人类示教视频抠：用 MediaPipe 检测人手 21 个关键点 → 拇指食指代表夹爪 → 用深度图升到 3D → 重投影到机器人摄像头视角画曲线。
LLM + Code as Policies：用 GPT-4 写代码生成一串 3D 路径点（原本是给 IK 解算器用的），重投影画成曲线。
图像生成模型：用 PaLM-E 风格模型直接生成 sketch 图（输出是 ViT-VQGAN 的 token，detokenize 成图）。

所以这一节是想说：训练标签自动出，推理时曲线来源极其灵活——人画、视频、LLM、图像生成都行，policy 都能用。

关键数字

训练数据规模

73K 条真实机器人示教，542 个任务，8 大技能类，17 种厨房物品。

新任务 7 个（机器人训练时没见过）

Place Fruit（把水果放进容器）
Upright and Move（先立起再挪走）
Move within Drawer（在抽屉里挪东西）
Restock Drawer（把零食精确放到抽屉的特定槽位）
Pick from Chair（从椅子上拿东西）
Fold Towel（折毛巾）
Swivel Chair（推转转椅）

每个任务跑约 64 次评测，总成功率：

方法	整体成功率
RT-1（语言）	16.7%
RT-2（语言 + 网络规模 VQA）	11.1%
RT-1-Goal（目标图）	26%
RT-Trajectory (2D)	50%
RT-Trajectory (2.5D)	67%

逐项细看（Table 4）：

任务	RT-Traj (2D)	RT-Traj (2.5D)	RT-1	RT-2	RT-1-Goal
Place Fruit	75%	75%	0%	33%	8%
Upright and Move	33%	50%	17%	0%	0%
Move within Drawer	67%	100%	33%	0%	17%
Restock Drawer	92%	67%	42%	17%	42%
Pick from Chair	0%	38%	0%	0%	17%
Fold Towel	75%	75%	0%	0%	0%
Swivel Chair	0%	70%	17%	0%	50%

几个亮眼细节：

Pick from Chair：2D 版完全做不来（0%），2.5D 版能做到 38%——因为"从椅子上拿"的高度和桌面物体不同，必须靠绿色通道的高度信息消歧义。
Move within Drawer：2.5D 版 100%，因为抽屉内部是凹陷的，高度信息至关重要。
Fold Towel：所有 baseline 都 0%，trajectory 版 75%——折叠这种"非语义新动作"恰好是论文想攻击的痛点。
Swivel Chair：2D 版 0%，2.5D 版 70%——光看 2D 不知道是"推还是拉"，深度信息救场。

人类视频和 LLM 来源的曲线也能用（Table 1）：

人类视频折毛巾：成功率 75%（IK 直接执行只有 25%）
LLM 生成开抽屉路径：60%（IK 直接执行 71%——这个略低，论文解释是 LLM 给的是直线 waypoint，IK 直接走更精准；但 RT-Traj 在 Pick 上反而 89% > IK 83%，因为 RT-Traj 能根据物体朝向微调）

所以这一节是想说：数字差距不是 5%、10% 的水平，是从 17% 跳到 67%，这是方法层面的代差。

应该懂的新词

policy conditioning（策略条件）：告诉模型"现在该执行哪个任务"的输入信号。RT-Trajectory 的贡献就是换了一种 conditioning 方式。
hindsight labeling（事后标签）：训练数据已经存在，回头看一遍生成新的标签。这个词在强化学习里很常见（HER、Hindsight Experience Replay），意思是"过去的失败也能当成功来学"，这里的用法略有变形，指"过去的轨迹回头投影到画面"。
end-effector（末端执行器）：机械爪的"手"那部分。论文里 trajectory 指的是 end-effector 中心点的运动路径，不是整个机器人。
camera extrinsics / intrinsics（外参 / 内参）：把 3D 世界点投影到 2D 像素的两个矩阵。外参描述摄像头在世界里的位置，内参描述摄像头本身的焦距、像素尺寸等。论文假设这两组参数都已标定。
behavior cloning（BC）：模仿学习里最简单的一种——直接监督学习，让模型的动作分布贴近人类示教。
FiLM layers（Feature-wise Linear Modulation）：RT-1 里用来把语言 embedding 注入视觉特征的机制，这里因为不用语言所以拆掉了。
VQGAN / ViT-VQGAN：把图像编码成离散 token 的模型。论文里图像生成模型通过预测这些 token 来"画"出 trajectory sketch。
Code as Policies (CaP)：让 LLM 写 Python 代码控制机器人的范式，原本输出是给 IK 解算器的。
IK（Inverse Kinematics）：逆运动学。给定末端目标位姿，反算各个关节该转多少度。
Fréchet distance（弗雷歇距离）：衡量两条曲线相似度的度量。直觉：你和狗各走一条曲线，狗绳能拉多短就是 Fréchet 距离——它在乎的是"对应顺序下的最坏情况"，而不是平均距离。论文用它来量化"评测时的轨迹和训练里最像的轨迹差多远"。

所以这一节是想说：术语听起来花哨，核心就三件事——把 3D 投到 2D、用 transformer BC 学、用 Fréchet 量距离。

搞不定的

论文自己列了几个限制，我再加一些读后觉得需要警惕的点。

作者明说的局限

假设机器人底座不动。论文只在桌面操作场景做实验。如果底座要移动（mobile manipulation），摄像头视角随之变化，事后投影出来的曲线就不再是同一个像素坐标系下的"轨迹"了。需要扩展到 whole-body control 才能解决。
policy 只是"尽力"跟随轨迹，不能强制约束。比如你画的曲线绕开了易碎品，但 policy 可能为了完成任务还是会走过去。论文承认需要后续工作支持"硬约束"。

读者应该自己想到的局限

依赖摄像头标定。任何一次摄像头位置移动、内参变化都会让 trajectory sketch 失效，因为"曲线"是相对于像素坐标定义的。
2D 投影的本质模糊。即使是 2.5D 版本，也只能编码相对高度（h_min 到 h_max 之间归一化），不知道绝对深度。如果新场景的 h_min/h_max 范围和训练数据完全不同，这个表达就漏了。Pick from Chair 2D 版 0%、2.5D 版才 38% 就反映了这种局限。
任务表达力受限于"曲线 + 圆圈"。涉及多步骤推理、条件分支（"如果东西是玻璃的就轻放"）、长时序记忆（"先做 A 再做 B"）这些任务，轨迹 sketch 表达不出来。
prompt engineering 是把双刃剑。论文吹"换条曲线就能改行为"，但这也意味着实际部署需要试错。Sec 4.2 里他们用 held-out policy 跑很多次找出"最成功的那条曲线"再当 prompt——这在生产环境是个偷懒的做法。
跟 RT-2 比胜之不武。RT-2 是语言条件的 VLA，它的强项是"知识泛化"（从网络规模数据学到的语义），而 RT-Trajectory 比的是"动作泛化"。两者在不同维度，11% 这个数字不能简单理解为"RT-Trajectory 比 RT-2 强 6 倍"。
数据成本看着低，实际不低。"事后投影"听起来 free，但前提是你已经有 73K 条示教数据。这些数据本身的采集成本是隐形的。

所以这一节是想说：trajectory sketch 是降维打击没错，但它把一类问题（动作泛化）做好了，另一类问题（语义、约束、长程）原封不动。

与别篇关系

直接前作：RT-1

RT-Trajectory 的 backbone 完全是 RT-1，连数据集都共享。区别只在 conditioning 方式。
读 RT-Trajectory 之前最好先理解 RT-1 的 transformer + token 化的输入方式。

对照组：RT-2

RT-2 是用 PaLM-E 这种 VLM 把语言→动作的 VLA。RT-Trajectory 没用 VLM，但论文里 RT-2 反而比 RT-1 还差（11% vs 17%）——说明 VLM 的语义先验在"新动作"任务上不仅没帮忙，还可能因为"语言距离远"误导了模型。
这是 VLA 圈一个有意思的反例：更多语义不一定更好，有时几何信号更直接。

同门：CLIPort、PerAct

这一脉是"2D/3D object-centric 表达"。CLIPort 把 CLIP 特征贴到像素上，PerAct 用 voxel grid 表达 3D 动作。论文 Section 2 把它们归入"中间程度具体"的同类工作。RT-Trajectory 跟它们的差别在于：CLIPort/PerAct 还是在描述"目标位置 / 目标体素"，RT-Trajectory 描述的是"运动轨迹"。

思想前驱：VIMA、CaP

VIMA 用多模态 prompt（图 + 文字）当任务条件，RT-Trajectory 等于把这个模态收窄到"画在画面上的曲线"。
Code as Policies 让 LLM 写代码生成 waypoint，本身可以独立执行。RT-Trajectory 把它降级成"曲线生成器"——LLM 写出的 waypoint 不直接执行，而是画成 sketch 喂给学习的 policy，反而比 IK 直接执行更鲁棒（因为 policy 能根据视觉调整）。

后续影响

这条思路启发了一系列 "trajectory-as-prompt" 的工作。后来 2024 年的 RT-H、Magma 等都有"用动作中间表示当桥梁"的影子。
也是早期"2D pixel-space prompt"思路的范本，跟同期的 PIVOT、MOO 等可以并读。

所以这一节是想说：在 RT 家族里 RT-Trajectory 是"换 conditioning"那一支，跟"换骨架"（RT-2 加 VLM）和"换数据"（OpenX）是平行的探索方向。

阅读顺序

如果你是初学者，建议这样读：

Abstract + Fig 1：先看图。论文核心就是"上图：训练时事后投影；下图：推理时人画、视频、LLM、图像生成都能产出曲线"。
Section 1（Intro）末尾两段：作者明确写"language under-specifies, goal-image over-specifies, we propose middle-ground"——抓住这个对比就抓住了全文的论证骨架。
Fig 2：横轴具体度的连续谱，把 RT-Trajectory 在中间这件事可视化了。
Fig 3：理解 trajectory sketch 长什么样、2D vs 2.5D 区别。
Section 3.2 Hindsight Trajectory Labels：这是方法的灵魂——为什么训练数据"免费"。
Section 3.3 一段就够：知道是 RT-1 backbone + concat sketch 即可，不用啃细节。
Section 4.2 + Table 4：看数字。重点对比 RT-1 vs RT-Trajectory(2.5D)——同样的训练数据、同样的骨架，conditioning 一换，从 17% 跳到 67%。
Section 4.3：曲线的多种来源。这部分对实际工程化最重要。
Section 4.5 + Fig 9：Fréchet distance 分析。如果你只看这一节会觉得"不就是相似度匹配吗"，但作者想说的其实是"评测任务真的是 OOD，不是数据泄漏"。
Section 5 Limitations：注意自己写的两条限制，比正文更诚实。

如果你赶时间，只读 1+2+4+7 即可知道全部要点。

如果你要复现，重点啃 Section 3.2、Appendix B（GUI 怎么做、视频怎么投影、RT-1-Goal 怎么实现）。

所以这一节是想说：先看图、再看数、最后啃细节。这篇论文图比文字清楚。

FAQ

Q1：为什么 trajectory sketch 比语言更通用？语言不是更抽象吗？

A：抽象不等于通用。语言抽象是因为它把动作压缩成"含义"，含义之间不一定线性。"折毛巾"和"挪可乐罐"含义差很远，但动作的几何形状很像。trajectory 直接落到几何，就把这种"语义不像但动作像"的迁移机会暴露给了模型。

Q2：那是不是任何"几何中间表示"都能起这作用？

A：不一定。论文比较的还有目标图（goal image），它也是几何的，但因为信息量太大、太多无关像素，反而比 trajectory sketch 差（26% vs 67%）。trajectory sketch 的妙处是几何 + 稀疏——只画轨迹和交互点，没有干扰像素。

Q3：训练时用机械爪的 3D 位置投到 2D，那推理时人画的曲线和训练里的曲线"分布"一样吗？

A：不完全一样。论文也观察到推理时人画的曲线"more squiggly than the ones for training"（更弯弯绕）。但好在 trajectory 表达粒度比较粗，policy 能容忍这种分布差异。Sec 4.3 用人类视频抠出来的曲线、LLM 生成的直线曲线都能跑，说明鲁棒性还行。

Q4：2.5D 版本只比 2D 多了一个绿色通道编码高度，为什么效果差这么多？

A：因为"高度"在桌面操作里是高频信号——抓东西的高度差几厘米就抓不到，移动时往里走还是往上抬完全是两个动作。2D 版只能靠透视投影"猜"高度，遇到"在桌子之外的高度"（椅子上、抽屉里）就完全失灵。论文 Fig 21 的对比图很直观。

Q5：为什么 RT-2 比 RT-1 还差？这反常识。

A：RT-2 在"语义泛化"（新物体名词、新概念）上确实比 RT-1 强。但这篇论文测的是"新动作泛化"，VLM 的语言先验在这件事上没帮忙，反而因为模型更大、训练数据混合更多语义噪声，在不需要语义先验的任务上欠拟合 base 数据。这是个提醒：模型选型要看任务，不是越大越好。

Q6：人画曲线这件事，scale 上得来吗？

A：作者承认这是个限制。论文里他们其实是"prompt engineering"——拿一个 held-out policy 跑很多次找出最成功的那条曲线再当 prompt。生产环境想避免人画，要么靠 LLM 生成、要么靠图像生成模型生成。后者目前还是 noisy。这块是后续工作的重要开口。

Q7：这工作和 diffusion policy 是什么关系？

A：方向不同。Diffusion policy 是换"动作生成机制"（用 diffusion 模型采样动作），骨架是动作头那一侧的改造。RT-Trajectory 是换"任务输入方式"，骨架还是 BC + transformer。两者可以叠加：理论上你可以做一个"trajectory sketch 条件 + diffusion 动作头"的模型。

Q8：Fréchet distance 那一节有什么用？跟方法不直接相关啊？

A：是元层面的论证。作者要回答审稿人的潜在质疑："你说你泛化到新任务了，会不会其实只是新任务的轨迹和训练数据里某些轨迹很像、相当于 retrieval 而不是 generalization？" Fréchet 距离分析说明：评测任务的轨迹和训练数据最近的轨迹也有显著差距（特别是高度维度），所以确实是泛化、不是 retrieval。

所以这一节是想说：这篇论文经得起追问，但每个回答都暴露了一个"下一个论文该做的事"的缺口。

延伸阅读

前置必读（理解骨架）

RT-1（Brohan et al., 2023b）：本文的 transformer 骨架来源。
BC-Z（Jang et al., 2022）：goal-conditioned BC 的代表，本文 baseline 思路从这一脉来。

同期对照（不同 conditioning 思路）

RT-2（Brohan et al., 2023a）：语言 conditioning 的旗舰。
VIMA（Jiang et al., 2023）：多模态 prompt 思路，跟 trajectory sketch 思路相似但更宽。
VoxPoser（Huang et al., 2023）：用 LLM + 3D value map 当条件，是另一种"几何中间表示"。
CLIPort（Shridhar et al., 2021）：2D pixel-space attention 的早期工作。

后续工作（receiving the baton）

RT-H（Belkhale et al., 2024）：在 RT-1 之上加"动作 hierarchy"，跟 trajectory sketch 一样想用中间表示当桥梁。
PIVOT（Nasiriany et al., 2024）：把"在画面上画箭头/曲线"作为 VLM 输出的标准 prompt 形式。
π0、RDT、OpenVLA：当前 VLA 主流，可以看 trajectory sketch 思路在新一代里有没有保留。

工具背景

MediaPipe（Lugaresi et al., 2019）：本文人手姿态估计用的库。
Code as Policies（Liang et al., 2022）：本文 LLM 路径生成的方法。
ViT-VQGAN（Yu et al., 2022）：本文图像生成模型的 backbone。
PaLM-E（Driess et al., 2023）：本文图像生成模型的训练范式。

相似度度量背景

Fréchet 1906 原文（不强求读，知道是法国数学家定义的曲线相似度即可）。
Eiter & Mannila 1994：离散版 Fréchet 的算法实现。

所以这一节是想说：把这篇放在 RT 家族 + 多模态 prompt 谱系里看，它是"几何中间表达"思路的一个干净样本。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_rt_trajectory_2026,
  title       = {(readable note) RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/rt-trajectory/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)