End-to-End VLA · Plate Nº 123

TraceVLA: Visual Trace Prompting

6 min read · 2136 字 · ⭐⭐⭐ · 短摘要

#transformer #mamba-ssm #language #vision #VLA #VLM

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

机器人的手刚走过哪里？TraceVLA 把这条路径直接画在它看到的照片上，让它看见自己的足迹，再决定下一步往哪动。

这是个什么场景

想象你在玩一个游戏：每隔一秒给你看一张厨房的照片，然后让你说出锅铲下一秒该往哪挥。但有个坑——每张照片都是孤立的，你根本不记得自己上一秒挥到了哪里。结果就是你在锅里来回打转，左边搅了三遍，右边一下没碰。

机器人现在做菜（或者抓积木、放杯子）就是这个状态。它每一步只看当前一帧画面，下一步动作全靠"猜"，因为它不知道自己刚才动过哪。

TraceVLA 的解法很像在锅边架一支荧光笔：锅铲走过哪里，画面上就留一道光痕。机器人下次瞥一眼，当前这张照片里就带着自己刚才的足迹——不用回忆、不用读取历史文件，看图就知道"我已经搅过左边了，该轮到右边"。

关键是：轨迹不是塞进文字（"刚才手到了 (0.3, 0.5, 0.2)"这种坐标），而是直接画进图像里，让模型用看图的方式消化。

之前的人怎么做的 — 3-5 bullet

OpenVLA / RT-2 等单帧 VLA：每步只看当前 RGB 帧，丢掉历史。模型靠 transformer 内部隐式建模时序，但单帧输入下信息其实不全。
多帧堆叠（frame stacking）：把过去 N 帧拼起来一起喂模型。代价：token 数量爆炸，长上下文训练困难，且大量像素冗余。
历史动作文本化：把过去几步的动作 token（如 <a1><a2><a3>）拼到 prompt 里。问题：动作空间和视觉空间分离，模型要做跨模态对齐才能利用历史。
RT-Trajectory（同组思路）：把目标轨迹画在图上作为任务指令。和 TraceVLA 是镜像关系——一个画"未来要走的路"，一个画"过去走过的路"。
隐式记忆模块（如 RNN/Mamba/状态变量）：用循环结构压缩历史。但 VLA 主流是 decoder-only transformer，引入循环架构成本大。

这篇论文的关键想法

像给一个英语很好但听不懂中文的朋友指路——别费劲翻译成中文，直接画地图给他看。

核心洞察：VLM（视觉语言模型，预训练过的"看图王"）已经非常会读图了。那历史信息也别另开通道塞给它，直接画成图喂进去就行。

具体三步：

取最近 K 步机械手的 3D 位置，投影到当前相机画面变成 2D 像素点
把这些点连成一条线（trace，轨迹），叠加渲染在当前 RGB 帧上
把这张"带轨迹的图"当作 VLA 的视觉输入

好处：

零新增 token：还是一张图，不增加模型上下文
零新增模块：现成 VLA 架构和权重直接用
时序信息可视化：模型一眼看出"我已经接近目标"或"我在原地打转"

它怎么做的（方法）— 3-4 段

轨迹生成——像在地图上标"我刚才走过这几个点"。每个时间步 t，回看过去 K 步（K 的具体值需读原文）机械手的 3D 位置，再用相机参数把它们投影成当前画面里的 2D 像素点，按时间顺序连成一条线。颜色或粗细可能编码"多久之前"——越早越淡或越细，像褪色的脚印。

等等，先慢一拍 — "相机外参 + 内参"是什么？简单说：外参告诉你相机站在哪、朝哪看；内参告诉你相机镜头怎么把 3D 世界压扁成 2D 照片。两个加起来才能算出"3D 空间里这个点，在照片上对应哪个像素"。

视觉叠加——像 PS 图层一样把线画上去。把这条 trace 直接渲染到当前 RGB 图上，得到一张"增强图"。这一步是纯绘图，不进梯度，类似数据增强。增强图替换掉原始图作为 VLA 的视觉输入。

模型与训练——抄作业但抄得更聪明。底座大概率是 OpenVLA（同组先前工作）。在带 trace 的图上做 SFT（supervised fine-tuning，监督微调），目标仍是预测下一步动作 token。论文应该会比较：

baseline：原 OpenVLA（无 trace）
TraceVLA：带 trace 的同款模型，同等训练数据 / 步数

推理——边走边画。每步实时计算 trace 叠加到当前帧，喂给模型出动作。推理时多了一个轻量的"画线"步骤，但模型本身前向不变。

实验在做什么

预期评测维度（具体数字需读原文）：

仿真：SIMPLER-Env、LIBERO 等标准 VLA benchmark，对比 OpenVLA / Octo 等基线在成功率上的提升
真机：可能在 WidowX 或 Franka 上做长时序任务（pick-place、stacking、articulated objects）
消融：trace 长度 K 怎么选、trace 视觉风格（颜色 / 粗细 / 透明度）的影响、是否需要历史动作 token 配合
失败模式分析：哪些任务 trace 帮不上忙——比如完全静态的开始阶段，trace 是空的，等价于无 trace

关键问题：trace 在 OOD（分布外）场景的鲁棒性如何？训练时 VLA 没见过画了线的图，靠的是 VLM 预训练的视觉常识——这个迁移能力是论文价值的核心证据。

你应该懂的几个新词 — 4-6 个

VLA（Vision-Language-Action）：把图像 + 语言指令直接映射成机器人动作 token 的大模型，例如 RT-2、OpenVLA。
End-effector（末端执行器）：机械臂最末端那个"手"，通常是夹爪。它的位置/姿态是机器人控制的关键状态。
Visual prompt（视觉提示）：和文字 prompt 对应——通过修改输入图像来引导模型行为，比如画框、画箭头、叠加 mask。
Trace / Trajectory（轨迹）：一系列时序位置点连成的路径。这里指末端执行器在过去 K 步的运动轨迹。
Frame stacking（多帧堆叠）：把多帧图像直接拼在一起喂给模型作为时序输入的朴素做法。
OpenVLA：开源 VLA 底座，TraceVLA 大概率基于它做。详见 learnings/openvla 同名笔记（如果有）。

它和其他论文什么关系

OpenVLA（基础）：TraceVLA 是它的"轻量增强版"——同款模型，输入端改一改就提点。
RT-Trajectory（DeepMind, 2023）：把目标轨迹画在图上作为指令；TraceVLA 把历史轨迹画在图上作为状态。一个朝前看，一个朝后看，思路对偶。
RT-2 / Octo：同样是 VLA，但靠多帧或大规模数据解决时序。TraceVLA 主张"一张图 + 视觉先验"就够了，是更省的方向。
Inner Monologue / Code as Policies：靠 LLM 文字推理处理历史。TraceVLA 选了纯视觉路线，不依赖 LLM 自言自语。
Set-of-Mark prompting（GPT-4V 上的视觉提示技巧）：思路同源——给 VLM 看的图加视觉标记来引导关注点。TraceVLA 是机器人版的 SoM。

我建议这样读 — 3-4 步

先看 fig 1 + method 章节：理解 trace 长什么样、怎么叠到图上。这是全文最直观的部分，看图就懂 80%。
跳到实验表：直接看主结果——TraceVLA vs OpenVLA 在 SIMPLER / LIBERO 的成功率差。如果差距 < 3%，这个 trick 可能不值得；如果 > 10%，就是个真·strong baseline。
读消融：重点看 K 的选择、trace 视觉风格的影响。这决定你自己复现时的超参。
可选：附录的 OOD / 长时序任务：如果 trace 在新场景也能 work，说明 VLM 的视觉先验真的吃下了"线条 = 路径"这个抽象，价值更高。

为什么值得读

方法极简：渲染一条线，没新模块没新数据，是"四两拨千斤"的典型代表。读完你会感叹"为什么之前没人这么干"。
视觉提示在机器人领域的样板：GPT-4V 时代视觉 prompt 已被验证（SoM、ViP-LLaVA 等），TraceVLA 把这套方法论搬到 VLA，思路可迁移到很多 embodied AI 子任务。
对 VLA 时序建模的反思：它隐含一个观点——transformer VLA 内部"看不太懂"自己几步前在干嘛，需要外部把历史显式画给它看。这个观察对后续设计有启发。
复现成本低：如果有 OpenVLA 跑通的环境，加 trace 渲染只要几十行代码，适合作为入门 VLA 改进研究的第一个项目。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_tracevla_2026,
  title       = {(readable note) TraceVLA: Visual Trace Prompting},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/tracevla/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)