End-to-End VLA · Plate Nº 121

SpatialVLA

6 min read · 2096 字 · ⭐⭐⭐⭐ · 短摘要

#transformer #3D #vision #VLA #VLM #dataset

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

教机器人两件事：用普通摄像头也能看出远近；常用动作存成肌肉记忆，不用每次重新算。

这是个什么场景

闭上一只眼睛去拿桌上的杯子试试看 —— 你会发现手伸过去的时候要么撞到杯子要么差几厘米，因为你少了一只眼睛带来的"立体感"。机器人面对的就是这个困境：摄像头给它一张平面照片，它得猜杯子到底在哪。

再想想你自己每天的动作：从冰箱拿可乐，90% 的时间手是在做"小幅微调"（往前一点、往左一点），只有偶尔需要"大幅挥臂"。但老办法教机器人时，是把每一档动作幅度都当成同样重要去记 —— 相当于让你背单词时把"the / a / 量子纠缠"用同样大小的卡片记，浪费脑容量。

SpatialVLA 干的就是这两件事：

给机器人装"立体感"（Ego-3D 编码），让它从普通摄像头就能感知"杯子在我前方 30 厘米"。
给机器人建"动作的肌肉记忆"（Adaptive Action Grids），常做的小动作存得细，不常做的大动作存得粗。

之前的人怎么做的 — 3-5 bullet

RT-2 / OpenVLA 等第一代 VLA：直接把 2D 图像 + 文本指令塞进大模型，让模型输出离散化的动作 token；空间感全靠模型自己从像素里"悟"。
3D 输入流派：用 point cloud 或 voxel 显式喂 3D，效果好但对传感器要求高（要深度相机），泛化到只有 RGB 的场景就掉。
动作离散化方案：早期把每个动作维度均匀分桶（如 256 bin），桶大小固定，导致细动作不够精、粗动作浪费 token。
数据驱动派：靠堆机器人数据（Open X-Embodiment 等）暴力扩规模，不解决表示问题。
共同问题：空间表示弱 + 动作表示僵，跨机器人 / 跨场景迁移就崩。

这篇论文的关键想法

两条线同时优化：

Ego-3D Position Encoding：不是要求传感器给完整 3D，而是从单目 RGB 估计 / 推理出 ego-centric（以机器人自己为原点）的 3D 位置编码，注入到视觉 token 里。让"前后远近"成为一等公民。
Adaptive Action Grids：观察到机器人动作分布不是均匀的（很多动作集中在小幅微调，少量是大动作），所以根据数据分布自适应地划分动作网格，把 token 预算花在常用动作上。

合起来：模型既"看得有立体感"又"出招有肌肉记忆"，跨机器人 / 跨任务迁移更稳。

Plate Nº IISpatialVLA — 方法示意：核心 pipeline

它怎么做的（方法）— 3-4 段

第一段：视觉端的 3D 化。 类比一下：拿到一张平面照片，给每个像素都贴一张小纸条注明"这块大概离镜头多远"。技术上就是这样 —— 输入普通 RGB 图像，先过视觉编码器拿到 patch token（图像被切成的小块特征），再给每个 token 配一个 ego-3D 位置编码：把 2D 像素位置 + 推断出的深度 / 相对相机位姿信息组合成一个 3D 坐标的嵌入。这样下游的 transformer 看到的不是 "(x,y) pixel"，而是 "(x,y,z) in robot frame（机器人自己视角的 3D 坐标）" 的 token。

第二段：动作空间的自适应离散化。 类比一下：做菜时，"加一点点盐"和"狂倒半瓶酱油"出现的频率天差地别 —— 你给厨师的量勺应该在小剂量那段刻度密、大剂量那段刻度疏。技术上就是：在大规模机器人数据上统计每个动作维度（如 dx, dy, dz, droll, ...）的分布，用类似分位数的方法划格子：动作密度高的区段格子细，密度低的区段格子粗。每个动作维度变成一个离散 token id，整条 trajectory（动作序列）就成了一串 action token，可以丢给语言模型当文本预测。

等等，先慢一拍 —— "把动作变成 token" 是什么意思？就是把"机械臂往前推 0.3 厘米"翻译成一个像单词一样的编号（比如 #237 号格子），让模型像写句子一样依次"写出"动作。

第三段：训练。 类比一下：先让一个见过百家厨房的学徒打底子，再到你家厨房做几次熟悉灶台。技术上就是：在大规模多机器人混合数据集（Open X-Embodiment 量级，跨多种机器人本体的公开数据）上预训练，然后在目标任务 / 目标机器人上微调。骨干通常是已有的 VLM（视觉-语言模型，如 PaliGemma 类），加上上述两个模块。

第四段：推理。 类比一下：模型像念稿一样一个 token 一个 token 念出动作，旁边再有个翻译官把 token 翻回真实的速度数值。技术上就是：给定图像 + 自然语言指令，模型滚动输出 action token，再反查 adaptive grid 解码回连续动作，送给机器人控制器执行。具体的滚动长度 / chunk size 需读原文。

实验在做什么

仿真 benchmark：估计在 SimplerEnv / LIBERO 这类标准 VLA 评测上跑成功率（具体数字需读原文）。
真实机器人：跨多种本体（不同夹爪 / 不同自由度）验证迁移能力，看少样本 finetune 效果。
消融：拆掉 Ego-3D 编码看掉多少分；把自适应动作网格换成均匀网格看掉多少分。
跨机器人迁移：在 A 机器人训练，迁移到 B 机器人，比较 SOTA。

核心想验证两点："3D 编码真的帮到空间任务"+"自适应网格真的比均匀好"。

你应该懂的几个新词 — 4-6 个

VLA（Vision-Language-Action）：把 VLM（视觉-语言模型）扩展成能输出动作的模型；输入图像 + 文本指令，输出机器人动作。
Ego-centric / Ego-3D：以"自己"（机器人 / 摄像头）为原点的坐标系；和 world frame（世界坐标）相对。
Position Encoding（位置编码）：transformer 本身对位置不敏感，需要额外注入位置信息；这里是把 3D 位置注入。
Action Tokenization（动作 tokenization）：把连续动作切成离散 token，让语言模型可以像生成文字一样生成动作。
Adaptive Grid（自适应网格）：根据数据分布动态决定离散化的格子边界，而非均匀划分。
Open X-Embodiment：跨本体机器人数据集联盟，VLA 预训练的标准燃料。

它和其他论文什么关系

上游 / 同代：RT-2、OpenVLA、Octo —— SpatialVLA 把它们的架构当起点，针对"空间表示"和"动作表示"两个短板各打一拳。
3D 相关：和 RoboFlamingo / 3D-VLA 等显式 3D 输入路线不同，SpatialVLA 走的是"从 2D 推 3D 编码"的轻量化路线，部署门槛更低。
动作离散化相关：和 BAKU / RT-2 的均匀分桶相比，自适应网格是更细的工程改进。
下游影响：之后的 VLA 论文（π0 系列、各种 follow-up）会把它的 ego-3D 思路当 baseline 之一。

我建议这样读 — 3-4 步

先读 abstract + intro + 方法图：搞清楚两个模块各自长什么样，画出输入到输出的数据流。
重点啃 Ego-3D 编码那一节：看它怎么从 2D 弄出 3D 坐标的（是估计深度？还是用 camera intrinsic？），这是最容易混的地方。
看实验表的消融：把"-Ego3D"和"-AdaptiveGrid"两行的掉分对比，确认两个模块各自的贡献。
可选：跑一次官方 demo / 对照 OpenVLA 代码 diff，把两个模块的代码实现拎出来读。

为什么值得读

VLA 路线的关键节点：在 2025 年这一波 VLA 论文里，SpatialVLA 是把"空间表示"作为一等问题来抓的代表作之一，是理解后续工作的必经站。
两个模块都可复用：Ego-3D 编码 / 自适应动作网格都是"可拆下来塞进自己模型"的组件，不是封闭的整套系统。
工程友好：不要求深度相机 / 不要求 point cloud，只要 RGB + 标定，落地门槛低。
难度合适：⭐⭐⭐⭐ —— 需要懂 VLA 基本盘 + transformer 位置编码，但不涉及很重的 3D 几何数学。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_spatialvla_2026,
  title       = {(readable note) SpatialVLA},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/spatialvla/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)