回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
End-to-End VLA · Plate Nº 121

SpatialVLA

6 min read · 2096 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

教机器人两件事:用普通摄像头也能看出远近;常用动作存成肌肉记忆,不用每次重新算。

这是个什么场景

闭上一只眼睛去拿桌上的杯子试试看 —— 你会发现手伸过去的时候要么撞到杯子要么差几厘米,因为你少了一只眼睛带来的"立体感"。机器人面对的就是这个困境:摄像头给它一张平面照片,它得猜杯子到底在哪。

再想想你自己每天的动作:从冰箱拿可乐,90% 的时间手是在做"小幅微调"(往前一点、往左一点),只有偶尔需要"大幅挥臂"。但老办法教机器人时,是把每一档动作幅度都当成同样重要去记 —— 相当于让你背单词时把"the / a / 量子纠缠"用同样大小的卡片记,浪费脑容量。

SpatialVLA 干的就是这两件事:

  • 给机器人装"立体感"(Ego-3D 编码),让它从普通摄像头就能感知"杯子在我前方 30 厘米"。
  • 给机器人建"动作的肌肉记忆"(Adaptive Action Grids),常做的小动作存得细,不常做的大动作存得粗。
SpatialVLA — 场景示意:这论文要解决的现实问题
Plate Nº ISpatialVLA — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • RT-2 / OpenVLA 等第一代 VLA:直接把 2D 图像 + 文本指令塞进大模型,让模型输出离散化的动作 token;空间感全靠模型自己从像素里"悟"。
  • 3D 输入流派:用 point cloud 或 voxel 显式喂 3D,效果好但对传感器要求高(要深度相机),泛化到只有 RGB 的场景就掉。
  • 动作离散化方案:早期把每个动作维度均匀分桶(如 256 bin),桶大小固定,导致细动作不够精、粗动作浪费 token。
  • 数据驱动派:靠堆机器人数据(Open X-Embodiment 等)暴力扩规模,不解决表示问题。
  • 共同问题:空间表示弱 + 动作表示僵,跨机器人 / 跨场景迁移就崩。

这篇论文的关键想法

两条线同时优化:

  1. Ego-3D Position Encoding:不是要求传感器给完整 3D,而是从单目 RGB 估计 / 推理出 ego-centric(以机器人自己为原点)的 3D 位置编码,注入到视觉 token 里。让"前后远近"成为一等公民。
  2. Adaptive Action Grids:观察到机器人动作分布不是均匀的(很多动作集中在小幅微调,少量是大动作),所以根据数据分布自适应地划分动作网格,把 token 预算花在常用动作上。

合起来:模型既"看得有立体感"又"出招有肌肉记忆",跨机器人 / 跨任务迁移更稳。

SpatialVLA — 方法示意:核心 pipeline
Plate Nº IISpatialVLA — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一段:视觉端的 3D 化。 类比一下:拿到一张平面照片,给每个像素都贴一张小纸条注明"这块大概离镜头多远"。技术上就是这样 —— 输入普通 RGB 图像,先过视觉编码器拿到 patch token(图像被切成的小块特征),再给每个 token 配一个 ego-3D 位置编码:把 2D 像素位置 + 推断出的深度 / 相对相机位姿信息组合成一个 3D 坐标的嵌入。这样下游的 transformer 看到的不是 "(x,y) pixel",而是 "(x,y,z) in robot frame(机器人自己视角的 3D 坐标)" 的 token。

第二段:动作空间的自适应离散化。 类比一下:做菜时,"加一点点盐"和"狂倒半瓶酱油"出现的频率天差地别 —— 你给厨师的量勺应该在小剂量那段刻度密、大剂量那段刻度疏。技术上就是:在大规模机器人数据上统计每个动作维度(如 dx, dy, dz, droll, ...)的分布,用类似分位数的方法划格子:动作密度高的区段格子细,密度低的区段格子粗。每个动作维度变成一个离散 token id,整条 trajectory(动作序列)就成了一串 action token,可以丢给语言模型当文本预测。

等等,先慢一拍 —— "把动作变成 token" 是什么意思?就是把"机械臂往前推 0.3 厘米"翻译成一个像单词一样的编号(比如 #237 号格子),让模型像写句子一样依次"写出"动作。

第三段:训练。 类比一下:先让一个见过百家厨房的学徒打底子,再到你家厨房做几次熟悉灶台。技术上就是:在大规模多机器人混合数据集(Open X-Embodiment 量级,跨多种机器人本体的公开数据)上预训练,然后在目标任务 / 目标机器人上微调。骨干通常是已有的 VLM(视觉-语言模型,如 PaliGemma 类),加上上述两个模块。

第四段:推理。 类比一下:模型像念稿一样一个 token 一个 token 念出动作,旁边再有个翻译官把 token 翻回真实的速度数值。技术上就是:给定图像 + 自然语言指令,模型滚动输出 action token,再反查 adaptive grid 解码回连续动作,送给机器人控制器执行。具体的滚动长度 / chunk size 需读原文。

实验在做什么

  • 仿真 benchmark:估计在 SimplerEnv / LIBERO 这类标准 VLA 评测上跑成功率(具体数字需读原文)。
  • 真实机器人:跨多种本体(不同夹爪 / 不同自由度)验证迁移能力,看少样本 finetune 效果。
  • 消融:拆掉 Ego-3D 编码看掉多少分;把自适应动作网格换成均匀网格看掉多少分。
  • 跨机器人迁移:在 A 机器人训练,迁移到 B 机器人,比较 SOTA。

核心想验证两点:"3D 编码真的帮到空间任务"+"自适应网格真的比均匀好"。

你应该懂的几个新词 — 4-6 个

  • VLA(Vision-Language-Action):把 VLM(视觉-语言模型)扩展成能输出动作的模型;输入图像 + 文本指令,输出机器人动作。
  • Ego-centric / Ego-3D:以"自己"(机器人 / 摄像头)为原点的坐标系;和 world frame(世界坐标)相对。
  • Position Encoding(位置编码):transformer 本身对位置不敏感,需要额外注入位置信息;这里是把 3D 位置注入。
  • Action Tokenization(动作 tokenization):把连续动作切成离散 token,让语言模型可以像生成文字一样生成动作。
  • Adaptive Grid(自适应网格):根据数据分布动态决定离散化的格子边界,而非均匀划分。
  • Open X-Embodiment:跨本体机器人数据集联盟,VLA 预训练的标准燃料。

它和其他论文什么关系

  • 上游 / 同代:RT-2、OpenVLA、Octo —— SpatialVLA 把它们的架构当起点,针对"空间表示"和"动作表示"两个短板各打一拳。
  • 3D 相关:和 RoboFlamingo / 3D-VLA 等显式 3D 输入路线不同,SpatialVLA 走的是"从 2D 推 3D 编码"的轻量化路线,部署门槛更低。
  • 动作离散化相关:和 BAKU / RT-2 的均匀分桶相比,自适应网格是更细的工程改进。
  • 下游影响:之后的 VLA 论文(π0 系列、各种 follow-up)会把它的 ego-3D 思路当 baseline 之一。

我建议这样读 — 3-4 步

  1. 先读 abstract + intro + 方法图:搞清楚两个模块各自长什么样,画出输入到输出的数据流。
  2. 重点啃 Ego-3D 编码那一节:看它怎么从 2D 弄出 3D 坐标的(是估计深度?还是用 camera intrinsic?),这是最容易混的地方。
  3. 看实验表的消融:把"-Ego3D"和"-AdaptiveGrid"两行的掉分对比,确认两个模块各自的贡献。
  4. 可选:跑一次官方 demo / 对照 OpenVLA 代码 diff,把两个模块的代码实现拎出来读。

为什么值得读

  • VLA 路线的关键节点:在 2025 年这一波 VLA 论文里,SpatialVLA 是把"空间表示"作为一等问题来抓的代表作之一,是理解后续工作的必经站。
  • 两个模块都可复用:Ego-3D 编码 / 自适应动作网格都是"可拆下来塞进自己模型"的组件,不是封闭的整套系统。
  • 工程友好:不要求深度相机 / 不要求 point cloud,只要 RGB + 标定,落地门槛低。
  • 难度合适:⭐⭐⭐⭐ —— 需要懂 VLA 基本盘 + transformer 位置编码,但不涉及很重的 3D 几何数学。

引用本笔记 / Cite this note
BibTeX
@online{eai_spatialvla_2026,
  title       = {(readable note) SpatialVLA},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/spatialvla/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim