End-to-End VLA · Plate Nº 114

3D-VLA

6 min read · 2220 字 · ⭐⭐⭐⭐ · 短摘要

#diffusion #transformer #3D #language #vision #RL

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

让机器人除了看平面照片，还能"摸到"立体形状；动手前先在脑里画一张"做完后的样子"，再照着画面去动。

这是个什么场景

你在厨房想拿冰箱后面那瓶被推到深处的酱油。

如果只看一张正面照片，你只能判断"酱油大概在那个区域"，但伸手过去经常会撞到前面的牛奶——因为照片告诉你"它在那儿"，没告诉你"它离你多远"、"它和牛奶谁前谁后"。这就是 2D 图像 的盲点。

但你真实拿酱油时，眼睛看到的是立体世界：深度、遮挡、前后关系都有。这种带有 xyz 三维坐标的"几何快照"，就是 3D 点云（point cloud，一堆带空间坐标的小点拼出的立体形状）。

再想一层：你伸手之前，脑子里其实闪过一个画面——"等下我手指会绕过牛奶、虎口正好夹住酱油瓶颈"。这个 想象出来的下一秒 帮你提前调整路径。3D-VLA 就是要让机器人也学会"看立体 + 先想象 + 再动手"这套组合拳。

之前的人怎么做的 — 3-5 bullet

RT-2、OpenVLA 等主流 VLA：输入是 2D RGB 图像 + 语言指令，直接输出动作 token。深度信息要么靠模型脑补，要么完全没有。
2D 视觉模型：对遮挡、深度、空间关系（"杯子在书后面")的理解不稳，长程操控容易出错。
3D 感知工作（3D-LLM 等）：能理解 3D 场景，但通常停在"问答 / 描述"层级，没接到动作输出。
World Model 路线：有人尝试让模型预测下一帧画面（video prediction），但很少把它和动作生成、3D 几何统一在一个框架里。
缺口：把"3D 输入 + 未来观测预测 + 动作输出"三件事拧成一个 VLA，是这篇论文要补的位。

这篇论文的关键想法

核心三件事：

3D 输入：像把平面菜谱图换成 3D 立体模型。模型不再只看 RGB 平面图，而是把 RGB-D（彩色图 + 深度图）或多视角图像先转成点云，再用 3D encoder（基于 Point Transformer / 3D-LLM 系的编码器，把点云压成一串 token）喂给大模型。
生成未来观测：像下棋时先在脑里推演"如果走这步，棋盘会变成什么样"。模型输出不只是动作，还输出"假如执行这条动作，未来场景会长什么样"——可以是预测的图像、目标姿态点云、或场景描述。
以未来观测为桥接：以前是"听指令 → 直接出招"，现在是"听指令 → 心里画个目标图 → 照着目标图调动作"。多了中间这张想象图，长程任务里就有了可以分段对齐的子目标。

它怎么做的（方法）

第一步：先备菜——构造 3D 训练数据。像厨师备料，没有菜就做不出饭。论文整理 / 标注了一批带 3D 信息的具身数据集（embodied dataset，机器人执行任务时的录像 + 标注），关键字段：RGB-D 帧、相机内外参、目标物体的 3D box（立体包围盒）、动作轨迹、语言指令。这样模型一次能同时见到"语言 + 3D 场景 + 动作 + 未来场景"四件套。具体数据规模和来源需读原文。

第二步：搭骨架——一个主厨带几个副手。主厨是大语言模型（LLM）做 backbone，前面接一个 3D encoder（专门把点云 / RGB-D 翻译成 LLM 听得懂的 token），后面挂多个 head（不同任务的输出口）：一个出动作 token，一个出未来观测（可以是 image token、3D goal token 等多种形态）。一次前向，同时端出"动作"和"想象"两道菜。

等等，先慢一拍——token 是什么？ 你可以把它理解成 LLM 嘴里的"词"。LLM 只会嚼一串串词，所以图像、点云都得先被翻译成"词"才能被吃进去。

第三步：练手——多任务联合训练。像同时教学生三门课，互相补：

语言对齐：让 3D token 和文字对齐（类似 3D-LLM 的做法），好让模型听懂"杯子在书后面"对应哪团点云。
未来观测预测：拿数据集里的下一帧 / 目标帧当标准答案，逼模型练"脑补能力"。
动作回归：拿人类专家的真实操作轨迹当标准答案，练"手稳"。

把"未来观测"挂成 auxiliary loss（辅助损失，相当于副科考试），模型为了考好这门副科，必须在脑子里建一小块"如果我这么动，世界会怎么变"的小型世界模型。

第四步：上场——推理时怎么用。给定语言 + 当前 3D 观测，模型先在内部画一张"未来想象图"，然后基于"现在 + 想象的未来"一起解码出动作。这相当于 具身版的 chain-of-thought（思维链，模型先写中间步骤再出答案）——只是这里的中间步骤不是文字推理，而是一帧想象出来的下一秒场景。

实验在做什么

主要看三类实验（具体数据集、指标、数字需读原文核对）：

3D 推理 / 问答：在 3D 场景理解 benchmark 上对比纯 2D VLA，验证"加 3D 输入"的收益。
目标生成 / 未来观测预测：模型预测的下一帧画面或目标姿态，和真值对比的视觉质量、物理合理性。
下游操控任务：在仿真（如 RLBench / CALVIN 类）或真机上跑长程操控，对比 RT-2 / OpenVLA 的成功率，重点看"长程"和"需要空间推理"的任务。

预期结论：3D 输入 + 未来观测预测两个 ingredient 各自有增益，叠在一起更好；尤其在涉及深度、遮挡、长程的任务上。

你应该懂的几个新词 — 4-6 个

VLA（Vision-Language-Action）：把视觉编码器、语言模型、动作输出头串成一个端到端模型，输入图像 + 语言指令，输出机器人动作 token。
点云（point cloud）：场景的 3D 表示，由一堆 (x, y, z, 可能附带颜色 / 法向量) 的点组成，相当于 3D 版的"像素图"。
RGB-D：普通彩色图（RGB）加上深度图（D，每个像素到相机的距离）；可以由 RGB-D 直接反投影出点云。
未来观测预测（future observation prediction）：模型不只预测动作，还预测"执行后场景的样子"，提供额外监督和规划信号。
3D-LLM 风格 encoder：把 3D 点云压成一串 token 喂给 LLM 的桥梁模块，常见做法是先抽 3D 特征（Point Transformer 等），再做 3D-to-text token 投影。
具身链式思考（embodied chain-of-thought）：把推理中间步骤做成"想象的未来场景"而非纯文本，让模型的思考贴着物理世界走。

它和其他论文什么关系

RT-2 / OpenVLA：3D-VLA 的直接对手；同样是 VLA 范式，区别在输入维度（2D vs 3D）和是否显式生成未来观测。
3D-LLM：本质上是这篇的"上游"——3D-LLM 解决了"3D 场景能不能进 LLM"的问题；3D-VLA 把它扩展到动作输出。
World Model 系（Dreamer / GR-1 / 1X World Model）：都强调"先建未来再做决策"，3D-VLA 的"未来观测"思路和这条线一脉相承，但 backbone 是 LLM 而不是纯 RL agent。
3D Diffusion Policy：从扩散视角处理 3D 输入 + 动作；和 3D-VLA 是不同 backbone 的"3D-aware policy"两条路。

我建议这样读 — 3-4 步

先看一眼 RT-2 / OpenVLA 的方法图，理解 VLA 的标准长相（语言 + 图像 → 动作 token）。这是 3D-VLA 改造的起点。
抓住"加了什么"：对比"普通 VLA"，3D-VLA 加了 (a) 3D encoder (b) 未来观测 head。看论文方法图时，就盯这两个加项。
跳过 3D-LLM 风格的细节：如果你不打算复现，3D encoder 内部结构可以略过，记住"它把点云变 token 给 LLM 吃"就够。
重点看实验里"长程 / 空间任务"那部分：3D 和未来预测的真正价值在这些任务上才显现，短程抓取上和 2D VLA 拉不开差距。

为什么值得读

范式信号：VLA 从 2D 走向 3D 是大势，3D-VLA 是这个方向上比较早、比较完整的一篇。
方法借鉴：把"未来观测"作为辅助任务，是个轻量但有效的设计，可以迁移到其他 policy 训练里。
生态位：处在 VLA × 3D × World Model 三条线交叉点，读完能同时理顺这三块的关系，性价比高。
延伸阅读跳板：读它的对比表能顺手发现 RT-2、OpenVLA、3D-LLM、3D Diffusion Policy 等周边工作，是个好入口节点。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_3d_vla_2026,
  title       = {(readable note) 3D-VLA},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/3d-vla/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)