High-Level Planning · Plate Nº 84

VoxPoser

6 min read · 2090 字 · ⭐⭐⭐⭐ · 短摘要

#diffusion #3D #language #vision #RL #VLA

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

VoxPoser 让大模型给机器人画两张 3D 地图：红色地方要去，灰色地方要躲，机器人照着地图走出动作，全程不训练新模型。

这是个什么场景

你跟外卖小哥说："帮我把这杯奶茶放阳台桌左边，别被狗碰到，路过客厅时离婴儿床远一点。" 小哥会脑补一张房间地图：阳台桌左边画个"目的地"圆圈，狗窝和婴儿床各画个"绕行"红圈，然后挑一条路绕过去。

这条指令里其实混着三种信息：

目标（"放阳台桌左边"——某个 3D 位置要被靠近）
约束（"别被狗碰到"——某些区域要被避开）
偏好（"温的"——速度/姿态等隐性参数）

机器人也要做同样的事，但难点在：以前的做法是工程师提前把每种动词都写成 API（"放在哪""避开什么"），动词没列进去就抓瞎。VoxPoser 换了个思路：让大模型当场对着房间画那张"红圈+绕行圈"的地图，机器人顺着地图走。地图不是预先准备的，是 LLM 现场画的——指令变了，地图就跟着变。

之前的人怎么做的 — 3-5 bullet

行为克隆 / RT-1 / RT-2 路线：收集大量 (语言, 图像, 动作) 三元组，训练端到端策略。问题：每个新动词都要新数据。
SayCan / Code-as-Policies：让 LLM 把指令拆成预定义技能（pick / place / open）的组合。问题：受限于技能库的边界，没见过的组合容易失败。
传统运动规划 + 手写代价函数：每个任务由工程师设计 cost function。问题：写不动，泛化不了。
基于学习的世界模型 + RL：训练成本极高，sim-to-real 难。
关键缺口：上述路线要么"动作端"要么"任务端"硬编码，缺少一个能把开放语言直接映射到 3D 空间几何约束的桥梁。

这篇论文的关键想法

核心 insight 是：LLM 已经懂"靠近/避开/经过/对齐"这些空间动词，VLM 已经懂场景里有哪些物体，缺的只是把这两件事翻译成机器人能用的几何表达。

VoxPoser 的赌注是——这个翻译不需要再训一个模型，而是让 LLM 直接生成"调用 VLM 找物体 + 在 3D 体素网格上写值"的 Python 代码。代码跑完，得到两张体素场（voxel field）：

Affordance map（亲和力场）：值越高代表越想去
Constraint map（代价/约束场）：值越高代表越要避

然后用一个无优化（zero-shot）的运动规划器，在两张场上做梯度下降式的轨迹合成。整个 pipeline 没有任务专属训练。

它怎么做的（方法）— 3-4 段

第一段：LLM 当指挥官，写代码而不是写动作。 给定一条自然语言指令（"把抽屉里的瓶子放到水槽旁边，但别碰到刀"），VoxPoser 把指令喂给 LLM，让它输出一段 Python 代码。代码里会调用一组预定义的"原语函数"：detect(物体名) 返回 VLM 给的 3D 位置 / mask；get_empty_voxel_map() 给一张空体素场；然后 LLM 在这张场上写值——例如在水槽附近写一个高斯峰（吸引），在刀的位置写一个倒高斯（排斥）。

第二段：VLM 当眼睛，把语言锚到几何上。 LLM 不直接看图，它发指令"找瓶子在哪里"，由 OWL-ViT / CLIP 类的开放词汇检测器在 RGB-D 图上定位，再投影回 3D 得到坐标。这一步把"瓶子"这个抽象 token 变成体素索引 (i, j, k)。

第三段：体素场合成 + 规划器执行。 两张体素场叠加成一个总的代价场 C(x) = -Affordance(x) + λ·Constraint(x)。一个简单的轨迹优化器（论文里用 greedy + model predictive control 类思路）从机器人当前位置出发，在场上找一条总代价最小的路径。因为场是稠密的，规划器不需要符号级别的子目标。

第四段：闭环 + 动态更新。 执行过程中，场景变化（被推动的物体、新出现的障碍）通过周期性重新调用 VLM 检测来更新体素场——这让 VoxPoser 在动态环境（人手干扰、物体被移动）里仍能纠错。具体重规划频率和场分辨率需读原文。

实验在做什么

论文在仿真和真机上都做了实验。仿真用 RLBench 等基准评估"自由形式指令"的成功率，与 Code-as-Policies、传统 BC 等基线对比。真机用桌面机械臂（Franka 类）做"开抽屉、避开人手、按颜色分类、跟随移动目标"等任务。

亮点：

任务可以是训练数据里完全没见过的组合（zero-shot 长尾）
在动态干扰下仍能完成（因为场会重算）
与 SayCan 类方法相比，无需预定义技能库

具体成功率数字、任务条数、与各基线的对比百分比需读原文。

你应该懂的几个新词 — 4-6 个

Voxel field（体素场）：把 3D 空间切成均匀小方块（体素），每个方块存一个标量。可以理解成"3D 版的灰度图"。
Affordance map（亲和力图）：值越大代表"这里越值得去/越适合做某动作"。词源来自 Gibson 的 affordance 心理学——"环境对动作的可供性"。
Constraint map（约束/代价图）：和 affordance 互补，值越大代表越要避开。
Open-vocabulary detection（开放词汇检测）：传统检测器只认训练时见过的类（COCO 80 类），开放词汇检测器（OWL-ViT、Detic）能识别任意名词。VoxPoser 靠它把"那个红色的杯子"变成一个 box。
Zero-shot motion planning（零样本运动规划）：规划器本身不需要任务专属训练，给定 cost field 就能搜出轨迹。
LLM-as-code-writer：不让 LLM 直接输出动作，让它输出可执行代码——可读、可调试、可组合。源自 Code-as-Policies。

它和其他论文什么关系

直接前辈：Code-as-Policies（同组工作，2022）——LLM 写代码调技能；VoxPoser 把"技能"换成了"几何场操作"，更细粒度。
同期对照：SayCan（2022）——LLM 选技能，技能库受限；VoxPoser 不要技能库。
共用工具：VLM 检测部分和 PaLM-E、CLIPort、F3RM 等"语言锚到 3D"工作共享思路。
后继发展：ReKep（2024）、Copa、ManipLLM 等把"几何约束"思想推得更远——从体素场扩展到关键点关系、SDF 等表达。
互补路线：扩散策略（Diffusion Policy）、OpenVLA、π0 走的是"训练大策略"路线，VoxPoser 走的是"零训练 + 几何中间表达"路线。两条路线在 2024-2025 开始融合（用 VLM 写 cost、再用扩散采轨迹）。

我建议这样读 — 3-4 步

先看 Figure 1 + Figure 2：理解"LLM 写代码 → 体素场 → 规划器"三段式 pipeline。这是论文的灵魂图，看懂了就抓住 80%。
跳到方法的 prompt 示例：作者一定贴了 LLM 实际收到的 prompt 和输出代码。逐行对照"自然语言 → 代码 → 体素操作"的映射，体会"为什么 LLM 能做这件事"。
看实验里的失败案例：论文一般会分析 LLM 写错代码、VLM 检测错物体的情况——这些是这条路线真实的天花板。 4.（可选）对照 ReKep 论文读：ReKep 是 VoxPoser 的精神续作，对比能看出"体素场 → 关键点约束"的演化逻辑。

为什么值得读

VoxPoser 是 2023 年"LLM + 机器人"路线里少数同时满足三个条件的工作：不训练新策略 / 支持开放语言 / 真机能跑。它的方法论价值不止于具体技术——更在于提出了一种范式："让基础模型生成中间表达（geometric field），而不是直接生成动作"。这个思想在后续两年衍生出一整支研究分支（ReKep、Copa、关键点约束系列），是理解 2024+ 操控研究的钥匙。

对零基础学习者，它还是一篇罕见的"读完就懂为什么 LLM 能帮机器人"的论文——不像端到端 VLA 那样像黑盒，VoxPoser 的每一步都看得见、能 debug、能换组件。即使后来的 SOTA 不再用体素场，理解这套思路对设计任何"基础模型 + 控制"系统都有直接启发。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_voxposer_2026,
  title       = {(readable note) VoxPoser},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/voxposer/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)