End-to-End VLA · Plate Nº 118

OpenVLA-OFT

6 min read · 2105 字 · ⭐⭐⭐ · 短摘要

#diffusion #transformer #language #vision #VLA

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

原版机器人模型一个字一个字念动作，慢还一抖一抖。OpenVLA-OFT 拧开三个开关——一口气说、一段段说、说连续数字——又快又稳。

这是个什么场景

想象你让一个学徒帮你叠衣服。你说"把那件 T 恤叠好放进抽屉"，他得：眼睛看到 T 恤、听懂你的话、然后手动起来。这就是 VLA（Vision-Language-Action，看图 + 听指令 + 出动作的大模型）想做的事。

但前作 OpenVLA 这个学徒有点怪——他动手前要一个字一个字地念出动作口令："肩—膀—抬—高—一—档，肘—弯—曲—两—档……" 念完一句才动一下。而且口令只有 256 档刻度可选（像只有 256 个色块的颜料盒），调不出更细的颜色，叠出来的衣服边角一抖一抖。

OpenVLA-OFT 想让这个学徒：

别念了，心里默想一下整句话直接动手（并行解码）；
别一步一停，一口气想好接下来 8 个动作再去做（动作 chunking）；
别拿 256 档色板凑色，直接说出准确的小数（连续动作表征）。

三个开关合起来，就是这篇论文。

Plate Nº IOpenVLA-OFT — 场景示意：这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

OpenVLA（2024）：把 7B Llama 接上视觉编码器，动作离散化成 256 个 bin，按 token 自回归吐出。能跑，但慢、动作糙、长 horizon 任务掉点。
RT-2、RT-1（Google）：同样是离散 token 化动作，把"动作"当作语言的一部分，由大模型逐步生成。
Diffusion Policy / 3D Diffusion Policy：用扩散模型（diffusion）一次性生成一段连续动作 chunk，但通常没有大语言模型主干。
ACT（Action Chunking Transformer）：早就提出"一次预测一段动作"的 chunking 思路，但规模和泛化能力不如 VLA 路线。
这些工作各自占了"大模型 / chunking / 连续动作"的一两条边，没人系统地把三个开关拆开做消融。

这篇论文的关键想法

把 VLA 微调当成一个有三个独立旋钮的控制台，每个旋钮可单独翻转，互不绑定：

解码方式：自回归 vs 并行（一次性输出整个动作向量/chunk）；
动作粒度：单步 vs chunk（一次预测 H 步动作）；
动作表征：离散 token vs 连续（L1 回归 / 扩散头）。

之前的 VLA 工作多半是"绑死一套"地选，OpenVLA-OFT 的贡献是把三者解耦做对照实验，发现三个开关都开（并行 + chunk + 连续）的组合在推理延迟、轨迹平滑度、成功率上都明显优于原版 OpenVLA，而且不互相打架。

Plate Nº IIOpenVLA-OFT — 方法示意：核心 pipeline

它怎么做的（方法）— 3-4 段

第一段：换"嘴巴"，不换"脑子"。 像给厨师换一把好用的刀，菜谱知识保留。论文复用 OpenVLA 的视觉-语言主干（Llama 系语言模型 + DINOv2/SigLIP 两个视觉编码器），但把负责输出动作的"动作头"换掉。原版动作头把每一维动作切成 256 档，按 token 顺序一个个吐。OFT 提供三种新嘴巴可选：(a) 还用离散 token，但一次性并行吐出整段；(b) L1 回归直接吐连续小数；(c) 扩散头用扩散模型一次画出整段连续动作。

等等，先慢一拍 — token 是什么？ 你可以把 token 想成"模型说话时的一个字"。原版 OpenVLA 把"把胳膊抬 30 度"这种动作翻译成一串字（比如 7 个字代表 7 个关节），然后像写句子一样一个字一个字写出来。

第二段：并行解码——别再排队了。 像翻译员翻译"我饿了"，三个字其实可以同时翻成 "I am hungry"，没必要等"我"翻完才翻"饿"。机器人 7 个关节同一瞬间就是一起动的，前后字之间没有真正的因果关系。OFT 把模型里"必须看前一个字"的限制（causal mask）拆掉，让它一次 forward 同时输出所有维度。推理步数从 O(动作维度 × chunk 长度) 降到 O(1)，具体提升倍数需读原文。

第三段：动作 chunking——一次想好 8 步。 像下棋时一次想清楚接下来的 5 步，而不是每动一颗子都重新算。OFT 让模型一次输出未来 H 步动作（比如 H=8），机器人执行完这 8 步再回头问模型。好处：少问几次，长任务（叠衣服、整理桌面）累积漂移更小；坏处：环境突变时反应慢一拍，靠 H 的大小平衡。

第四段：连续动作 + 微调配方——从色板到调色盘。 离散 256 档像只有 256 块色板，想画淡蓝只能选最接近那块，画出来一格一格阶梯状。换成 L1 回归直接出实数，或扩散头出连续 chunk，轨迹立刻丝滑。论文还给了一份"该怎么训"的配方（学习率、LoRA 还是全参、数据规模），让别人能在自己机器上复现。具体超参需读原文。

实验在做什么

主要在两类基准上测：

LIBERO：仿真环境的 4 套子任务（Spatial / Object / Goal / Long-horizon），目前 VLA 圈对比的标配。
真实机器人任务：双臂操作 / 长 horizon 任务（具体几个 task、什么硬件需读原文）。

对照组通常包含：原版 OpenVLA、Diffusion Policy、可能还有 RT-2-X 之类。指标：成功率、推理延迟（tokens/sec 或 ms/step）、轨迹平滑度（关节加速度 jerk 之类）。

预期看到的结论（基于摘要）：

三个开关都开 ≫ 单开任意一个 ≫ 原版 OpenVLA；
推理速度提升数倍（具体倍数需读原文）；
LIBERO long-horizon 子任务提升最明显（因为 chunking 减少了累积漂移）。

你应该懂的几个新词 — 4-6 个

VLA（Vision-Language-Action）：把"看图 + 听语言指令 + 输出机器人动作"塞进同一个大模型的范式。代表作 RT-2、OpenVLA。
自回归解码（autoregressive decoding）：像写字一样一个 token 接一个 token 生成，每个 token 看前面所有 token。慢但表达力强。
并行解码（parallel decoding）：一次 forward 同时输出多个 token / 维度，舍弃 token 间依赖换速度。语言模型领域有 non-autoregressive 翻译这条线。
动作 chunking：一次预测未来 H 步动作，不是只预测下一步。ACT 论文最早系统化。
离散动作 token vs 连续动作：前者把每维动作切成 N 个 bin（如 256），用类语言 token 表达；后者直接回归实数 or 用扩散模型生成连续向量。
LIBERO：VLA / 机器人操作领域的仿真基准，4 个子任务套件（Spatial、Object、Goal、Long），测泛化和长 horizon。

它和其他论文什么关系

上游：OpenVLA（前作，本论文的主干）、RT-2（VLA 范式起点）。
平行竞品：π0、Octo、CogACT、HPT —— 各自在 VLA 这条路上做不同优化（数据、架构、动作表征）。
被借鉴的思路：ACT（chunking）、Diffusion Policy（连续动作 + 扩散头）、non-autoregressive 翻译（并行解码）。
后续工作：2025 年下半年起的 VLA 论文很多默认用 chunk + 连续动作做基线，OFT 已经成了 LIBERO 榜单上的常见对照组。

我建议这样读 — 3-4 步

先读 abstract + figure 1，确认"三个开关"是哪三个，以及每个开关单开/全开的效果差别。
直接跳到消融表（ablation table）：看三个开关各自贡献多少（成功率、延迟）。这是这篇论文的核心证据。
看方法节里"并行解码"和"扩散头/L1 头"的具体实现细节；如果你打算复现或者改 VLA，这两段最有用。
最后扫真机实验和 LIBERO 数字，对比 OpenVLA / Diffusion Policy，判断这三个开关在你自己的任务上值不值得搬。

为什么值得读

工程指导意义大：如果你打算微调 VLA 做自己的任务，这篇是 2025 年的"配方手册"——告诉你哪些开关一定要开、哪些可以不开。
方法学示范：把一个复杂系统拆成可独立翻转的开关再做消融，这种"解耦再对照"的研究方式在体感上很值得学。
基准地位：之后看 VLA 相关论文，OFT 大概率会出现在对照组里，先读完省得后面到处补课。
成本低：核心想法三句话能说完，先看完笔记和 figure 1 就有八成理解，剩下两成靠原文消融表。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_openvla_oft_2026,
  title       = {(readable note) OpenVLA-OFT},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/openvla-oft/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)