回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
End-to-End VLA · Plate Nº 118

OpenVLA-OFT

6 min read · 2105 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

原版机器人模型一个字一个字念动作,慢还一抖一抖。OpenVLA-OFT 拧开三个开关——一口气说、一段段说、说连续数字——又快又稳。

这是个什么场景

想象你让一个学徒帮你叠衣服。你说"把那件 T 恤叠好放进抽屉",他得:眼睛看到 T 恤、听懂你的话、然后手动起来。这就是 VLA(Vision-Language-Action,看图 + 听指令 + 出动作的大模型)想做的事。

但前作 OpenVLA 这个学徒有点怪——他动手前要一个字一个字地念出动作口令:"肩—膀—抬—高—一—档,肘—弯—曲—两—档……" 念完一句才动一下。而且口令只有 256 档刻度可选(像只有 256 个色块的颜料盒),调不出更细的颜色,叠出来的衣服边角一抖一抖。

OpenVLA-OFT 想让这个学徒:

  • 别念了,心里默想一下整句话直接动手(并行解码);
  • 别一步一停,一口气想好接下来 8 个动作再去做(动作 chunking);
  • 别拿 256 档色板凑色,直接说出准确的小数(连续动作表征)。

三个开关合起来,就是这篇论文。

OpenVLA-OFT — 场景示意:这论文要解决的现实问题
Plate Nº IOpenVLA-OFT — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • OpenVLA(2024):把 7B Llama 接上视觉编码器,动作离散化成 256 个 bin,按 token 自回归吐出。能跑,但慢、动作糙、长 horizon 任务掉点。
  • RT-2、RT-1(Google):同样是离散 token 化动作,把"动作"当作语言的一部分,由大模型逐步生成。
  • Diffusion Policy / 3D Diffusion Policy:用扩散模型(diffusion)一次性生成一段连续动作 chunk,但通常没有大语言模型主干。
  • ACT(Action Chunking Transformer):早就提出"一次预测一段动作"的 chunking 思路,但规模和泛化能力不如 VLA 路线。
  • 这些工作各自占了"大模型 / chunking / 连续动作"的一两条边,没人系统地把三个开关拆开做消融。

这篇论文的关键想法

把 VLA 微调当成一个有三个独立旋钮的控制台,每个旋钮可单独翻转,互不绑定:

  1. 解码方式:自回归 vs 并行(一次性输出整个动作向量/chunk);
  2. 动作粒度:单步 vs chunk(一次预测 H 步动作);
  3. 动作表征:离散 token vs 连续(L1 回归 / 扩散头)。

之前的 VLA 工作多半是"绑死一套"地选,OpenVLA-OFT 的贡献是把三者解耦做对照实验,发现三个开关都开(并行 + chunk + 连续)的组合在推理延迟、轨迹平滑度、成功率上都明显优于原版 OpenVLA,而且不互相打架。

OpenVLA-OFT — 方法示意:核心 pipeline
Plate Nº IIOpenVLA-OFT — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一段:换"嘴巴",不换"脑子"。 像给厨师换一把好用的刀,菜谱知识保留。论文复用 OpenVLA 的视觉-语言主干(Llama 系语言模型 + DINOv2/SigLIP 两个视觉编码器),但把负责输出动作的"动作头"换掉。原版动作头把每一维动作切成 256 档,按 token 顺序一个个吐。OFT 提供三种新嘴巴可选:(a) 还用离散 token,但一次性并行吐出整段;(b) L1 回归直接吐连续小数;(c) 扩散头用扩散模型一次画出整段连续动作。

等等,先慢一拍 — token 是什么? 你可以把 token 想成"模型说话时的一个字"。原版 OpenVLA 把"把胳膊抬 30 度"这种动作翻译成一串字(比如 7 个字代表 7 个关节),然后像写句子一样一个字一个字写出来。

第二段:并行解码——别再排队了。 像翻译员翻译"我饿了",三个字其实可以同时翻成 "I am hungry",没必要等"我"翻完才翻"饿"。机器人 7 个关节同一瞬间就是一起动的,前后字之间没有真正的因果关系。OFT 把模型里"必须看前一个字"的限制(causal mask)拆掉,让它一次 forward 同时输出所有维度。推理步数从 O(动作维度 × chunk 长度) 降到 O(1),具体提升倍数需读原文。

第三段:动作 chunking——一次想好 8 步。 像下棋时一次想清楚接下来的 5 步,而不是每动一颗子都重新算。OFT 让模型一次输出未来 H 步动作(比如 H=8),机器人执行完这 8 步再回头问模型。好处:少问几次,长任务(叠衣服、整理桌面)累积漂移更小;坏处:环境突变时反应慢一拍,靠 H 的大小平衡。

第四段:连续动作 + 微调配方——从色板到调色盘。 离散 256 档像只有 256 块色板,想画淡蓝只能选最接近那块,画出来一格一格阶梯状。换成 L1 回归直接出实数,或扩散头出连续 chunk,轨迹立刻丝滑。论文还给了一份"该怎么训"的配方(学习率、LoRA 还是全参、数据规模),让别人能在自己机器上复现。具体超参需读原文。

实验在做什么

主要在两类基准上测:

  • LIBERO:仿真环境的 4 套子任务(Spatial / Object / Goal / Long-horizon),目前 VLA 圈对比的标配。
  • 真实机器人任务:双臂操作 / 长 horizon 任务(具体几个 task、什么硬件需读原文)。

对照组通常包含:原版 OpenVLA、Diffusion Policy、可能还有 RT-2-X 之类。指标:成功率、推理延迟(tokens/sec 或 ms/step)、轨迹平滑度(关节加速度 jerk 之类)。

预期看到的结论(基于摘要):

  • 三个开关都开 ≫ 单开任意一个 ≫ 原版 OpenVLA;
  • 推理速度提升数倍(具体倍数需读原文);
  • LIBERO long-horizon 子任务提升最明显(因为 chunking 减少了累积漂移)。

你应该懂的几个新词 — 4-6 个

  • VLA(Vision-Language-Action):把"看图 + 听语言指令 + 输出机器人动作"塞进同一个大模型的范式。代表作 RT-2、OpenVLA。
  • 自回归解码(autoregressive decoding):像写字一样一个 token 接一个 token 生成,每个 token 看前面所有 token。慢但表达力强。
  • 并行解码(parallel decoding):一次 forward 同时输出多个 token / 维度,舍弃 token 间依赖换速度。语言模型领域有 non-autoregressive 翻译这条线。
  • 动作 chunking:一次预测未来 H 步动作,不是只预测下一步。ACT 论文最早系统化。
  • 离散动作 token vs 连续动作:前者把每维动作切成 N 个 bin(如 256),用类语言 token 表达;后者直接回归实数 or 用扩散模型生成连续向量。
  • LIBERO:VLA / 机器人操作领域的仿真基准,4 个子任务套件(Spatial、Object、Goal、Long),测泛化和长 horizon。

它和其他论文什么关系

  • 上游:OpenVLA(前作,本论文的主干)、RT-2(VLA 范式起点)。
  • 平行竞品:π0、Octo、CogACT、HPT —— 各自在 VLA 这条路上做不同优化(数据、架构、动作表征)。
  • 被借鉴的思路:ACT(chunking)、Diffusion Policy(连续动作 + 扩散头)、non-autoregressive 翻译(并行解码)。
  • 后续工作:2025 年下半年起的 VLA 论文很多默认用 chunk + 连续动作做基线,OFT 已经成了 LIBERO 榜单上的常见对照组。

我建议这样读 — 3-4 步

  1. 先读 abstract + figure 1,确认"三个开关"是哪三个,以及每个开关单开/全开的效果差别。
  2. 直接跳到消融表(ablation table):看三个开关各自贡献多少(成功率、延迟)。这是这篇论文的核心证据。
  3. 看方法节里"并行解码"和"扩散头/L1 头"的具体实现细节;如果你打算复现或者改 VLA,这两段最有用。
  4. 最后扫真机实验和 LIBERO 数字,对比 OpenVLA / Diffusion Policy,判断这三个开关在你自己的任务上值不值得搬。

为什么值得读

  • 工程指导意义大:如果你打算微调 VLA 做自己的任务,这篇是 2025 年的"配方手册"——告诉你哪些开关一定要开、哪些可以不开。
  • 方法学示范:把一个复杂系统拆成可独立翻转的开关再做消融,这种"解耦再对照"的研究方式在体感上很值得学。
  • 基准地位:之后看 VLA 相关论文,OFT 大概率会出现在对照组里,先读完省得后面到处补课。
  • 成本低:核心想法三句话能说完,先看完笔记和 figure 1 就有八成理解,剩下两成靠原文消融表。

引用本笔记 / Cite this note
BibTeX
@online{eai_openvla_oft_2026,
  title       = {(readable note) OpenVLA-OFT},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/openvla-oft/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim