End-to-End VLA · Plate Nº 117

OpenHelix

7 min read · 2535 字 · ⭐⭐⭐ · 短摘要

#diffusion #flow-matching #transformer #language #VLA #VLM

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

机器人版的"大脑加小脑"分工：大脑慢慢听懂你说的话，小脑飞快动手干活。代码全部开源，对标 Figure 公司不公开的 Helix。

这是个什么场景 — 日常类比

你正在厨房颠勺。这时身边的人喊一句："帮我把灶台上那个红色的瓶子递过来。"

你脑子里其实同时在跑两件事：

慢的那件事（大脑）：听懂"红色瓶子"是哪一个、它在哪、要先放下锅铲再去拿。这一步要思考，慢一点没关系，但必须搞对。
快的那件事（小脑+肌肉记忆）：伸手、避开热锅边缘、手指收紧抓住瓶身——这些动作每秒要调整几十次，根本来不及"想"，全靠身体的本能反应。

如果你逼大脑去管每一根手指怎么弯，整个人会卡成 PPT；如果你只让肌肉记忆来主导，又压根听不懂"红色瓶子"是个啥。

机器人现在就卡在这个两难里。VLM（Vision-Language Model，视觉语言模型）很会"听懂复杂指令"，但反应慢；专门的动作策略很会"快速动手"，但听不懂人话。OpenHelix 干的事就是把这两层明明白白拆开：让大脑只管"想什么"，小脑只管"做什么"，互不耽误。

之前的人怎么做的 — 3-5 bullet

单体 VLA（如 RT-2、OpenVLA）：一个大模型从图像+语言直接出动作 token。优点是端到端简洁，缺点是推理慢，难以做高频闭环控制（一般只能 5-10Hz）。
专用扩散策略（Diffusion Policy、ACT）：动作头很快（30-100Hz），但语言理解能力弱，多任务泛化差，遇到没见过的物体或表述就崩。
闭源双系统（Figure Helix、Physical Intelligence π0）：工业界已经在做"VLM 慢思考 + 动作 transformer 快执行"的架构，但代码和细节不开源，社区只能从 demo 视频和博客猜结构。
分层规划（SayCan、Code as Policies）：用 LLM 做高层任务分解，但底层执行还是老套路，没真正解决"慢系统怎么把意图传给快系统"这个接口问题。
早期混合方法：有些工作尝试用 LLM 输出关键点或子目标给底层策略，但大多停留在仿真或单一任务，没形成统一的双系统训练范式。

这篇论文的关键想法

OpenHelix 的核心命题是：双系统架构不是工业界的专利，社区也能复现它，并且把每一个设计选择拆开来做消融。

它把 Figure Helix 那种"System 2 慢 VLM + System 1 快动作 transformer"的结构，重新实现成开源版本，并且回答几个之前没人公开讨论过的问题：

慢系统输出什么样的"中间表征"传给快系统最好？是文本？是 latent embedding？是显式的子目标？
慢系统应该多慢、快系统应该多快？两者频率比怎么定？
训练时是端到端联合训练，还是先各自训练再对齐？
推理时如何让两者异步运行不互相阻塞？

它的贡献更多在"系统工程 + 公开消融"，而不是某个全新算法。但对于想自己搭 VLA 的研究者，这种"把所有设计旋钮都暴露出来"的开源工作，价值非常高。

它怎么做的（方法）— 3-4 段

架构骨架。像餐厅里的"主厨 + 学徒"：主厨经验老道但慢，负责看菜单、判断这道菜该怎么烧；学徒手快，专门负责切配翻炒。慢系统是一个预训练的 VLM（具体用的哪个 backbone 需读原文，常见选择是 LLaVA、Qwen-VL 或 Prismatic 系列），接收当前帧图像 + 自然语言指令，以低频率（例如 5-10Hz）输出一段 latent token 序列作为"意图表征"。快系统是一个相对小的 transformer（动作专家），以高频率（例如 50-200Hz）接收最新观测 + 慢系统最近的 latent，输出连续动作（关节角或末端位姿增量）。

等等，先慢一拍 — latent token 是什么？ 你可以先简单理解为一串"还没翻译成人话的中间想法"。如果主厨用普通话写小纸条给学徒，要先把脑子里的画面转成字，学徒再把字读懂——这中间损耗很大也很慢。直接给一串数字（向量），主厨想的是什么、学徒接到的就是什么，不绕道文字。

接口设计。所以两个系统之间不用文字通信，而是用连续的 latent token——既保留了 VLM 的语义信息，又避免了文本生成的离散化损失和延迟。慢系统更新一次，快系统在它之间运行很多步，类似"大脑每秒下达几次目标，肌肉每秒执行几十次动作"。

训练流程。有点像"先让学徒练颠勺，再让主厨学怎么给学徒下指令"。猜测是分两阶段：先用大规模机器人数据集（Open X-Embodiment、DROID 等）预训练快系统的动作能力；再联合微调，让慢系统学会输出快系统能消化的 latent 格式。具体的 loss 设计、数据配比、是否用 LoRA 冻结 VLM 主干——这些关键细节需要读原文。

异步推理。像主厨在后厨慢慢琢磨菜单，学徒不会傻站着等他想完——学徒一直在按上一条指示翻炒。部署时两个系统在不同线程或不同设备上跑，慢系统不阻塞快系统的控制环。这是双系统架构能落地的工程关键：如果两边同步运行，整个系统的延迟会被最慢的那一支拖垮，双系统就失去意义了。

实验在做什么

预期实验设置（具体数字需读原文）：

任务集：大概率包含 LIBERO、CALVIN 这类标准 VLA benchmark，以及一些真机实验（桌面操作、抓取、长程任务）。
对比基线：单体 VLA（OpenVLA）、纯扩散策略（Diffusion Policy）、其他双系统尝试（如果有公开版本）。
消融：latent 维度大小、慢/快频率比、是否端到端训练、慢系统 backbone 选型——这些应该是论文的核心卖点。
真机验证：双系统的延迟优势只有在真机闭环里才看得出来，所以应该有 hardware demo 视频和成功率数据。

读的时候重点看消融表，那里能告诉你"哪些设计真的关键、哪些只是顺手"。

你应该懂的几个新词 — 4-6 个

VLA（Vision-Language-Action）：把 VLM 的输入扩展到机器人动作输出的模型类别。可以理解为"会说话的机器人控制器"。
双系统架构（Dual-System / System1+System2）：源自 Kahneman 的认知心理学概念，System 2 慢思考、System 1 快反射。在机器人里映射为高层规划器 + 低层控制器。
Latent token：连续的隐变量向量，用来在两个神经网络之间传递信息。比文本通道带宽更高，比离散动作 token 更连续。
动作 chunking：一次性预测未来 N 步动作而不是一步一步出，常见于 ACT、Diffusion Policy。能减少高频推理压力。
异步推理（Asynchronous inference）：两个模型在不同时钟下运行，互不阻塞。是双系统能跑得快的工程基础。
闭环控制（Closed-loop control）：每次动作后立刻看新观测、修正下一步。和 open-loop（一次性规划全部动作）相对。

它和其他论文什么关系

对标 Figure Helix（闭源）：OpenHelix 名字直接致敬，目标就是开源版 Helix。
对标 Physical Intelligence π0、π0.5：另一条工业界双系统路线，π0 用流匹配（flow matching）做动作头，OpenHelix 的动作头实现可能不同（需读原文确认）。
对比 OpenVLA / RT-2（单体路线）：OpenHelix 是对"单体 VLA 太慢"的回应。如果你已经读过 OpenVLA，这篇能告诉你为什么社区在转向双系统。
延续 SayCan / Code as Policies 的分层思路：但前者用文本接口，OpenHelix 用 latent 接口，工程上更紧。
和扩散策略（Diffusion Policy、3D Diffusion Policy）的关系：扩散策略是优秀的"快系统候选"，OpenHelix 的快系统未必用扩散，但思路相通——把动作生成和语义理解解耦。

我建议这样读 — 3-4 步

先看 README 和 demo 视频：开源仓库的 README 通常比 paper 更直接告诉你架构图、跑通命令、硬件要求。先建立直觉再读论文。
paper 跳到方法图 + 消融表：不要从 intro 顺着读，先看 Figure 1 的系统图理解信息流，再翻到消融表看"哪些设计有效"。
对照 OpenVLA 读差异：如果你熟 OpenVLA，重点看 OpenHelix 在哪里多了一层、接口怎么设计——这是双系统 vs 单体的核心。
可选：跑一遍代码：因为它开源，最快的理解方式是 clone 仓库、加载预训练权重、在一个简单任务上跑闭环。比读三遍论文有用。

为什么值得读

开源稀缺性：双系统 VLA 是 2025 年工业界主流路线，但闭源居多。OpenHelix 是少数能让你看到完整代码和训练配方的工作。
架构思维训练：读这篇能强化你对"接口设计 > 模型选型"的理解。机器人系统的瓶颈往往不在某个模型多强，而在两个模型怎么对接。
可复现的起点：如果你想做 VLA 相关研究或项目，OpenHelix 的代码可以直接当 baseline，比从 scratch 搭省几个月。
理解工业界范式：Figure、1X、Physical Intelligence 这些公司在做什么，OpenHelix 是社区视角的一个"逆向工程"，读它等于读懂了整个赛道的当前共识。
难度适中：⭐⭐⭐，不是入门（需要先懂 VLM 和基础机器人控制），但也不到需要数学硬功夫的程度。读懂它你就跨过了 VLA 领域的中级门槛。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_openhelix_2026,
  title       = {(readable note) OpenHelix},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/openhelix/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)