回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
End-to-End VLA · Plate Nº 117

OpenHelix

7 min read · 2535 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

机器人版的"大脑加小脑"分工:大脑慢慢听懂你说的话,小脑飞快动手干活。代码全部开源,对标 Figure 公司不公开的 Helix。

这是个什么场景 — 日常类比

你正在厨房颠勺。这时身边的人喊一句:"帮我把灶台上那个红色的瓶子递过来。"

你脑子里其实同时在跑两件事:

  • 慢的那件事(大脑):听懂"红色瓶子"是哪一个、它在哪、要先放下锅铲再去拿。这一步要思考,慢一点没关系,但必须搞对。
  • 快的那件事(小脑+肌肉记忆):伸手、避开热锅边缘、手指收紧抓住瓶身——这些动作每秒要调整几十次,根本来不及"想",全靠身体的本能反应。

如果你逼大脑去管每一根手指怎么弯,整个人会卡成 PPT;如果你只让肌肉记忆来主导,又压根听不懂"红色瓶子"是个啥。

机器人现在就卡在这个两难里。VLM(Vision-Language Model,视觉语言模型)很会"听懂复杂指令",但反应慢;专门的动作策略很会"快速动手",但听不懂人话。OpenHelix 干的事就是把这两层明明白白拆开:让大脑只管"想什么",小脑只管"做什么",互不耽误。

OpenHelix — 场景示意:这论文要解决的现实问题
Plate Nº IOpenHelix — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 单体 VLA(如 RT-2、OpenVLA):一个大模型从图像+语言直接出动作 token。优点是端到端简洁,缺点是推理慢,难以做高频闭环控制(一般只能 5-10Hz)。
  • 专用扩散策略(Diffusion Policy、ACT):动作头很快(30-100Hz),但语言理解能力弱,多任务泛化差,遇到没见过的物体或表述就崩。
  • 闭源双系统(Figure Helix、Physical Intelligence π0):工业界已经在做"VLM 慢思考 + 动作 transformer 快执行"的架构,但代码和细节不开源,社区只能从 demo 视频和博客猜结构。
  • 分层规划(SayCan、Code as Policies):用 LLM 做高层任务分解,但底层执行还是老套路,没真正解决"慢系统怎么把意图传给快系统"这个接口问题。
  • 早期混合方法:有些工作尝试用 LLM 输出关键点或子目标给底层策略,但大多停留在仿真或单一任务,没形成统一的双系统训练范式。

这篇论文的关键想法

OpenHelix 的核心命题是:双系统架构不是工业界的专利,社区也能复现它,并且把每一个设计选择拆开来做消融

它把 Figure Helix 那种"System 2 慢 VLM + System 1 快动作 transformer"的结构,重新实现成开源版本,并且回答几个之前没人公开讨论过的问题:

  • 慢系统输出什么样的"中间表征"传给快系统最好?是文本?是 latent embedding?是显式的子目标?
  • 慢系统应该多慢、快系统应该多快?两者频率比怎么定?
  • 训练时是端到端联合训练,还是先各自训练再对齐?
  • 推理时如何让两者异步运行不互相阻塞?

它的贡献更多在"系统工程 + 公开消融",而不是某个全新算法。但对于想自己搭 VLA 的研究者,这种"把所有设计旋钮都暴露出来"的开源工作,价值非常高。

OpenHelix — 方法示意:核心 pipeline
Plate Nº IIOpenHelix — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

架构骨架。像餐厅里的"主厨 + 学徒":主厨经验老道但慢,负责看菜单、判断这道菜该怎么烧;学徒手快,专门负责切配翻炒。慢系统是一个预训练的 VLM(具体用的哪个 backbone 需读原文,常见选择是 LLaVA、Qwen-VL 或 Prismatic 系列),接收当前帧图像 + 自然语言指令,以低频率(例如 5-10Hz)输出一段 latent token 序列作为"意图表征"。快系统是一个相对小的 transformer(动作专家),以高频率(例如 50-200Hz)接收最新观测 + 慢系统最近的 latent,输出连续动作(关节角或末端位姿增量)。

等等,先慢一拍 — latent token 是什么? 你可以先简单理解为一串"还没翻译成人话的中间想法"。如果主厨用普通话写小纸条给学徒,要先把脑子里的画面转成字,学徒再把字读懂——这中间损耗很大也很慢。直接给一串数字(向量),主厨想的是什么、学徒接到的就是什么,不绕道文字。

接口设计。所以两个系统之间不用文字通信,而是用连续的 latent token——既保留了 VLM 的语义信息,又避免了文本生成的离散化损失和延迟。慢系统更新一次,快系统在它之间运行很多步,类似"大脑每秒下达几次目标,肌肉每秒执行几十次动作"。

训练流程。有点像"先让学徒练颠勺,再让主厨学怎么给学徒下指令"。猜测是分两阶段:先用大规模机器人数据集(Open X-Embodiment、DROID 等)预训练快系统的动作能力;再联合微调,让慢系统学会输出快系统能消化的 latent 格式。具体的 loss 设计、数据配比、是否用 LoRA 冻结 VLM 主干——这些关键细节需要读原文。

异步推理。像主厨在后厨慢慢琢磨菜单,学徒不会傻站着等他想完——学徒一直在按上一条指示翻炒。部署时两个系统在不同线程或不同设备上跑,慢系统不阻塞快系统的控制环。这是双系统架构能落地的工程关键:如果两边同步运行,整个系统的延迟会被最慢的那一支拖垮,双系统就失去意义了。

实验在做什么

预期实验设置(具体数字需读原文):

  • 任务集:大概率包含 LIBERO、CALVIN 这类标准 VLA benchmark,以及一些真机实验(桌面操作、抓取、长程任务)。
  • 对比基线:单体 VLA(OpenVLA)、纯扩散策略(Diffusion Policy)、其他双系统尝试(如果有公开版本)。
  • 消融:latent 维度大小、慢/快频率比、是否端到端训练、慢系统 backbone 选型——这些应该是论文的核心卖点。
  • 真机验证:双系统的延迟优势只有在真机闭环里才看得出来,所以应该有 hardware demo 视频和成功率数据。

读的时候重点看消融表,那里能告诉你"哪些设计真的关键、哪些只是顺手"。

你应该懂的几个新词 — 4-6 个

  • VLA(Vision-Language-Action):把 VLM 的输入扩展到机器人动作输出的模型类别。可以理解为"会说话的机器人控制器"。
  • 双系统架构(Dual-System / System1+System2):源自 Kahneman 的认知心理学概念,System 2 慢思考、System 1 快反射。在机器人里映射为高层规划器 + 低层控制器。
  • Latent token:连续的隐变量向量,用来在两个神经网络之间传递信息。比文本通道带宽更高,比离散动作 token 更连续。
  • 动作 chunking:一次性预测未来 N 步动作而不是一步一步出,常见于 ACT、Diffusion Policy。能减少高频推理压力。
  • 异步推理(Asynchronous inference):两个模型在不同时钟下运行,互不阻塞。是双系统能跑得快的工程基础。
  • 闭环控制(Closed-loop control):每次动作后立刻看新观测、修正下一步。和 open-loop(一次性规划全部动作)相对。

它和其他论文什么关系

  • 对标 Figure Helix(闭源):OpenHelix 名字直接致敬,目标就是开源版 Helix。
  • 对标 Physical Intelligence π0、π0.5:另一条工业界双系统路线,π0 用流匹配(flow matching)做动作头,OpenHelix 的动作头实现可能不同(需读原文确认)。
  • 对比 OpenVLA / RT-2(单体路线):OpenHelix 是对"单体 VLA 太慢"的回应。如果你已经读过 OpenVLA,这篇能告诉你为什么社区在转向双系统。
  • 延续 SayCan / Code as Policies 的分层思路:但前者用文本接口,OpenHelix 用 latent 接口,工程上更紧。
  • 和扩散策略(Diffusion Policy、3D Diffusion Policy)的关系:扩散策略是优秀的"快系统候选",OpenHelix 的快系统未必用扩散,但思路相通——把动作生成和语义理解解耦。

我建议这样读 — 3-4 步

  1. 先看 README 和 demo 视频:开源仓库的 README 通常比 paper 更直接告诉你架构图、跑通命令、硬件要求。先建立直觉再读论文。
  2. paper 跳到方法图 + 消融表:不要从 intro 顺着读,先看 Figure 1 的系统图理解信息流,再翻到消融表看"哪些设计有效"。
  3. 对照 OpenVLA 读差异:如果你熟 OpenVLA,重点看 OpenHelix 在哪里多了一层、接口怎么设计——这是双系统 vs 单体的核心。
  4. 可选:跑一遍代码:因为它开源,最快的理解方式是 clone 仓库、加载预训练权重、在一个简单任务上跑闭环。比读三遍论文有用。

为什么值得读

  • 开源稀缺性:双系统 VLA 是 2025 年工业界主流路线,但闭源居多。OpenHelix 是少数能让你看到完整代码和训练配方的工作。
  • 架构思维训练:读这篇能强化你对"接口设计 > 模型选型"的理解。机器人系统的瓶颈往往不在某个模型多强,而在两个模型怎么对接。
  • 可复现的起点:如果你想做 VLA 相关研究或项目,OpenHelix 的代码可以直接当 baseline,比从 scratch 搭省几个月。
  • 理解工业界范式:Figure、1X、Physical Intelligence 这些公司在做什么,OpenHelix 是社区视角的一个"逆向工程",读它等于读懂了整个赛道的当前共识。
  • 难度适中:⭐⭐⭐,不是入门(需要先懂 VLM 和基础机器人控制),但也不到需要数学硬功夫的程度。读懂它你就跨过了 VLA 领域的中级门槛。

引用本笔记 / Cite this note
BibTeX
@online{eai_openhelix_2026,
  title       = {(readable note) OpenHelix},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/openhelix/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim