回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Imitation Learning · Plate Nº 56

ALOHA 2

7 min read · 2546 字 · ⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

ALOHA 2 不是新算法,而是把"教机器人用双手干活"的那台设备升级了一遍:更顺手、更耐用、图纸全开源,方便大家一起攒训练数据。

这是个什么场景

想象你在教一个完全没下过厨的朋友剥虾:光说"把头掐掉、剥壳、挑虾线"没用,最快的办法是抓着他的手做一遍,让他记住手指该使多大力、什么时候该转腕。教机器人叠衣服、倒水、拉拉链也是这套逻辑 —— 人捏着两只"主臂"操作,机器上对应的两只"从臂"同步动,全过程录下来,机器人事后照着练。

第一代 ALOHA 就是这么个"教学手柄",但用过的人会抱怨:捏一上午手就酸了 / 某个零件三天断一次 / 想自己也搭一台要踩半个月的坑。ALOHA 2 干的事就像把一台手工组装的原型车改造成 4S 店量产款 —— 工作原理没变,但你能舒服地连录 8 小时,合作实验室也能在两周内复刻一台一模一样的。

ALOHA 2 — 场景示意:这论文要解决的现实问题
Plate Nº IALOHA 2 — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • ALOHA v1(2023):Stanford 出的低成本双臂遥操作平台(约 $20k),但人体工学和耐久度还有不少粗糙之处,是研究原型而非产品级。
  • Mobile ALOHA(2024 早):在 ALOHA 上加了移动底盘,证明了"低成本双臂 + 模仿学习"能做出做饭、擦地等长时序任务,但仍继承了 v1 的硬件痛点。
  • 昂贵商用方案:如 Franka Panda 双臂、ABB YuMi 等,遥操作精度高但单台数十万人民币,规模化采集示范几乎不可行。
  • VR / 视觉遥操作:用 Quest / Vision Pro + 视觉反馈来代替主从机械臂,省硬件但缺了力反馈和精确同构(isomorphic)感觉,对精细操作不够友好。
  • Diffusion Policy / ACT 等算法侧工作:算法越做越强,但都被"数据不够多 / 不够干净"卡住 —— 瓶颈悄悄转移到硬件平台和数据采集流程。

这篇论文的关键想法

核心判断:模仿学习的瓶颈已经从"算法"挪到"数据采集基础设施"。算法(ACT、Diffusion Policy)在 50–200 条示范上已经能学会单任务,但要往通用机器人走就需要 10⁴–10⁶ 量级的双臂示范,这只能靠"很多实验室、很多操作员、很多小时"的众包模式。

要让这个模式跑起来,硬件得满足三件事:

  1. 人能舒服地操作 8 小时(不是 8 分钟)—— 重新设计夹爪握把、平衡配重、视觉反馈位置。
  2. 零件在 6 个月日常使用下不会经常坏 —— 替换易磨损的橡皮筋、改进电机座、加固线缆走向。
  3. 任何人按文档能在两周内复刻 —— 完整开源 CAD、装配手册、固件、ROS 软件栈、教学视频。

ALOHA 2 没发明新算法、没发新数据集,它发的是一份"让别人能更快做研究"的工程交付。

ALOHA 2 — 方法示意:核心 pipeline
Plate Nº IIALOHA 2 — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

夹爪与握把(gripper)重新设计:就像把一把廉价剪刀换成专业理发剪 —— 同样的剪东西原理,握感和耐用度完全两回事。v1 用橡皮筋作为夹爪开合的被动元件,磨损快、扭矩不稳定(橡皮筋拉得越久越松,力道就飘)。v2 换成了低摩擦机构(具体方案需读原文,可能是张紧弹簧 / 滑轨结构),同时把主臂的握把做成更贴合手部解剖的形状,长时间握持不易疲劳。这一改动直接把"单次连续操作时长"从分钟级推到小时级。

结构件与传动:好比把宜家组装家具升级成实木打榫 —— 看着差不多,但日常摇晃多了就知道差距。v1 的部分 3D 打印件改成 CNC 铝件或注塑件,关键关节的电机座和线缆走向重新设计,减少线材在反复运动中的应力集中。整体目标是一台机器在每天 4–8 小时使用下、跑半年不需要大修。

视觉与工作台标准化:像连锁餐厅的"标准后厨"—— 任何一家店的灶台高度、刀具摆位都一致,菜谱才能跨店复用。摄像头位置、工作台尺寸、灯光环境都给了推荐配置(具体参数需读原文)。这件事看似琐碎,但对"跨实验室数据可合并"非常关键 —— 如果 A 实验室的桌子比 B 矮 5cm、视角偏 10°,模型在 A 学的策略到 B 就可能直接失效。

等等,先慢一拍 —— 什么叫"开源交付"? 平时我们说开源就是"代码丢 GitHub",但搭一台机器人光有代码不够,你还得知道每颗螺丝从哪买、怎么拧、固件怎么烧。所以这里的开源像 IKEA 那本图文说明书 + 物料清单 + 视频教程的组合包:ROS 驱动、遥操作脚本、数据录制管线、与 ACT/Diffusion Policy 的接入示例全部开源;论文页面给出 CAD 文件、BOM(物料清单 Bill of Materials)、装配手册、调试视频。也就是说"开源"在这里不是放个代码仓库,而是"提供整套从下单零件到跑通 demo 的路径"。

实验在做什么

作为 tech report,它的"实验"重心和算法论文不一样:

  • 一组定性任务展示:用 ALOHA 2 完成系鞋带、扣纽扣、操作魔方等精细双臂任务,证明硬件能撑得起这些场景的精度需求。
  • 耐久度 / 人体工学的工程化验证:长时间使用记录、零件损耗对比(v1 vs v2)。具体数字需读原文。
  • 没有"我的算法在 benchmark 上比谁高 X%"这种表格 —— 因为这是平台论文,不是算法论文。判断它好不好不看 SOTA 数字,而看后续社区的采用率(之后一年里有多少 paper 用 ALOHA 2 平台采的数据)。

你应该懂的几个新词 — 4-6 个

  • 遥操作(teleoperation):人通过主控设备实时驱动远端机器人,机器人记录关节角度作为训练数据。ALOHA 用的是同构(isomorphic)主从结构 —— 主臂和从臂关节布局一致,操作员的动作几乎 1:1 映射到机器,学习成本很低。
  • 模仿学习(imitation learning):让机器人从人的示范里学策略,最朴素的版本是行为克隆(behavior cloning, BC),输入观测、输出动作,监督学习。ACT 和 Diffusion Policy 都是这条路上的代表方法。
  • ACT(Action Chunking with Transformers):ALOHA 一代论文配套的算法,每次预测一段连续动作(chunk),缓解了 BC 在精细任务上的复合误差问题。
  • BOM(Bill of Materials):物料清单,列出了搭一台机器需要的每一个零件型号、数量、参考链接。开源硬件项目里 BOM 完整度直接决定别人能不能复刻。
  • 同构主从(isomorphic leader-follower):主臂和从臂自由度、关节顺序一致的设计。优点是不需要复杂的运动学映射,操作员能很快上手;代价是主臂也要做出近似形态,硬件成本上升。
  • 数据采集基础设施(data collection infrastructure):相对于"算法 + 数据集"的传统二分,强调把"硬件平台 + 操作流程 + 数据格式"当作一类独立的研究对象。ALOHA 2、UMI、DROID 都属于这一脉。

它和其他论文什么关系

  • 承接 ALOHA / Mobile ALOHA:直接的硬件迭代,思想没变(低成本 + 同构主从 + 模仿学习),打磨的是工程细节。
  • 对比 UMI(Universal Manipulation Interface):UMI 走另一条路 —— 用手持夹爪直接录视频,省掉机械臂主端,更便携;但对动作精度和力控感的还原不如 ALOHA 这种主从结构。两者是互补而非替代。
  • 为 OpenVLA / RT-2 / π0 等大模型提供数据基座:当训练通用机器人策略需要海量双臂数据时,ALOHA 2 是目前社区最常被引用的"标准化采集平台"之一。可以理解为机器人学习领域的 "ImageNet 拍摄棚"。
  • 和 DROID(2024)相互呼应:DROID 是用 Franka 单臂收集的大规模数据集(76k 轨迹);ALOHA 2 是双臂版本的硬件标准。研究范式上都在赌"先把数据采集这件事做大做规范"。

我建议这样读 — 3-4 步

  1. 先看官网和视频(30 分钟)https://aloha-2.github.io 上的演示视频比 paper 直观得多。看完你会大致明白主从同构遥操作长什么样。
  2. 再读 paper 的硬件改动章节(1 小时):重点看 v1 → v2 的改动表 / 对比图。如果你不打算自己造一台,跳过 BOM 细节就行。
  3. 结合 ACT 论文一起看(2 小时):ALOHA 2 是平台,ACT 是配套算法。两者一起读才能理解"为什么这个平台采的数据能学出动作"。
  4. 可选:跑一下开源 demo(半天到一天):clone 仓库、跑仿真、看一下数据格式。即使没硬件也能感受工作流。

为什么值得读

如果你做模仿学习 / 通用机器人方向,这篇是必须知道的"基建论文"—— 即使你自己不搭硬件,未来一两年内会读到大量基于它采的数据集和算法工作,提前理解它的设计选择能帮你看懂下游论文的实验局限(比如某个动作做不好可能是夹爪结构的物理限制,而不是算法问题)。

它也是一个很好的范例,说明学术机器人研究里"硬件 + 流程 + 开源交付"本身就是一类一流贡献,不必非得有炫酷算法才能写论文。这个观念对实习期判断"什么工作值得做"会有帮助。

具体的耐久度数字、复刻成本、视觉配置参数等需读原文确认。

引用本笔记 / Cite this note
BibTeX
@online{eai_aloha_2_2026,
  title       = {(readable note) ALOHA 2},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/aloha-2/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim