Imitation Learning · Plate Nº 56

ALOHA 2

7 min read · 2546 字 · ⭐⭐ · 短摘要

#diffusion #manipulation #imitation #dataset

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

ALOHA 2 不是新算法，而是把"教机器人用双手干活"的那台设备升级了一遍：更顺手、更耐用、图纸全开源，方便大家一起攒训练数据。

这是个什么场景

想象你在教一个完全没下过厨的朋友剥虾：光说"把头掐掉、剥壳、挑虾线"没用，最快的办法是抓着他的手做一遍，让他记住手指该使多大力、什么时候该转腕。教机器人叠衣服、倒水、拉拉链也是这套逻辑 —— 人捏着两只"主臂"操作，机器上对应的两只"从臂"同步动，全过程录下来，机器人事后照着练。

第一代 ALOHA 就是这么个"教学手柄"，但用过的人会抱怨：捏一上午手就酸了 / 某个零件三天断一次 / 想自己也搭一台要踩半个月的坑。ALOHA 2 干的事就像把一台手工组装的原型车改造成 4S 店量产款 —— 工作原理没变，但你能舒服地连录 8 小时，合作实验室也能在两周内复刻一台一模一样的。

之前的人怎么做的 — 3-5 bullet

ALOHA v1（2023）：Stanford 出的低成本双臂遥操作平台（约 $20k），但人体工学和耐久度还有不少粗糙之处，是研究原型而非产品级。
Mobile ALOHA（2024 早）：在 ALOHA 上加了移动底盘，证明了"低成本双臂 + 模仿学习"能做出做饭、擦地等长时序任务，但仍继承了 v1 的硬件痛点。
昂贵商用方案：如 Franka Panda 双臂、ABB YuMi 等，遥操作精度高但单台数十万人民币，规模化采集示范几乎不可行。
VR / 视觉遥操作：用 Quest / Vision Pro + 视觉反馈来代替主从机械臂，省硬件但缺了力反馈和精确同构（isomorphic）感觉，对精细操作不够友好。
Diffusion Policy / ACT 等算法侧工作：算法越做越强，但都被"数据不够多 / 不够干净"卡住 —— 瓶颈悄悄转移到硬件平台和数据采集流程。

这篇论文的关键想法

核心判断：模仿学习的瓶颈已经从"算法"挪到"数据采集基础设施"。算法（ACT、Diffusion Policy）在 50–200 条示范上已经能学会单任务，但要往通用机器人走就需要 10⁴–10⁶ 量级的双臂示范，这只能靠"很多实验室、很多操作员、很多小时"的众包模式。

要让这个模式跑起来，硬件得满足三件事：

人能舒服地操作 8 小时（不是 8 分钟）—— 重新设计夹爪握把、平衡配重、视觉反馈位置。
零件在 6 个月日常使用下不会经常坏 —— 替换易磨损的橡皮筋、改进电机座、加固线缆走向。
任何人按文档能在两周内复刻 —— 完整开源 CAD、装配手册、固件、ROS 软件栈、教学视频。

ALOHA 2 没发明新算法、没发新数据集，它发的是一份"让别人能更快做研究"的工程交付。

它怎么做的（方法）— 3-4 段

夹爪与握把（gripper）重新设计：就像把一把廉价剪刀换成专业理发剪 —— 同样的剪东西原理，握感和耐用度完全两回事。v1 用橡皮筋作为夹爪开合的被动元件，磨损快、扭矩不稳定（橡皮筋拉得越久越松，力道就飘）。v2 换成了低摩擦机构（具体方案需读原文，可能是张紧弹簧 / 滑轨结构），同时把主臂的握把做成更贴合手部解剖的形状，长时间握持不易疲劳。这一改动直接把"单次连续操作时长"从分钟级推到小时级。

结构件与传动：好比把宜家组装家具升级成实木打榫 —— 看着差不多，但日常摇晃多了就知道差距。v1 的部分 3D 打印件改成 CNC 铝件或注塑件，关键关节的电机座和线缆走向重新设计，减少线材在反复运动中的应力集中。整体目标是一台机器在每天 4–8 小时使用下、跑半年不需要大修。

视觉与工作台标准化：像连锁餐厅的"标准后厨"—— 任何一家店的灶台高度、刀具摆位都一致，菜谱才能跨店复用。摄像头位置、工作台尺寸、灯光环境都给了推荐配置（具体参数需读原文）。这件事看似琐碎，但对"跨实验室数据可合并"非常关键 —— 如果 A 实验室的桌子比 B 矮 5cm、视角偏 10°，模型在 A 学的策略到 B 就可能直接失效。

等等，先慢一拍 —— 什么叫"开源交付"？ 平时我们说开源就是"代码丢 GitHub"，但搭一台机器人光有代码不够，你还得知道每颗螺丝从哪买、怎么拧、固件怎么烧。所以这里的开源像 IKEA 那本图文说明书 + 物料清单 + 视频教程的组合包：ROS 驱动、遥操作脚本、数据录制管线、与 ACT/Diffusion Policy 的接入示例全部开源；论文页面给出 CAD 文件、BOM（物料清单 Bill of Materials）、装配手册、调试视频。也就是说"开源"在这里不是放个代码仓库，而是"提供整套从下单零件到跑通 demo 的路径"。

实验在做什么

作为 tech report，它的"实验"重心和算法论文不一样：

一组定性任务展示：用 ALOHA 2 完成系鞋带、扣纽扣、操作魔方等精细双臂任务，证明硬件能撑得起这些场景的精度需求。
耐久度 / 人体工学的工程化验证：长时间使用记录、零件损耗对比（v1 vs v2）。具体数字需读原文。
没有"我的算法在 benchmark 上比谁高 X%"这种表格 —— 因为这是平台论文，不是算法论文。判断它好不好不看 SOTA 数字，而看后续社区的采用率（之后一年里有多少 paper 用 ALOHA 2 平台采的数据）。

你应该懂的几个新词 — 4-6 个

遥操作（teleoperation）：人通过主控设备实时驱动远端机器人，机器人记录关节角度作为训练数据。ALOHA 用的是同构（isomorphic）主从结构 —— 主臂和从臂关节布局一致，操作员的动作几乎 1:1 映射到机器，学习成本很低。
模仿学习（imitation learning）：让机器人从人的示范里学策略，最朴素的版本是行为克隆（behavior cloning, BC），输入观测、输出动作，监督学习。ACT 和 Diffusion Policy 都是这条路上的代表方法。
ACT（Action Chunking with Transformers）：ALOHA 一代论文配套的算法，每次预测一段连续动作（chunk），缓解了 BC 在精细任务上的复合误差问题。
BOM（Bill of Materials）：物料清单，列出了搭一台机器需要的每一个零件型号、数量、参考链接。开源硬件项目里 BOM 完整度直接决定别人能不能复刻。
同构主从（isomorphic leader-follower）：主臂和从臂自由度、关节顺序一致的设计。优点是不需要复杂的运动学映射，操作员能很快上手；代价是主臂也要做出近似形态，硬件成本上升。
数据采集基础设施（data collection infrastructure）：相对于"算法 + 数据集"的传统二分，强调把"硬件平台 + 操作流程 + 数据格式"当作一类独立的研究对象。ALOHA 2、UMI、DROID 都属于这一脉。

它和其他论文什么关系

承接 ALOHA / Mobile ALOHA：直接的硬件迭代，思想没变（低成本 + 同构主从 + 模仿学习），打磨的是工程细节。
对比 UMI（Universal Manipulation Interface）：UMI 走另一条路 —— 用手持夹爪直接录视频，省掉机械臂主端，更便携；但对动作精度和力控感的还原不如 ALOHA 这种主从结构。两者是互补而非替代。
为 OpenVLA / RT-2 / π0 等大模型提供数据基座：当训练通用机器人策略需要海量双臂数据时，ALOHA 2 是目前社区最常被引用的"标准化采集平台"之一。可以理解为机器人学习领域的 "ImageNet 拍摄棚"。
和 DROID（2024）相互呼应：DROID 是用 Franka 单臂收集的大规模数据集（76k 轨迹）；ALOHA 2 是双臂版本的硬件标准。研究范式上都在赌"先把数据采集这件事做大做规范"。

我建议这样读 — 3-4 步

先看官网和视频（30 分钟）：https://aloha-2.github.io 上的演示视频比 paper 直观得多。看完你会大致明白主从同构遥操作长什么样。
再读 paper 的硬件改动章节（1 小时）：重点看 v1 → v2 的改动表 / 对比图。如果你不打算自己造一台，跳过 BOM 细节就行。
结合 ACT 论文一起看（2 小时）：ALOHA 2 是平台，ACT 是配套算法。两者一起读才能理解"为什么这个平台采的数据能学出动作"。
可选：跑一下开源 demo（半天到一天）：clone 仓库、跑仿真、看一下数据格式。即使没硬件也能感受工作流。

为什么值得读

如果你做模仿学习 / 通用机器人方向，这篇是必须知道的"基建论文"—— 即使你自己不搭硬件，未来一两年内会读到大量基于它采的数据集和算法工作，提前理解它的设计选择能帮你看懂下游论文的实验局限（比如某个动作做不好可能是夹爪结构的物理限制，而不是算法问题）。

它也是一个很好的范例，说明学术机器人研究里"硬件 + 流程 + 开源交付"本身就是一类一流贡献，不必非得有炫酷算法才能写论文。这个观念对实习期判断"什么工作值得做"会有帮助。

具体的耐久度数字、复刻成本、视觉配置参数等需读原文确认。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_aloha_2_2026,
  title       = {(readable note) ALOHA 2},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/aloha-2/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)