End-to-End VLA · Plate Nº 120

RoboMamba

6 min read · 1977 字 · ⭐⭐⭐ · 短摘要

#diffusion #transformer #mamba-ssm #language #vision #VLA

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

机器人脑子原本用 Transformer 拼出来，反应慢、显存吃紧。RoboMamba 换成 Mamba（一种"流水线式"架构），让机器人想得更快、更省。

这是个什么场景 — 日常类比

你刚下班回家，瘫在沙发上，对厨房里的机器人喊一句："把桌上那个红苹果递给我。"它要在两秒内做三件事：

看（摄像头里哪个是苹果，桌子在哪）
听懂（"红的"、"那个"指什么）
动（手臂关节怎么转、夹爪什么时候合）

过去的 VLA（Vision-Language-Action，视觉-语言-动作模型，比如 RT-2、OpenVLA）靠 Transformer 把这三件事缝在一起。Transformer 像一家全员大会的公司——每加一个员工，所有人都得重新听一遍他发言，会议时间是平方级膨胀。摄像头切高清，图像 token 翻一倍，机器人脑子的反应就掉一截。

Mamba 把"全员大会"改成流水线传话——每个人只看自己手上的纸条 + 上一个人塞过来的便签，开会人数翻倍，时间也只翻倍（线性增长）。RoboMamba 就是把这套"流水线"装进机器人脑子里。

之前的人怎么做的 — 3-5 bullet

RT-2（Google 2023）：把 VLM 直接当机器人策略用，动作离散化成 token，Transformer 一把梭，效果好但推理慢。
OpenVLA（2024）：开源版 RT-2 路线，7B 参数，靠 LLaMA 主干，部署成本高。
Octo / Diffusion Policy：用扩散模型出动作，但对语言指令的理解相对薄。
共同瓶颈：Transformer 的 二次复杂度（quadratic complexity）——序列越长越慢，机器人实时控制（要 10Hz+ 出动作）压力大。
还有一类做法是把 VLM 冻住只学一个小动作头（action head），但这样推理时整个 VLM 还得跑一遍，没省。

这篇论文的关键想法

核心赌注：线性复杂度的 Mamba 主干 + 简洁的动作头，能在保持 VLA 能力的同时大幅降低推理开销。

三个判断：

视觉理解和指令理解不一定非得 Transformer。Mamba 在长序列建模上已经在 NLP 证明能跟 Transformer 打平。
机器人动作输出本质上是个低维向量（关节角、夹爪开合），不需要超大的 decoder。
训练阶段先学"看懂世界"（co-train 在通用 VL 数据上），再学"动起来"（在机器人数据上微调），可以用很少机器人数据撬动好的泛化。

它怎么做的（方法）— 3-4 段

阶段 1：先教它看图说话。 像新员工入职先培训"认识公司产品"——RoboMamba 先不碰机器人，纯学"图配文字"。把视觉编码器（CLIP 或 SigLIP，把图切成小方块再编码的网络）输出的 patch 特征当 token，跟语言 token 拼一起喂给 Mamba 主干，让它学图文配对、VQA（看图回答问题）。这一步走完，Mamba 已经能"看图说话"。

阶段 2：再教它动手。 像培训完产品的员工被派去仓库搬箱子——在机器人数据集（真机 + 仿真，具体配比需读原文）上挂一个轻量的 policy head（动作头），输入是 Mamba 最后一层的 hidden state，输出是末端执行器（机械臂最末端那个夹爪）的位姿或关节增量。动作头故意做得很小，因为重活已经被主干干完了。

等等，先慢一拍 — Mamba 块里到底发生了什么？ 一句话：它是个会挑重点的传话员。Mamba 的核心叫"选择性扫描（selective scan）"——每来一个 token，它会根据内容动态决定"这条信息往状态里塞多少、忘掉多少"。这跟 RNN（循环神经网络，按顺序传话的老架构）的固定遗忘门不一样，是看内容下菜的。所以它既有 RNN 的"线性传话"速度，又有 Transformer 的"按需关注"判断力。

为啥推理时特别爽？ Transformer 每吐一个新 token，都要回头翻所有历史 token 的笔记（KV cache 越积越大，像越攒越厚的会议纪要）。Mamba 只维护一个固定大小的隐状态——不管聊了多久，本子就那么厚。对"把桌上东西一个个收进抽屉"这种几十步连续操作（长 horizon 任务），延迟不会越拖越夸张。

实验在做什么

论文应该围绕三类问题：

能力对比：在 SimplerEnv / VLABench 这类机器人 benchmark 上，跟 OpenVLA、RT-2 比成功率。具体数字需读原文。
效率对比：推理延迟、显存、参数量。Mamba 路线的卖点就是这里——通常会贴一张"延迟 vs 任务成功率"的散点图，证明自己在帕累托前沿。
消融：去掉 VL 预训练 / 换 Transformer 主干 / 改动作头大小，分别掉多少。这种消融能告诉你"哪个设计最关键"。

读论文时重点看实验段的 延迟数字和长序列任务——如果 Mamba 真有线性优势，应该在长 horizon 任务上拉开差距。

你应该懂的几个新词 — 4-6 个

VLA（Vision-Language-Action）：视觉-语言-动作模型，吃图 + 指令，吐机器人动作。
SSM（State Space Model，状态空间模型）：用一个隐状态向量在序列上线性递推的模型族，Mamba 是其中一员。
Selective Scan（选择性扫描）：Mamba 的核心，让状态更新依赖当前输入内容，相当于"动态遗忘门"。
二次复杂度 / 线性复杂度：Transformer 的注意力是 O(n²)，Mamba 是 O(n)，n 是序列长度。
Action Head（动作头）：把语言模型 hidden state 映射成连续动作（关节角度等）的小 MLP。
End-effector Pose（末端执行器位姿）：机械臂最末端那个夹爪在空间中的位置 + 朝向，通常 6 或 7 维。

它和其他论文什么关系

正面对比：OpenVLA、RT-2-X、Octo——RoboMamba 主要在这些基线上证明"我更快"。
方法亲戚：Mamba（Gu & Dao 2023）是它的主干来源；视觉那侧借鉴了 LLaVA / SigLIP 这些 VL 模型。
同期 Mamba × 机器人：2024 年还有几篇试 Mamba 做策略网络的（比如 RoboMamba-style 的扩散策略变种），可以横向对照。
下游影响：之后若有人做"边缘设备上的 VLA"（机器人上不了 A100），RoboMamba 这条线会被频繁引用。
互补关系：跟 Diffusion Policy 不是竞争——Diffusion 强在动作多模态分布建模，Mamba 强在主干效率，理论上可以拼起来（Mamba 主干 + Diffusion 动作头）。

我建议这样读 — 3-4 步

先看 Figure 1 + 表 1（架构图 + 主结果表）。30 秒判断它到底比 OpenVLA 快多少、掉多少分。
跳到方法章读 Mamba 块怎么接进 VLA。重点搞清楚视觉 token 是怎么和语言 token 拼一起喂进 Mamba 的——顺序很关键。
看消融实验。特别是"换成 Transformer 同参数量"那行，决定了"Mamba 是不是真的有用"还是"只是因为参数少所以快"。
如果时间够，回头读 Mamba 原论文的 selective scan，否则方法章会看不懂为什么要"选择性"。

为什么值得读

趋势信号：2024 年开始 Mamba 在视觉、机器人各路线都在试探，RoboMamba 是机器人这边比较早的一个公开尝试。读它能看清"非 Transformer 主干在 VLA 里能走多远"。
工程价值：如果你以后要把 VLA 部署到真机（边缘 GPU 或者 Jetson），Transformer 的 KV cache 是真痛点。这篇给了一条不同路。
思维训练：它示范了一个常见研究套路——"把 X 模型从 NLP 搬到机器人"。看它怎么处理视觉 token 顺序、怎么做两阶段训练，对自己设计类似工作有参考。
读完能讨论：跟同事聊 VLA 时，能说出"线性 vs 二次复杂度对长 horizon 推理的影响"，比只会说"OpenVLA 很慢"高一档。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_robomamba_2026,
  title       = {(readable note) RoboMamba},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/robomamba/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)