回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
End-to-End VLA · Plate Nº 120

RoboMamba

6 min read · 1977 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

机器人脑子原本用 Transformer 拼出来,反应慢、显存吃紧。RoboMamba 换成 Mamba(一种"流水线式"架构),让机器人想得更快、更省。

这是个什么场景 — 日常类比

你刚下班回家,瘫在沙发上,对厨房里的机器人喊一句:"把桌上那个红苹果递给我。"它要在两秒内做三件事:

  1. (摄像头里哪个是苹果,桌子在哪)
  2. 听懂("红的"、"那个"指什么)
  3. (手臂关节怎么转、夹爪什么时候合)

过去的 VLA(Vision-Language-Action,视觉-语言-动作模型,比如 RT-2、OpenVLA)靠 Transformer 把这三件事缝在一起。Transformer 像一家全员大会的公司——每加一个员工,所有人都得重新听一遍他发言,会议时间是平方级膨胀。摄像头切高清,图像 token 翻一倍,机器人脑子的反应就掉一截。

Mamba 把"全员大会"改成流水线传话——每个人只看自己手上的纸条 + 上一个人塞过来的便签,开会人数翻倍,时间也只翻倍(线性增长)。RoboMamba 就是把这套"流水线"装进机器人脑子里。

RoboMamba — 场景示意:这论文要解决的现实问题
Plate Nº IRoboMamba — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • RT-2(Google 2023):把 VLM 直接当机器人策略用,动作离散化成 token,Transformer 一把梭,效果好但推理慢。
  • OpenVLA(2024):开源版 RT-2 路线,7B 参数,靠 LLaMA 主干,部署成本高。
  • Octo / Diffusion Policy:用扩散模型出动作,但对语言指令的理解相对薄。
  • 共同瓶颈:Transformer 的 二次复杂度(quadratic complexity)——序列越长越慢,机器人实时控制(要 10Hz+ 出动作)压力大。
  • 还有一类做法是把 VLM 冻住只学一个小动作头(action head),但这样推理时整个 VLM 还得跑一遍,没省。

这篇论文的关键想法

核心赌注:线性复杂度的 Mamba 主干 + 简洁的动作头,能在保持 VLA 能力的同时大幅降低推理开销。

三个判断:

  1. 视觉理解和指令理解不一定非得 Transformer。Mamba 在长序列建模上已经在 NLP 证明能跟 Transformer 打平。
  2. 机器人动作输出本质上是个低维向量(关节角、夹爪开合),不需要超大的 decoder。
  3. 训练阶段先学"看懂世界"(co-train 在通用 VL 数据上),再学"动起来"(在机器人数据上微调),可以用很少机器人数据撬动好的泛化。
RoboMamba — 方法示意:核心 pipeline
Plate Nº IIRoboMamba — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

阶段 1:先教它看图说话。 像新员工入职先培训"认识公司产品"——RoboMamba 先不碰机器人,纯学"图配文字"。把视觉编码器(CLIP 或 SigLIP,把图切成小方块再编码的网络)输出的 patch 特征当 token,跟语言 token 拼一起喂给 Mamba 主干,让它学图文配对、VQA(看图回答问题)。这一步走完,Mamba 已经能"看图说话"。

阶段 2:再教它动手。 像培训完产品的员工被派去仓库搬箱子——在机器人数据集(真机 + 仿真,具体配比需读原文)上挂一个轻量的 policy head(动作头),输入是 Mamba 最后一层的 hidden state,输出是末端执行器(机械臂最末端那个夹爪)的位姿或关节增量。动作头故意做得很小,因为重活已经被主干干完了。

等等,先慢一拍 — Mamba 块里到底发生了什么? 一句话:它是个会挑重点的传话员。Mamba 的核心叫"选择性扫描(selective scan)"——每来一个 token,它会根据内容动态决定"这条信息往状态里塞多少、忘掉多少"。这跟 RNN(循环神经网络,按顺序传话的老架构)的固定遗忘门不一样,是看内容下菜的。所以它既有 RNN 的"线性传话"速度,又有 Transformer 的"按需关注"判断力。

为啥推理时特别爽? Transformer 每吐一个新 token,都要回头翻所有历史 token 的笔记(KV cache 越积越大,像越攒越厚的会议纪要)。Mamba 只维护一个固定大小的隐状态——不管聊了多久,本子就那么厚。对"把桌上东西一个个收进抽屉"这种几十步连续操作(长 horizon 任务),延迟不会越拖越夸张。

实验在做什么

论文应该围绕三类问题:

  1. 能力对比:在 SimplerEnv / VLABench 这类机器人 benchmark 上,跟 OpenVLA、RT-2 比成功率。具体数字需读原文。
  2. 效率对比:推理延迟、显存、参数量。Mamba 路线的卖点就是这里——通常会贴一张"延迟 vs 任务成功率"的散点图,证明自己在帕累托前沿。
  3. 消融:去掉 VL 预训练 / 换 Transformer 主干 / 改动作头大小,分别掉多少。这种消融能告诉你"哪个设计最关键"。

读论文时重点看实验段的 延迟数字长序列任务——如果 Mamba 真有线性优势,应该在长 horizon 任务上拉开差距。

你应该懂的几个新词 — 4-6 个

  • VLA(Vision-Language-Action):视觉-语言-动作模型,吃图 + 指令,吐机器人动作。
  • SSM(State Space Model,状态空间模型):用一个隐状态向量在序列上线性递推的模型族,Mamba 是其中一员。
  • Selective Scan(选择性扫描):Mamba 的核心,让状态更新依赖当前输入内容,相当于"动态遗忘门"。
  • 二次复杂度 / 线性复杂度:Transformer 的注意力是 O(n²),Mamba 是 O(n),n 是序列长度。
  • Action Head(动作头):把语言模型 hidden state 映射成连续动作(关节角度等)的小 MLP。
  • End-effector Pose(末端执行器位姿):机械臂最末端那个夹爪在空间中的位置 + 朝向,通常 6 或 7 维。

它和其他论文什么关系

  • 正面对比:OpenVLA、RT-2-X、Octo——RoboMamba 主要在这些基线上证明"我更快"。
  • 方法亲戚:Mamba(Gu & Dao 2023)是它的主干来源;视觉那侧借鉴了 LLaVA / SigLIP 这些 VL 模型。
  • 同期 Mamba × 机器人:2024 年还有几篇试 Mamba 做策略网络的(比如 RoboMamba-style 的扩散策略变种),可以横向对照。
  • 下游影响:之后若有人做"边缘设备上的 VLA"(机器人上不了 A100),RoboMamba 这条线会被频繁引用。
  • 互补关系:跟 Diffusion Policy 不是竞争——Diffusion 强在动作多模态分布建模,Mamba 强在主干效率,理论上可以拼起来(Mamba 主干 + Diffusion 动作头)。

我建议这样读 — 3-4 步

  1. 先看 Figure 1 + 表 1(架构图 + 主结果表)。30 秒判断它到底比 OpenVLA 快多少、掉多少分。
  2. 跳到方法章读 Mamba 块怎么接进 VLA。重点搞清楚视觉 token 是怎么和语言 token 拼一起喂进 Mamba 的——顺序很关键。
  3. 看消融实验。特别是"换成 Transformer 同参数量"那行,决定了"Mamba 是不是真的有用"还是"只是因为参数少所以快"。
  4. 如果时间够,回头读 Mamba 原论文的 selective scan,否则方法章会看不懂为什么要"选择性"。

为什么值得读

  • 趋势信号:2024 年开始 Mamba 在视觉、机器人各路线都在试探,RoboMamba 是机器人这边比较早的一个公开尝试。读它能看清"非 Transformer 主干在 VLA 里能走多远"。
  • 工程价值:如果你以后要把 VLA 部署到真机(边缘 GPU 或者 Jetson),Transformer 的 KV cache 是真痛点。这篇给了一条不同路。
  • 思维训练:它示范了一个常见研究套路——"把 X 模型从 NLP 搬到机器人"。看它怎么处理视觉 token 顺序、怎么做两阶段训练,对自己设计类似工作有参考。
  • 读完能讨论:跟同事聊 VLA 时,能说出"线性 vs 二次复杂度对长 horizon 推理的影响",比只会说"OpenVLA 很慢"高一档。

引用本笔记 / Cite this note
BibTeX
@online{eai_robomamba_2026,
  title       = {(readable note) RoboMamba},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/robomamba/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim