回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
End-to-End VLA · Plate Nº 115

DexVLA

7 min read · 2527 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

让一个只会"看图说话"的大脑别动,给它配一只 10 亿参数的"专业的手"。脑负责理解,手负责干活,互不干扰。

这是个什么场景

想象你家请了一个留学回来、博览群书的家教老师,让他帮你做晚饭。

他一眼就能认出"这是西红柿不是柿子",听得懂"切成小丁、不要太细"是什么意思——可一让他真上手切,菜板上一片狼藉,因为他这辈子没怎么握过菜刀。

那怎么办?你可能想:送他去厨师学校强训三个月。结果是:刀工是练出来一点了,但他书也读得少了,常识开始模糊——见到没见过的食材就发懵。这在 AI 里叫灾难性遗忘(catastrophic forgetting,原本会的东西被新训练冲掉了)。

DexVLA 想的是另一条路:老师继续读他的书,别碰刀(VLM 冻结,参数不更新)。旁边再雇一个专门切菜的师傅(1B 参数的扩散动作专家)。老师负责看清盘子里有什么、告诉师傅你要切什么样,师傅负责把这句意图变成手上的具体动作。两人分工,谁也不耽误谁。

这就是这篇论文要解决的事:让"会看会说"的大模型,借一只外挂的手,真正干起活来。

DexVLA — 场景示意:这论文要解决的现实问题
Plate Nº IDexVLA — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • RT-2(2023):把动作离散化成 token(标记),让 VLM 直接 autoregressive 生成动作 token——优点是统一框架,缺点是动作精度受限于离散粒度,且需要全量 fine-tune VLM。
  • OpenVLA(2024):开源版 RT-2 思路,7B VLM 全量微调输出动作 token,验证了"VLM 当 policy 主干"的可行性,但同样面临 fine-tune 后 VLM 通用能力受损的问题。
  • π₀ / π0.5(2024-2025):在 VLM 上挂 Flow Matching(流匹配,扩散的近亲)动作头,把动作生成从离散 token 改成连续轨迹,开启了"VLM + 扩散动作头"路线。
  • TinyVLA(2024,同作者前作):用更小的 VLM 配 Diffusion 动作头,证明小模型 + 动作专家的路线可行。
  • Diffusion Policy(2023):纯动作侧的扩散策略,没有语言条件,证明扩散用来建模动作分布的多模态特别合适。

这篇论文的关键想法

核心是三句话:

  1. VLM 像一个"翻译",只把场景翻成行话,不亲自动手。它把摄像头看到的画面 + 你的指令,编码成一段中间表示(hidden representation,可以理解为"内部小抄")传给下家。整个翻译过程它的参数全程不更新——这就是所谓冻结(freeze)。好处是:它在海量互联网数据上学到的常识和语言理解力不会被机器人那点小数据冲掉。

  2. 动作专家像一个"手艺学徒",专门练手活。这是一个 1B 参数(10 亿参数)的扩散模型(Diffusion Model)。

    等等,先慢一拍——扩散模型是什么?打个比方:你给一张清晰照片不停撒雪花点,撒到最后变成纯雪花屏;扩散模型学的本事是反过来——从一片雪花里一步步把照片抠出来。在这里"照片"换成"一段动作轨迹",模型就学会了从随机噪声里逐步还原出"应该怎么动"的关节序列。规模做到 1B,是为了能 hold 住多种任务、多种机器人形态(embodiment,本体)。

  3. 训练像"先读万卷书,再走万里路,最后专攻一门手艺"。分三阶段:先用跨本体的大规模数据让动作专家"见世面",再到目标机器人上特化,最后在具体任务上微调。这种课程学习(curriculum learning,按从易到难、从泛到专的顺序喂数据)是它能做出灵巧动作的关键。

一句话总结这篇论文的"赌注":常识从冻结的 VLM 来,手艺从规模化的扩散专家来——分开练,比硬塞进一个网络效果更好

DexVLA — 方法示意:核心 pipeline
Plate Nº IIDexVLA — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

Step 1:VLM 编码上下文。 输入是机器人当前观察(多视角 RGB 图)+ 语言指令("把红色方块放到盘子里")+ 本体状态(关节角度等)。VLM 主干(具体用的哪个 VLM 需读原文,常见选择是 Qwen2-VL / Florence-2 这类开源 VLM)跑一遍前向,产出一组 token 序列作为隐表示。关键:VLM 参数全程不更新。

Step 2:Diffusion Action Expert 条件生成动作。 这个 1B 专家是一个条件扩散模型,条件就是 Step 1 的 VLM 隐表示。训练时按标准扩散流程:给真实动作序列加噪声,专家学着去噪;推理时从纯噪声出发,迭代去噪 K 步(K 是扩散步数,常见 10-50),输出一段动作 chunk(动作块,通常是未来 0.5-2 秒的关节轨迹)。这种"输出一整段而不是单步"的做法跟 ACT、Diffusion Policy 一脉相承。

Step 3:训练课程分阶段。 第一阶段在 Open X-Embodiment 这类跨本体大规模数据上预训练动作专家(让它见过各种机器人、各种任务);第二阶段在目标机器人(论文用的具体本体需读原文,可能是双臂 + 灵巧手)上特化;第三阶段在目标任务上做最后微调。这种 curriculum 有点像"先读万卷书,再走万里路,最后专攻一门手艺"。

Step 4:推理时端到端串起来。 实时控制循环里,每个时间步:拍照 → VLM 编码 → 动作专家去噪生成动作 chunk → 机器人执行前几步 → 下一帧再来。VLM 那一步是大头开销,所以 chunk 输出可以摊薄成本(生成一段动作可以跑好几个控制周期才需要再 query VLM)。

实验在做什么

公开资料显示 DexVLA 主打灵巧操作(dexterous manipulation)任务,典型类型包括:

  • 长程任务(long-horizon):连续好几步才能完成的家务级任务(比如叠衣服、收拾餐桌),考验 VLM 的指令理解和动作专家的稳定性。
  • 多本体迁移:同一个动作专家是否能在不同机器人上跑(具体覆盖哪些本体需读原文)。
  • 与 OpenVLA / π₀ 等 baseline 对比成功率。
  • 消融(ablation):冻结 vs 不冻结 VLM、动作专家规模(100M vs 1B)、训练课程是否完整。

具体数字(成功率、任务列表、对比对象的精确比分)需读原文——这是这篇笔记的一个明确缺口。

你应该懂的几个新词 — 4-6 个

  • VLA(Vision-Language-Action):视觉-语言-动作模型。输入是图像 + 自然语言指令,输出是机器人动作。RT-2 是开山之作。
  • 冻结(freeze):神经网络训练里的术语。指某些参数在训练中不参与梯度更新,相当于"只读"。常用于保护预训练得来的能力。
  • Action Expert / Action Head:动作专家 / 动作头。挂在主干网络后面、专门负责输出动作的那部分子网络。DexVLA 的"专家"特指这个子网络做得很大(1B)。
  • Diffusion Model(扩散模型):一类生成模型,原理是"从噪声里一步步还原信号"。在动作建模里特别适合,因为动作分布常常是多模态的(同一个目标可以有几条等效轨迹),扩散天然能 cover。
  • Action Chunk(动作块):一次输出未来 N 步的动作序列,而不是单步。好处是减少 policy 调用次数 + 时序更平滑。ACT 论文里提出。
  • Curriculum Learning(课程学习):训练策略。按"从易到难、从泛到专"的顺序喂数据,比一锅炖效果好。

它和其他论文什么关系

  • 上游基础:站在 RT-2(VLM 当 policy)+ Diffusion Policy(扩散建动作)+ ACT(动作 chunk)这三条腿上。
  • 直接前作:TinyVLA(同作者,小 VLM + 扩散头);DexVLA 可看作 TinyVLA 的"放大且强化版"。
  • 同代竞争:π₀ / π0.5(Physical Intelligence 公司,VLM + Flow Matching)走的是非常相似的路线,差异在动作头用 flow matching 还是 diffusion、训练数据规模、本体覆盖。两边算是 2025 年 frontier VLA 的双子星。
  • 下游影响:之后任何想做"VLM + 大动作专家"的工作(包括开源复现),DexVLA / π₀ 都是必引 baseline。

读完 DexVLA,你应该能把"VLA 训练范式"分成两类:(A) 全量 fine-tune VLM 输出动作 token(RT-2、OpenVLA) vs (B) 冻结 VLM + 大动作专家(DexVLA、π₀),并能讲出各自的 trade-off。

我建议这样读 — 3-4 步

  1. 先看 Figure 1 + Method 总图:把"VLM 冻结 → 隐表示 → 扩散专家 → 动作 chunk"这条链路画明白。如果一眼看不懂,回去翻 RT-2 和 Diffusion Policy 的图。
  2. 跳到 Training Curriculum 章节:搞清楚三阶段分别用什么数据、训练什么参数、目标 loss 是什么。这是 DexVLA 区别于 π₀ 的核心工程细节。
  3. 看实验表格 + 消融:重点关注"冻结 vs 不冻结"和"动作专家 100M vs 1B"两个消融,这俩直接验证论文核心赌注是否成立。
  4. 可选:对比读 π₀ 论文——把两者的方法图并排放,列一个 5 行对比表(VLM 主干 / 动作头类型 / 数据规模 / 本体覆盖 / 主打任务),你对 frontier VLA 的格局会清楚很多。

为什么值得读

  • 范式价值:DexVLA 是"冻 VLM + 大动作专家"路线最有代表性的论文之一,理解它就理解了 2025 frontier VLA 的主流思路。
  • 工程深度:训练课程、跨本体预训练、动作专家规模化——这些在小论文里很难看到,DexVLA 把工程 know-how 摊开讲。
  • 桥梁作用:上承 RT-2 / OpenVLA / Diffusion Policy 三条线索,下启所有"VLM + 扩散动作头"的工作。读完它,你能流畅切到 π₀、π0.5、smolvla、pi0-fast 等同类论文。
  • 对 Jason 的特殊价值:你的研究路线偏 embodied AI 和 VLA,DexVLA 是你必须能复述方法图的那一档论文(不是过目即可,而是要能给别人讲清楚)。

引用本笔记 / Cite this note
BibTeX
@online{eai_dexvla_2026,
  title       = {(readable note) DexVLA},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/dexvla/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim