End-to-End VLA · Plate Nº 115

DexVLA

7 min read · 2527 字 · ⭐⭐⭐⭐ · 短摘要

#diffusion #flow-matching #vision #manipulation #VLA #VLM

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

让一个只会"看图说话"的大脑别动，给它配一只 10 亿参数的"专业的手"。脑负责理解，手负责干活，互不干扰。

这是个什么场景

想象你家请了一个留学回来、博览群书的家教老师，让他帮你做晚饭。

他一眼就能认出"这是西红柿不是柿子"，听得懂"切成小丁、不要太细"是什么意思——可一让他真上手切，菜板上一片狼藉，因为他这辈子没怎么握过菜刀。

那怎么办？你可能想：送他去厨师学校强训三个月。结果是：刀工是练出来一点了，但他书也读得少了，常识开始模糊——见到没见过的食材就发懵。这在 AI 里叫灾难性遗忘（catastrophic forgetting，原本会的东西被新训练冲掉了）。

DexVLA 想的是另一条路：老师继续读他的书，别碰刀（VLM 冻结，参数不更新）。旁边再雇一个专门切菜的师傅（1B 参数的扩散动作专家）。老师负责看清盘子里有什么、告诉师傅你要切什么样，师傅负责把这句意图变成手上的具体动作。两人分工，谁也不耽误谁。

这就是这篇论文要解决的事：让"会看会说"的大模型，借一只外挂的手，真正干起活来。

之前的人怎么做的 — 3-5 bullet

RT-2（2023）：把动作离散化成 token（标记），让 VLM 直接 autoregressive 生成动作 token——优点是统一框架，缺点是动作精度受限于离散粒度，且需要全量 fine-tune VLM。
OpenVLA（2024）：开源版 RT-2 思路，7B VLM 全量微调输出动作 token，验证了"VLM 当 policy 主干"的可行性，但同样面临 fine-tune 后 VLM 通用能力受损的问题。
π₀ / π0.5（2024-2025）：在 VLM 上挂 Flow Matching（流匹配，扩散的近亲）动作头，把动作生成从离散 token 改成连续轨迹，开启了"VLM + 扩散动作头"路线。
TinyVLA（2024，同作者前作）：用更小的 VLM 配 Diffusion 动作头，证明小模型 + 动作专家的路线可行。
Diffusion Policy（2023）：纯动作侧的扩散策略，没有语言条件，证明扩散用来建模动作分布的多模态特别合适。

这篇论文的关键想法

核心是三句话：

VLM 像一个"翻译"，只把场景翻成行话，不亲自动手。它把摄像头看到的画面 + 你的指令，编码成一段中间表示（hidden representation，可以理解为"内部小抄"）传给下家。整个翻译过程它的参数全程不更新——这就是所谓冻结（freeze）。好处是：它在海量互联网数据上学到的常识和语言理解力不会被机器人那点小数据冲掉。
动作专家像一个"手艺学徒"，专门练手活。这是一个 1B 参数（10 亿参数）的扩散模型（Diffusion Model）。

等等，先慢一拍——扩散模型是什么？打个比方：你给一张清晰照片不停撒雪花点，撒到最后变成纯雪花屏；扩散模型学的本事是反过来——从一片雪花里一步步把照片抠出来。在这里"照片"换成"一段动作轨迹"，模型就学会了从随机噪声里逐步还原出"应该怎么动"的关节序列。规模做到 1B，是为了能 hold 住多种任务、多种机器人形态（embodiment，本体）。
训练像"先读万卷书，再走万里路，最后专攻一门手艺"。分三阶段：先用跨本体的大规模数据让动作专家"见世面"，再到目标机器人上特化，最后在具体任务上微调。这种课程学习（curriculum learning，按从易到难、从泛到专的顺序喂数据）是它能做出灵巧动作的关键。

一句话总结这篇论文的"赌注"：常识从冻结的 VLM 来，手艺从规模化的扩散专家来——分开练，比硬塞进一个网络效果更好。

它怎么做的（方法）— 3-4 段

Step 1：VLM 编码上下文。 输入是机器人当前观察（多视角 RGB 图）+ 语言指令（"把红色方块放到盘子里"）+ 本体状态（关节角度等）。VLM 主干（具体用的哪个 VLM 需读原文，常见选择是 Qwen2-VL / Florence-2 这类开源 VLM）跑一遍前向，产出一组 token 序列作为隐表示。关键：VLM 参数全程不更新。

Step 2：Diffusion Action Expert 条件生成动作。 这个 1B 专家是一个条件扩散模型，条件就是 Step 1 的 VLM 隐表示。训练时按标准扩散流程：给真实动作序列加噪声，专家学着去噪；推理时从纯噪声出发，迭代去噪 K 步（K 是扩散步数，常见 10-50），输出一段动作 chunk（动作块，通常是未来 0.5-2 秒的关节轨迹）。这种"输出一整段而不是单步"的做法跟 ACT、Diffusion Policy 一脉相承。

Step 3：训练课程分阶段。 第一阶段在 Open X-Embodiment 这类跨本体大规模数据上预训练动作专家（让它见过各种机器人、各种任务）；第二阶段在目标机器人（论文用的具体本体需读原文，可能是双臂 + 灵巧手）上特化；第三阶段在目标任务上做最后微调。这种 curriculum 有点像"先读万卷书，再走万里路，最后专攻一门手艺"。

Step 4：推理时端到端串起来。 实时控制循环里，每个时间步：拍照 → VLM 编码 → 动作专家去噪生成动作 chunk → 机器人执行前几步 → 下一帧再来。VLM 那一步是大头开销，所以 chunk 输出可以摊薄成本（生成一段动作可以跑好几个控制周期才需要再 query VLM）。

实验在做什么

公开资料显示 DexVLA 主打灵巧操作（dexterous manipulation）任务，典型类型包括：

长程任务（long-horizon）：连续好几步才能完成的家务级任务（比如叠衣服、收拾餐桌），考验 VLM 的指令理解和动作专家的稳定性。
多本体迁移：同一个动作专家是否能在不同机器人上跑（具体覆盖哪些本体需读原文）。
与 OpenVLA / π₀ 等 baseline 对比成功率。
消融（ablation）：冻结 vs 不冻结 VLM、动作专家规模（100M vs 1B）、训练课程是否完整。

具体数字（成功率、任务列表、对比对象的精确比分）需读原文——这是这篇笔记的一个明确缺口。

你应该懂的几个新词 — 4-6 个

VLA（Vision-Language-Action）：视觉-语言-动作模型。输入是图像 + 自然语言指令，输出是机器人动作。RT-2 是开山之作。
冻结（freeze）：神经网络训练里的术语。指某些参数在训练中不参与梯度更新，相当于"只读"。常用于保护预训练得来的能力。
Action Expert / Action Head：动作专家 / 动作头。挂在主干网络后面、专门负责输出动作的那部分子网络。DexVLA 的"专家"特指这个子网络做得很大（1B）。
Diffusion Model（扩散模型）：一类生成模型，原理是"从噪声里一步步还原信号"。在动作建模里特别适合，因为动作分布常常是多模态的（同一个目标可以有几条等效轨迹），扩散天然能 cover。
Action Chunk（动作块）：一次输出未来 N 步的动作序列，而不是单步。好处是减少 policy 调用次数 + 时序更平滑。ACT 论文里提出。
Curriculum Learning（课程学习）：训练策略。按"从易到难、从泛到专"的顺序喂数据，比一锅炖效果好。

它和其他论文什么关系

上游基础：站在 RT-2（VLM 当 policy）+ Diffusion Policy（扩散建动作）+ ACT（动作 chunk）这三条腿上。
直接前作：TinyVLA（同作者，小 VLM + 扩散头）；DexVLA 可看作 TinyVLA 的"放大且强化版"。
同代竞争：π₀ / π0.5（Physical Intelligence 公司，VLM + Flow Matching）走的是非常相似的路线，差异在动作头用 flow matching 还是 diffusion、训练数据规模、本体覆盖。两边算是 2025 年 frontier VLA 的双子星。
下游影响：之后任何想做"VLM + 大动作专家"的工作（包括开源复现），DexVLA / π₀ 都是必引 baseline。

读完 DexVLA，你应该能把"VLA 训练范式"分成两类：(A) 全量 fine-tune VLM 输出动作 token（RT-2、OpenVLA） vs (B) 冻结 VLM + 大动作专家（DexVLA、π₀），并能讲出各自的 trade-off。

我建议这样读 — 3-4 步

先看 Figure 1 + Method 总图：把"VLM 冻结 → 隐表示 → 扩散专家 → 动作 chunk"这条链路画明白。如果一眼看不懂，回去翻 RT-2 和 Diffusion Policy 的图。
跳到 Training Curriculum 章节：搞清楚三阶段分别用什么数据、训练什么参数、目标 loss 是什么。这是 DexVLA 区别于 π₀ 的核心工程细节。
看实验表格 + 消融：重点关注"冻结 vs 不冻结"和"动作专家 100M vs 1B"两个消融，这俩直接验证论文核心赌注是否成立。
可选：对比读 π₀ 论文——把两者的方法图并排放，列一个 5 行对比表（VLM 主干 / 动作头类型 / 数据规模 / 本体覆盖 / 主打任务），你对 frontier VLA 的格局会清楚很多。

为什么值得读

范式价值：DexVLA 是"冻 VLM + 大动作专家"路线最有代表性的论文之一，理解它就理解了 2025 frontier VLA 的主流思路。
工程深度：训练课程、跨本体预训练、动作专家规模化——这些在小论文里很难看到，DexVLA 把工程 know-how 摊开讲。
桥梁作用：上承 RT-2 / OpenVLA / Diffusion Policy 三条线索，下启所有"VLM + 扩散动作头"的工作。读完它，你能流畅切到 π₀、π0.5、smolvla、pi0-fast 等同类论文。
对 Jason 的特殊价值：你的研究路线偏 embodied AI 和 VLA，DexVLA 是你必须能复述方法图的那一档论文（不是过目即可，而是要能给别人讲清楚）。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_dexvla_2026,
  title       = {(readable note) DexVLA},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/dexvla/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)