End-to-End VLA · Plate Nº 122

TinyVLA

7 min read · 2382 字 · ⭐⭐⭐ · 短摘要

#diffusion #flow-matching #transformer #language #vision #imitation

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

把会听话的机器人大脑瘦身到 1.4B，动作生成换成"先乱后凿"的扩散模型，不靠云端也能实时干活。

这是个什么场景 — 日常类比

想象你家里有个机器人帮你从冰箱拿可乐。你说"帮我拿一罐冰可乐"，它得先看清冰箱里哪个是可乐、不是雪碧，然后控制手臂开门、伸手、抓住、递给你——一整套连续动作。

第一代这种帮手（OpenVLA、RT-2 这类）确实聪明，但它的"大脑"装在云端服务器里。每次你下一句指令，机器人都要把摄像头画面 + 你说的话打包发到云上，等服务器算完再把命令传回来。两个麻烦：

Wi-Fi 一断，机器人就站那儿发呆
每个动作都要绕一大圈来回，反应慢、还烧带宽和电费

TinyVLA（Tiny VLA，迷你版视觉-语言-动作模型）想干的事，相当于把这颗大脑瘦身后直接塞进机器人身体里——脑子是小了，但因为关键的"动作生成"零件换成了一种更省力的电路（Diffusion 扩散头），整体活儿没掉太多，反应反而更快。

类比：手机本地小模型 vs 云端 GPT-4。同样的取舍 —— 稍微让一点能力上限，换"随时能用、便宜、低延迟"。

之前的人怎么做的 — 3-5 bullet

RT-2（Google, 2023）：把一个超大 VLM（视觉-语言模型）改造成 VLA，把动作离散化成 token 输出。强但巨大、慢，部署难。
OpenVLA（2024）：开源 7B VLA，用 LLaMA-2 7B 底座 + DINOv2/SigLIP 视觉编码器。能力不错但 7B 在边缘 GPU 上仍然偏重。
RT-1：早期较小的 Transformer 策略，没有大语言底座，泛化和指令理解弱。
传统 BC（Behavior Cloning）/ Diffusion Policy：动作生成质量好（尤其 Diffusion Policy），但缺少强语言条件化，听不太懂自然语言指令。
共同问题：要么大而强但部署难，要么小而轻但语义弱。中间地带没人占。

这篇论文的关键想法

一个核心判断 + 一个工程选择。

核心判断：VLA 的瓶颈不是"语言理解"，而是"在保持语言理解前提下把动作头做得高效"。换句话说，没必要把 7B 全用来做"画面 → 7-DoF 末端位姿"这件低维事，前段语言/视觉用一个相对小的多模态底座就够了。

工程选择：

小一点的 VLM 底座（约 1.4B），保留语言指令理解和视觉抓取能力。
接一个 Diffusion 解码头作为 action expert，专门做连续动作的生成。Diffusion Policy 已经在动作建模上证明很能打，把它当 VLA 的输出端，比离散化 action token 更自然、更准。
配合参数高效微调，让 1.4B 底座能在不算太多机器人数据下学会执行指令。

一句话总结 idea：前端瘦身 + 后端换成 Diffusion，让 VLA 能在边缘端实时跑。

它怎么做的（方法）— 3-4 段

第一段：底座 backbone（脑子的基本盘）。 就像盖楼不重新烧砖，直接买现成的预制板。TinyVLA 不从零训一个大 VLM（Vision-Language Model，视觉-语言模型），而是直接拿一个已经会看图说话的 1.4B 量级小型多模态模型当底座，在它头上接东西。这部分负责消化"你说的指令 + 当前画面"，吐出一组浓缩好的条件特征（conditioning features，可以理解为"现在该干什么"的提示包），递给后面的动作生成模块。具体用了哪几个底座、各自指标如何，需读原文。

等等，先慢一拍 — 这里的"扩散（Diffusion）"是什么？

想象一张清晰的照片被慢慢加雪花点，最后变成一片纯噪声电视雪花画面。扩散模型干的事正好反过来：教神经网络从一片雪花里一步步"擦干净"，还原出原图。把"原图"换成"一段机器人手臂动作序列"，原理一样——从乱糟糟的随机数里逐步雕出一串靠谱动作。

第二段：Diffusion action head（动作生成头）。 像雕刻家：先抓一团黏土（噪声），照着草图一刀刀刻出动作姿态。具体来说，"给定条件特征 → 输出未来一小段动作 chunk（动作块，一次预测几步而不是只一步）"被建模成一个条件扩散过程。训练时把真实动作加噪让网络学着去噪；推理时从纯噪声出发，逐步去噪到一段干净动作序列。这条路子和 Diffusion Policy 一致，区别是条件来自 VLA 底座（带语言理解），而不只是视觉编码器，所以动作头既听得懂话，又保留扩散在动作平滑、多解上的优势。

第三段：训练策略（怎么教会它）。 像在已经会做菜的厨师身上加点新菜单培训，而不是从洗菜重学。为了不浪费底座的预训练能力，VLM 部分多采用 LoRA / 适配器这类参数高效微调（PEFT，只动一小撮参数，省显存又不破坏底座原本的本事）。具体配置需读原文。机器人数据走"任务指令 + 画面 + 演示动作"三元组，来源覆盖公开机器人数据集和作者自采任务。训练规模和具体数字需读原文。

第四段：部署（让它真在机器人身上跑起来）。 像把单反相机塞进手机壳——核心是想办法在小算力上保住关键能力。1.4B 比 7B 在消费级 GPU 甚至边缘加速器上塞得更轻松。扩散推理本身比"一步出一个 token"那种解码慢，但论文应该用了减少去噪步数（DDIM、consistency 等技巧）来把控制频率拉到可接受的实时水平，具体频率和硬件平台需读原文。

实验在做什么

主线就是想回答三个问题：

能力是否够：在常见操作任务（抓取、放置、开抽屉、插入等）上，TinyVLA 能不能达到 OpenVLA 等大模型的接近水平？
效率是否真的赢：参数量、显存、推理延迟、控制频率，相对 7B 量级的 VLA 是不是有量级差异？
设计选择是否成立：消融 backbone 大小、是否换 Diffusion 头、是否做参数高效微调，看每一项贡献。

具体实验涵盖仿真（如 LIBERO、Meta-World 之类的 benchmark）和真机任务，具体任务清单和成功率数字需读原文。

你应该懂的几个新词 — 4-6 个

VLA（Vision-Language-Action）：吃画面 + 文本指令，吐机器人动作的策略模型。把 VLM 拉进机器人控制。
Action token：把连续的关节/末端动作离散化成一串符号 token，让语言模型像生成文字一样"生成动作"（RT-2 路线）。
Diffusion Policy：把动作生成建模为去噪过程，能很好处理多模态分布（同一个画面下有多种合理动作）和平滑轨迹。
Action chunk：一次预测未来 N 步动作，而不是一步一动。能减小决策频率、提高一致性（来自 ACT/Diffusion Policy 的实践）。
参数高效微调（PEFT，例如 LoRA）：只在一小部分参数上学习，省显存、不破坏底座知识。
Action expert / 解码头：在统一底座上分出来专门负责动作输出的小模块。Pi0、TinyVLA 都是这种"backbone + action head"的结构。

它和其他论文什么关系

vs OpenVLA：同样是开源 VLA，但 OpenVLA 是 7B + 离散化 action token；TinyVLA 走"小 + 连续 Diffusion"路线，是另一个设计点的代表。
vs Pi0 / Pi0.5：Pi 系列也是 VLA + flow matching/diffusion 风格的 action expert，思路上是亲戚。Pi0 偏研究尺度更大、数据更大；TinyVLA 偏"够用 + 能部署"。
vs Diffusion Policy / DP3：TinyVLA 的动作头继承自这条线，但加了 VLM 条件化，让"听懂自然语言指令"成为可能。
vs SmolVLA：同属"把 VLA 做小"路线，可以横向对比它们在 backbone 选择、action head、数据配方上的不同选择。
下游影响：之后一系列 "VLA on the edge" 工作都把 TinyVLA 当作小模型 baseline。

我建议这样读 — 3-4 步

先读 abstract + introduction + 一张系统总图，把"backbone 多大 / action head 是什么 / 部署到什么硬件"这三件事在心里写下答案。
直接跳到方法的 action head 一节，对照 Diffusion Policy 原文看条件如何接入，理解"VLM 特征 → 噪声 → 动作"的数据流。
看主实验表 + 效率表（参数量、延迟、控制频率），把它和 OpenVLA、Diffusion Policy、Pi0 横着摆。
最后扫消融，确认"换小 backbone / 换 Diffusion 头 / 做 PEFT"哪几项是真正贡献，哪几项是顺手做的。

为什么值得读

它代表了 VLA 领域一个明确的方向转折：从"做大做强"到"做小做能部署"。如果你关心的是机器人真正能在产品里落地（边缘算力、延迟、电池、成本），那 7B+ 的 VLA 就是天花板挡路；TinyVLA 这条路证明了 1.4B 量级 + Diffusion 头是可以走通的，并直接启发了后续 SmolVLA 等工作。读它能让你建立"VLA 不是只有一个 size 一个范式"的直觉，也能让你在选型时多一个工程上更现实的候选。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_tinyvla_2026,
  title       = {(readable note) TinyVLA},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/tinyvla/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)