回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
End-to-End VLA · Plate Nº 122

TinyVLA

7 min read · 2382 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

把会听话的机器人大脑瘦身到 1.4B,动作生成换成"先乱后凿"的扩散模型,不靠云端也能实时干活。

这是个什么场景 — 日常类比

想象你家里有个机器人帮你从冰箱拿可乐。你说"帮我拿一罐冰可乐",它得先看清冰箱里哪个是可乐、不是雪碧,然后控制手臂开门、伸手、抓住、递给你——一整套连续动作。

第一代这种帮手(OpenVLA、RT-2 这类)确实聪明,但它的"大脑"装在云端服务器里。每次你下一句指令,机器人都要把摄像头画面 + 你说的话打包发到云上,等服务器算完再把命令传回来。两个麻烦:

  • Wi-Fi 一断,机器人就站那儿发呆
  • 每个动作都要绕一大圈来回,反应慢、还烧带宽和电费

TinyVLA(Tiny VLA,迷你版视觉-语言-动作模型)想干的事,相当于把这颗大脑瘦身后直接塞进机器人身体里——脑子是小了,但因为关键的"动作生成"零件换成了一种更省力的电路(Diffusion 扩散头),整体活儿没掉太多,反应反而更快。

类比:手机本地小模型 vs 云端 GPT-4。同样的取舍 —— 稍微让一点能力上限,换"随时能用、便宜、低延迟"。

TinyVLA — 场景示意:这论文要解决的现实问题
Plate Nº ITinyVLA — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • RT-2(Google, 2023):把一个超大 VLM(视觉-语言模型)改造成 VLA,把动作离散化成 token 输出。强但巨大、慢,部署难。
  • OpenVLA(2024):开源 7B VLA,用 LLaMA-2 7B 底座 + DINOv2/SigLIP 视觉编码器。能力不错但 7B 在边缘 GPU 上仍然偏重。
  • RT-1:早期较小的 Transformer 策略,没有大语言底座,泛化和指令理解弱。
  • 传统 BC(Behavior Cloning)/ Diffusion Policy:动作生成质量好(尤其 Diffusion Policy),但缺少强语言条件化,听不太懂自然语言指令。
  • 共同问题:要么大而强但部署难,要么小而轻但语义弱。中间地带没人占。

这篇论文的关键想法

一个核心判断 + 一个工程选择。

核心判断:VLA 的瓶颈不是"语言理解",而是"在保持语言理解前提下把动作头做得高效"。换句话说,没必要把 7B 全用来做"画面 → 7-DoF 末端位姿"这件低维事,前段语言/视觉用一个相对小的多模态底座就够了。

工程选择:

  • 小一点的 VLM 底座(约 1.4B),保留语言指令理解和视觉抓取能力。
  • 接一个 Diffusion 解码头作为 action expert,专门做连续动作的生成。Diffusion Policy 已经在动作建模上证明很能打,把它当 VLA 的输出端,比离散化 action token 更自然、更准。
  • 配合参数高效微调,让 1.4B 底座能在不算太多机器人数据下学会执行指令。

一句话总结 idea:前端瘦身 + 后端换成 Diffusion,让 VLA 能在边缘端实时跑。

TinyVLA — 方法示意:核心 pipeline
Plate Nº IITinyVLA — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一段:底座 backbone(脑子的基本盘)。 就像盖楼不重新烧砖,直接买现成的预制板。TinyVLA 不从零训一个大 VLM(Vision-Language Model,视觉-语言模型),而是直接拿一个已经会看图说话的 1.4B 量级小型多模态模型当底座,在它头上接东西。这部分负责消化"你说的指令 + 当前画面",吐出一组浓缩好的条件特征(conditioning features,可以理解为"现在该干什么"的提示包),递给后面的动作生成模块。具体用了哪几个底座、各自指标如何,需读原文。

等等,先慢一拍 — 这里的"扩散(Diffusion)"是什么?

想象一张清晰的照片被慢慢加雪花点,最后变成一片纯噪声电视雪花画面。扩散模型干的事正好反过来:教神经网络从一片雪花里一步步"擦干净",还原出原图。把"原图"换成"一段机器人手臂动作序列",原理一样——从乱糟糟的随机数里逐步雕出一串靠谱动作。

第二段:Diffusion action head(动作生成头)。 像雕刻家:先抓一团黏土(噪声),照着草图一刀刀刻出动作姿态。具体来说,"给定条件特征 → 输出未来一小段动作 chunk(动作块,一次预测几步而不是只一步)"被建模成一个条件扩散过程。训练时把真实动作加噪让网络学着去噪;推理时从纯噪声出发,逐步去噪到一段干净动作序列。这条路子和 Diffusion Policy 一致,区别是条件来自 VLA 底座(带语言理解),而不只是视觉编码器,所以动作头既听得懂话,又保留扩散在动作平滑、多解上的优势。

第三段:训练策略(怎么教会它)。 像在已经会做菜的厨师身上加点新菜单培训,而不是从洗菜重学。为了不浪费底座的预训练能力,VLM 部分多采用 LoRA / 适配器这类参数高效微调(PEFT,只动一小撮参数,省显存又不破坏底座原本的本事)。具体配置需读原文。机器人数据走"任务指令 + 画面 + 演示动作"三元组,来源覆盖公开机器人数据集和作者自采任务。训练规模和具体数字需读原文。

第四段:部署(让它真在机器人身上跑起来)。 像把单反相机塞进手机壳——核心是想办法在小算力上保住关键能力。1.4B 比 7B 在消费级 GPU 甚至边缘加速器上塞得更轻松。扩散推理本身比"一步出一个 token"那种解码慢,但论文应该用了减少去噪步数(DDIM、consistency 等技巧)来把控制频率拉到可接受的实时水平,具体频率和硬件平台需读原文。

实验在做什么

主线就是想回答三个问题:

  • 能力是否够:在常见操作任务(抓取、放置、开抽屉、插入等)上,TinyVLA 能不能达到 OpenVLA 等大模型的接近水平?
  • 效率是否真的赢:参数量、显存、推理延迟、控制频率,相对 7B 量级的 VLA 是不是有量级差异?
  • 设计选择是否成立:消融 backbone 大小、是否换 Diffusion 头、是否做参数高效微调,看每一项贡献。

具体实验涵盖仿真(如 LIBERO、Meta-World 之类的 benchmark)和真机任务,具体任务清单和成功率数字需读原文。

你应该懂的几个新词 — 4-6 个

  • VLA(Vision-Language-Action):吃画面 + 文本指令,吐机器人动作的策略模型。把 VLM 拉进机器人控制。
  • Action token:把连续的关节/末端动作离散化成一串符号 token,让语言模型像生成文字一样"生成动作"(RT-2 路线)。
  • Diffusion Policy:把动作生成建模为去噪过程,能很好处理多模态分布(同一个画面下有多种合理动作)和平滑轨迹。
  • Action chunk:一次预测未来 N 步动作,而不是一步一动。能减小决策频率、提高一致性(来自 ACT/Diffusion Policy 的实践)。
  • 参数高效微调(PEFT,例如 LoRA):只在一小部分参数上学习,省显存、不破坏底座知识。
  • Action expert / 解码头:在统一底座上分出来专门负责动作输出的小模块。Pi0、TinyVLA 都是这种"backbone + action head"的结构。

它和其他论文什么关系

  • vs OpenVLA:同样是开源 VLA,但 OpenVLA 是 7B + 离散化 action token;TinyVLA 走"小 + 连续 Diffusion"路线,是另一个设计点的代表。
  • vs Pi0 / Pi0.5:Pi 系列也是 VLA + flow matching/diffusion 风格的 action expert,思路上是亲戚。Pi0 偏研究尺度更大、数据更大;TinyVLA 偏"够用 + 能部署"。
  • vs Diffusion Policy / DP3:TinyVLA 的动作头继承自这条线,但加了 VLM 条件化,让"听懂自然语言指令"成为可能。
  • vs SmolVLA:同属"把 VLA 做小"路线,可以横向对比它们在 backbone 选择、action head、数据配方上的不同选择。
  • 下游影响:之后一系列 "VLA on the edge" 工作都把 TinyVLA 当作小模型 baseline。

我建议这样读 — 3-4 步

  1. 先读 abstract + introduction + 一张系统总图,把"backbone 多大 / action head 是什么 / 部署到什么硬件"这三件事在心里写下答案。
  2. 直接跳到方法的 action head 一节,对照 Diffusion Policy 原文看条件如何接入,理解"VLM 特征 → 噪声 → 动作"的数据流。
  3. 看主实验表 + 效率表(参数量、延迟、控制频率),把它和 OpenVLA、Diffusion Policy、Pi0 横着摆。
  4. 最后扫消融,确认"换小 backbone / 换 Diffusion 头 / 做 PEFT"哪几项是真正贡献,哪几项是顺手做的。

为什么值得读

它代表了 VLA 领域一个明确的方向转折:从"做大做强"到"做小做能部署"。如果你关心的是机器人真正能在产品里落地(边缘算力、延迟、电池、成本),那 7B+ 的 VLA 就是天花板挡路;TinyVLA 这条路证明了 1.4B 量级 + Diffusion 头是可以走通的,并直接启发了后续 SmolVLA 等工作。读它能让你建立"VLA 不是只有一个 size 一个范式"的直觉,也能让你在选型时多一个工程上更现实的候选。

引用本笔记 / Cite this note
BibTeX
@online{eai_tinyvla_2026,
  title       = {(readable note) TinyVLA},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/tinyvla/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim