回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Diffusion Policy · Plate Nº 46

FAST: Efficient Action Tokenization for VLA

7 min read · 2492 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

机器人动作又长又啰嗦塞不进 AI 模型,FAST 学 MP3 压音乐的办法,把一长串动作压成几十个"词",AI 像说话一样把它念出来。

这是个什么场景

想象你想用微信发一段 30 秒的钢琴录音给朋友。

最笨的办法是把声波每一瞬间的振幅都发过去——一秒钟 44100 个数字,30 秒就是 132 万个,慢得离谱。所以现实里大家发的都是 MP3:MP3 偷偷做了一件事——把声音拆成"主旋律(低频,谁都听得出来的那部分)"和"细节装饰(高频,去掉一点也没人听得出)",主旋律保留得多,细节砍掉一些,最后只要几千个数字就够还原。

机器人这边遇到的是同一个尴尬。一只机械臂做"把杯子放到桌上"这件事,要 50 步、每步 7 个关节角度,光这一个动作就是 350 个浮点数。把它原封不动塞给 AI 模型(就像把原始波形塞给微信),模型要"读"很久才能"说"出来。FAST 想的就是 MP3 那招:把这一长串动作先换成"低频主干 + 高频抖动"两部分,砍掉无关紧要的高频抖动,最后只剩几十个 token,AI 念起来就快了。

所以这一节是想说:动作和声音一样,本质上是一段时间序列,前人发明的频域压缩可以直接搬过来用。

FAST — 场景示意:这论文要解决的现实问题
Plate Nº IFAST — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 逐步离散化(如 RT-2、OpenVLA):把每个时间步、每个关节维度独立量化成一个 token。问题:token 数量随动作长度线性爆炸,且没利用动作的时序冗余。
  • Diffusion Policy / Action Chunking:直接在连续空间预测整段 action chunk,效果好但推理需要多步去噪,慢。
  • 简单 binning:把每个浮点数切成 256 个桶变成离散值——粗暴、损失大、高频信号尤其惨。
  • VQ-VAE 编码动作:用学出来的 codebook 离散化。问题:codebook 训练不稳定,跨 embodiment 迁移差。
  • 共同痛点:要么 token 太多(训练慢推理慢),要么细节丢太多(高频精细动作做不了)。

这篇论文的关键想法

打个比方:你听一首歌,主旋律(低频)一直在;偶尔的高音华彩(高频)只是点缀。如果让你只用 30 个音符把这首歌写下来,你肯定先抓主旋律——这就是 FAST 的核心直觉。

核心 insight:机器人动作放到频域里看,绝大部分"能量"都集中在低频(整体的伸手、抓握、放下这种大动作趋势),高频(手指抖动、微调)只占一小撮。所以不要在时间轴上一格一格地切动作,换个角度(basis,基底)从频域看,自然就压缩了。

等等,先慢一拍——什么叫"频域"?

简单说:同一段动作可以用两种方式描述。一是"每一秒手在哪里"(时域,像逐帧看视频);二是"这段动作里慢节奏成分有多强、快节奏成分有多强"(频域,像看歌曲的频谱图)。DCT(Discrete Cosine Transform,离散余弦变换)就是把第一种描述翻译成第二种描述的固定公式,JPEG 压图、MP3 压音乐都用它。

而 DCT 还有一个隐藏优势:它不需要训练。同时代另一条路线 VQ-VAE 是让神经网络自己学一本"动作字典"(codebook),但训练经常不稳。FAST 干脆用几十年前数学家就推好的那本"字典"——稳定、可移植、零成本。

配套:作者还训了一个通用 tokenizer FAST+,号称在多种机器人 embodiment(机器人形态/构型)上都能用,不必每换一台机器人就重训一次。

所以这一节是想说:动作的"信息浓度"集中在低频,用一个现成的、不用学的变换就能把它榨出来。

FAST — 方法示意:核心 pipeline
Plate Nº IIFAST — 方法示意:核心 pipeline

它怎么做的(方法)

整条流水线四步走,可以类比成"做菜 → 装盘":先把食材标准化,再筛掉没用的边角,再打包成方便端的份量,最后端给客人。

第一步:归一化 + DCT(食材切配)。先把一段长度 H 的动作 chunk(每步 D 维)按每个关节维度分别走一次 1D-DCT,得到一张 H × D 的频域系数表。就像把一段曲子拆成"低音主干 + 各种高音点缀"——低频系数明显大,高频系数明显小。

第二步:量化 + 稀疏化(筛掉边角料)。给系数除以一个 scale 再四舍五入,那些本来就小的高频系数直接被压成 0。这一步是有损压缩——会丢东西——但丢的都是"几乎听不出来"的高频细节,主旋律完整保留。

等等,先慢一拍——什么叫量化?

类比:原来你身高写"175.34cm",量化就是只允许写整数,强行变成"175cm"。0.34 丢了,但日常用没差。

第三步:BPE 编码(打包成份量)。这一步像把零散的食材打成"一份蛋炒饭、一份番茄汤"。BPE(Byte-Pair Encoding,字节对编码)是 GPT/LLaMA 处理文字的老办法——常一起出现的字符对反复合并成新符号,最后得到一个紧凑的"词表"。FAST 把这套搬过来对付动作系数:常一起出现的"系数模式"合并成单个 token,一段原来 350 个浮点数的动作,最终可能只剩 ~30-60 个 token。具体数字需读原文。

第四步:接进 VLA(端给大模型)。这些动作 token 和文本 token 共用同一本词表,VLA(Vision-Language-Action,把视觉/语言/动作放进同一个序列模型的范式)就像续写句子一样把动作 token 一个一个吐出来,最后再走一遍逆 DCT 还原成机器人能执行的连续动作。配合 π0 这类底座模型,训练和推理速度都显著上去了。

所以这一节是想说:DCT 换基底 → 量化丢高频 → BPE 合并模式 → VLA 自回归生成,四步把"长动作"翻译成"短句子"。

实验在做什么

论文的核心声称(基于摘要和公开材料):

  • 训练效率:在多个 manipulation benchmark 上,达到 diffusion-based VLA 的同等性能但训练快得多。具体数字需读原文。
  • 推理速度:自回归一次出几十个 token,比 diffusion 多步去噪快一个数量级量级。
  • 跨 embodiment:FAST+ 这个通用 tokenizer 在没见过的机器人构型上也能用,零样本迁移。
  • 任务覆盖:覆盖了灵巧操作、长 horizon 任务、双臂任务等。具体任务列表需读原文。

读的时候重点看:DCT 截断到第几个频率分量、BPE 词表大小、token 长度的实际分布——这些超参直接决定压缩率 vs 还原精度的 trade-off。

你应该懂的几个新词 — 4-6 个

  • VLA(Vision-Language-Action):把视觉 + 语言 + 动作放进同一个序列模型的范式,代表作 RT-2、OpenVLA、π0。
  • Action chunking:一次预测未来 H 步的动作(而不是一步一步),ACT 那篇带火的。
  • DCT(Discrete Cosine Transform):一种实数域正交变换,把信号拆成不同频率的余弦分量。JPEG / MP3 的核心。比 FFT 更适合"非周期但平滑"的信号。
  • Tokenization:把连续 / 结构化数据切成离散 token 喂给 transformer。文本有 BPE,动作以前没有标准做法,FAST 就是想做"动作里的 BPE"。
  • BPE(Byte-Pair Encoding):把高频出现的字节对反复合并成新符号,最终得到一个紧凑词表。GPT/LLaMA 都用。
  • Codebook(VQ-VAE):学出来的离散 token 字典,对比 FAST 的"固定 DCT 基"是另一条路线。

它和其他论文什么关系

  • 承接 π0(同组工作):π0 是底座 VLA,FAST 是 π0 的"动作 token 化"配套零件。两篇可以一起读。
  • 对位 Diffusion Policy / 3D Diffusion Policy:DP 路线坚持"连续空间 + 多步去噪",FAST 路线选择"离散 token + 自回归",是两种推理范式之争。
  • 承接 RT-2 / OpenVLA:同样是 token 化路线,但 FAST 用频域压缩替换了它们的逐步量化,是同一路线内的优化。
  • 思想血统接 JPEG / MP3:把信号处理领域几十年的频域压缩经验搬到机器人动作上——这是一个"老技术新场景"的好例子。
  • 远亲:ACT(action chunking transformer):两者都信"一次出一段动作",但 ACT 直接回归连续值,FAST 走 token 路线。

我建议这样读 — 3-4 步

  1. 先看一张图就够:去 arxiv 看 Figure 1(或项目主页 demo),先把"动作 → DCT → 量化 → BPE → token"的 pipeline 看明白。10 分钟。
  2. 跳读方法章节:重点看 DCT 截断到哪、量化用什么 scale、BPE 词表多大。这几个超参决定了实际压缩率。
  3. 跳读实验:直接看跨 embodiment 那部分的表格和延迟对比,判断 FAST+ 通用性是否真的成立。
  4. 可选:如果你想做自己的 tokenizer,把 FAST 和 VQ-VAE 路线(如 BeT、VQ-BeT)对比着读,能搞清楚"固定基 vs 学习基"的取舍。

为什么值得读

  • 方法漂亮:用一个几十年前就有的、不需要训练的固定变换解决了一个看起来需要 VQ-VAE 的问题。是"先做第一性原理推导"的好范例——别一上来就堆模型。
  • 工程价值高:训练 / 推理双双提速,对实验室和产线都很有吸引力。
  • 路线意义:和 diffusion 路线形成清晰对照,帮你理解"VLA 的动作表示"这个子问题里有哪几种思路。
  • 跨学科启发:信号处理 ↔ 机器人 ↔ NLP token 化的桥梁,是个挺优雅的"借力"思路,值得记下来以后用到别的场景(比如音频、传感器序列)。

引用本笔记 / Cite this note
BibTeX
@online{eai_pi0_fast_2026,
  title       = {(readable note) FAST: Efficient Action Tokenization for VLA},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/pi0-fast/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim