Diffusion Policy · Plate Nº 46

FAST: Efficient Action Tokenization for VLA

7 min read · 2492 字 · ⭐⭐⭐⭐ · 短摘要

#diffusion #transformer #language #manipulation #VLA #dataset

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

机器人动作又长又啰嗦塞不进 AI 模型，FAST 学 MP3 压音乐的办法，把一长串动作压成几十个"词"，AI 像说话一样把它念出来。

这是个什么场景

想象你想用微信发一段 30 秒的钢琴录音给朋友。

最笨的办法是把声波每一瞬间的振幅都发过去——一秒钟 44100 个数字，30 秒就是 132 万个，慢得离谱。所以现实里大家发的都是 MP3：MP3 偷偷做了一件事——把声音拆成"主旋律（低频，谁都听得出来的那部分）"和"细节装饰（高频，去掉一点也没人听得出）"，主旋律保留得多，细节砍掉一些，最后只要几千个数字就够还原。

机器人这边遇到的是同一个尴尬。一只机械臂做"把杯子放到桌上"这件事，要 50 步、每步 7 个关节角度，光这一个动作就是 350 个浮点数。把它原封不动塞给 AI 模型（就像把原始波形塞给微信），模型要"读"很久才能"说"出来。FAST 想的就是 MP3 那招：把这一长串动作先换成"低频主干 + 高频抖动"两部分，砍掉无关紧要的高频抖动，最后只剩几十个 token，AI 念起来就快了。

所以这一节是想说：动作和声音一样，本质上是一段时间序列，前人发明的频域压缩可以直接搬过来用。

之前的人怎么做的 — 3-5 bullet

逐步离散化（如 RT-2、OpenVLA）：把每个时间步、每个关节维度独立量化成一个 token。问题：token 数量随动作长度线性爆炸，且没利用动作的时序冗余。
Diffusion Policy / Action Chunking：直接在连续空间预测整段 action chunk，效果好但推理需要多步去噪，慢。
简单 binning：把每个浮点数切成 256 个桶变成离散值——粗暴、损失大、高频信号尤其惨。
VQ-VAE 编码动作：用学出来的 codebook 离散化。问题：codebook 训练不稳定，跨 embodiment 迁移差。
共同痛点：要么 token 太多（训练慢推理慢），要么细节丢太多（高频精细动作做不了）。

这篇论文的关键想法

打个比方：你听一首歌，主旋律（低频）一直在；偶尔的高音华彩（高频）只是点缀。如果让你只用 30 个音符把这首歌写下来，你肯定先抓主旋律——这就是 FAST 的核心直觉。

核心 insight：机器人动作放到频域里看，绝大部分"能量"都集中在低频（整体的伸手、抓握、放下这种大动作趋势），高频（手指抖动、微调）只占一小撮。所以不要在时间轴上一格一格地切动作，换个角度（basis，基底）从频域看，自然就压缩了。

等等，先慢一拍——什么叫"频域"？

简单说：同一段动作可以用两种方式描述。一是"每一秒手在哪里"（时域，像逐帧看视频）；二是"这段动作里慢节奏成分有多强、快节奏成分有多强"（频域，像看歌曲的频谱图）。DCT（Discrete Cosine Transform，离散余弦变换）就是把第一种描述翻译成第二种描述的固定公式，JPEG 压图、MP3 压音乐都用它。

而 DCT 还有一个隐藏优势：它不需要训练。同时代另一条路线 VQ-VAE 是让神经网络自己学一本"动作字典"（codebook），但训练经常不稳。FAST 干脆用几十年前数学家就推好的那本"字典"——稳定、可移植、零成本。

配套：作者还训了一个通用 tokenizer FAST+，号称在多种机器人 embodiment（机器人形态/构型）上都能用，不必每换一台机器人就重训一次。

所以这一节是想说：动作的"信息浓度"集中在低频，用一个现成的、不用学的变换就能把它榨出来。

它怎么做的（方法）

整条流水线四步走，可以类比成"做菜 → 装盘"：先把食材标准化，再筛掉没用的边角，再打包成方便端的份量，最后端给客人。

第一步：归一化 + DCT（食材切配）。先把一段长度 H 的动作 chunk（每步 D 维）按每个关节维度分别走一次 1D-DCT，得到一张 H × D 的频域系数表。就像把一段曲子拆成"低音主干 + 各种高音点缀"——低频系数明显大，高频系数明显小。

第二步：量化 + 稀疏化（筛掉边角料）。给系数除以一个 scale 再四舍五入，那些本来就小的高频系数直接被压成 0。这一步是有损压缩——会丢东西——但丢的都是"几乎听不出来"的高频细节，主旋律完整保留。

等等，先慢一拍——什么叫量化？

类比：原来你身高写"175.34cm"，量化就是只允许写整数，强行变成"175cm"。0.34 丢了，但日常用没差。

第三步：BPE 编码（打包成份量）。这一步像把零散的食材打成"一份蛋炒饭、一份番茄汤"。BPE（Byte-Pair Encoding，字节对编码）是 GPT/LLaMA 处理文字的老办法——常一起出现的字符对反复合并成新符号，最后得到一个紧凑的"词表"。FAST 把这套搬过来对付动作系数：常一起出现的"系数模式"合并成单个 token，一段原来 350 个浮点数的动作，最终可能只剩 ~30-60 个 token。具体数字需读原文。

第四步：接进 VLA（端给大模型）。这些动作 token 和文本 token 共用同一本词表，VLA（Vision-Language-Action，把视觉/语言/动作放进同一个序列模型的范式）就像续写句子一样把动作 token 一个一个吐出来，最后再走一遍逆 DCT 还原成机器人能执行的连续动作。配合 π0 这类底座模型，训练和推理速度都显著上去了。

所以这一节是想说：DCT 换基底 → 量化丢高频 → BPE 合并模式 → VLA 自回归生成，四步把"长动作"翻译成"短句子"。

实验在做什么

论文的核心声称（基于摘要和公开材料）：

训练效率：在多个 manipulation benchmark 上，达到 diffusion-based VLA 的同等性能但训练快得多。具体数字需读原文。
推理速度：自回归一次出几十个 token，比 diffusion 多步去噪快一个数量级量级。
跨 embodiment：FAST+ 这个通用 tokenizer 在没见过的机器人构型上也能用，零样本迁移。
任务覆盖：覆盖了灵巧操作、长 horizon 任务、双臂任务等。具体任务列表需读原文。

读的时候重点看：DCT 截断到第几个频率分量、BPE 词表大小、token 长度的实际分布——这些超参直接决定压缩率 vs 还原精度的 trade-off。

你应该懂的几个新词 — 4-6 个

VLA（Vision-Language-Action）：把视觉 + 语言 + 动作放进同一个序列模型的范式，代表作 RT-2、OpenVLA、π0。
Action chunking：一次预测未来 H 步的动作（而不是一步一步），ACT 那篇带火的。
DCT（Discrete Cosine Transform）：一种实数域正交变换，把信号拆成不同频率的余弦分量。JPEG / MP3 的核心。比 FFT 更适合"非周期但平滑"的信号。
Tokenization：把连续 / 结构化数据切成离散 token 喂给 transformer。文本有 BPE，动作以前没有标准做法，FAST 就是想做"动作里的 BPE"。
BPE（Byte-Pair Encoding）：把高频出现的字节对反复合并成新符号，最终得到一个紧凑词表。GPT/LLaMA 都用。
Codebook（VQ-VAE）：学出来的离散 token 字典，对比 FAST 的"固定 DCT 基"是另一条路线。

它和其他论文什么关系

承接 π0（同组工作）：π0 是底座 VLA，FAST 是 π0 的"动作 token 化"配套零件。两篇可以一起读。
对位 Diffusion Policy / 3D Diffusion Policy：DP 路线坚持"连续空间 + 多步去噪"，FAST 路线选择"离散 token + 自回归"，是两种推理范式之争。
承接 RT-2 / OpenVLA：同样是 token 化路线，但 FAST 用频域压缩替换了它们的逐步量化，是同一路线内的优化。
思想血统接 JPEG / MP3：把信号处理领域几十年的频域压缩经验搬到机器人动作上——这是一个"老技术新场景"的好例子。
远亲：ACT（action chunking transformer）：两者都信"一次出一段动作"，但 ACT 直接回归连续值，FAST 走 token 路线。

我建议这样读 — 3-4 步

先看一张图就够：去 arxiv 看 Figure 1（或项目主页 demo），先把"动作 → DCT → 量化 → BPE → token"的 pipeline 看明白。10 分钟。
跳读方法章节：重点看 DCT 截断到哪、量化用什么 scale、BPE 词表多大。这几个超参决定了实际压缩率。
跳读实验：直接看跨 embodiment 那部分的表格和延迟对比，判断 FAST+ 通用性是否真的成立。
可选：如果你想做自己的 tokenizer，把 FAST 和 VQ-VAE 路线（如 BeT、VQ-BeT）对比着读，能搞清楚"固定基 vs 学习基"的取舍。

为什么值得读

方法漂亮：用一个几十年前就有的、不需要训练的固定变换解决了一个看起来需要 VQ-VAE 的问题。是"先做第一性原理推导"的好范例——别一上来就堆模型。
工程价值高：训练 / 推理双双提速，对实验室和产线都很有吸引力。
路线意义：和 diffusion 路线形成清晰对照，帮你理解"VLA 的动作表示"这个子问题里有哪几种思路。
跨学科启发：信号处理 ↔ 机器人 ↔ NLP token 化的桥梁，是个挺优雅的"借力"思路，值得记下来以后用到别的场景（比如音频、传感器序列）。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_pi0_fast_2026,
  title       = {(readable note) FAST: Efficient Action Tokenization for VLA},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/pi0-fast/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)