回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Imitation Learning · Plate Nº 53

Behavior Transformers: Cloning k Modes with One Stone

7 min read · 2385 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

看一堆人做同一件事却各有各的做法,BeT 让 AI 先认出"有几种主流流派",再在每个流派里微调——而不是把所有动作平均成一个四不像。

这是个什么场景 — 日常类比

你打开抖音想学做番茄炒蛋,搜出 100 个视频跟着学。问题是:每个博主做法都不一样——

  • 有的先炒蛋再下番茄、有的先炒番茄再倒蛋液
  • 有的放糖(上海派)、有的放盐(北方派)
  • 有的大火快炒 30 秒、有的中火慢煨 2 分钟

如果一个零经验的人想"把这 100 个视频的动作取平均"——蛋下锅 1.5 次、火候介于大小之间、糖盐各放一半——做出来会是什么?一锅四不像。

机器人模仿学习碰到的就是这个问题:同一个画面下,人类示范里藏着好几种合理做法(叫"多模态"),但传统方法(用 MSE 损失)会无脑取平均,把所有流派糊成一团。

正确的教法应该是:先认出"有几种主流流派",再在每种流派内部学细节。BeT 干的就是这件事——先用 k-means(一种聚类算法)找出"动作风格大致分几派",再让 Transformer 学"看到这一帧画面,该走哪一派 + 派内部怎么微调"。

Behavior Transformers — 场景示意:这论文要解决的现实问题
Plate Nº IBehavior Transformers — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • MLP + MSE 回归:直接让神经网络拟合"观测 → 动作",但 MSE 损失会把多模态分布平均掉,结果就是上面那锅怪番茄炒蛋。
  • GMM(高斯混合模型):手动指定几个高斯分量,能表达多模态,但分量数难调、训练不稳定,且只看当前观测、不看历史。
  • VAE / 隐变量模型:用一个隐变量 z 来"分支",理论上能多模态,但训练复杂、坍缩到单模态是常见痛点。
  • Energy-Based Model(IBC, Implicit BC):把动作生成变成能量最小化,能表达多模态,但推理慢、数值上难驯。
  • RL with reward:如果有奖励信号就好办了,但这里的设定就是"没奖励、只有人类示范"——纯模仿学习。

BeT 的核心吐槽:上面这些要么压不住多模态,要么吃不到 Transformer 的"长上下文"红利。

这篇论文的关键想法

关键洞察:连续动作空间太大、模态太多,直接学很难;但如果先把动作"离散化成 k 个 bin"(用 k-means 聚类),就把"多模态生成"问题转成了两件容易的事

  1. 分类问题:当前应该走哪个 bin(哪种模式)?→ Transformer 输出一个 k 维 logits。
  2. 回归问题:在那个 bin 内部,相对于聚类中心要偏移多少?→ Transformer 输出一个相对偏移量。

最终动作 = 选中 bin 的中心 + 偏移量。这种"离散 + 残差"的设计 NLP 里早就有(参考分类头 + 回归头),BeT 的贡献是把它搬到机器人模仿学习,并配合 GPT 风格的因果 Transformer,吃下"过去几十帧观测"作为上下文。

名字双关:"cloning k modes with one stone" = "一石(一个模型)克隆 k 个模式(行为)" = 一石 k 鸟。

Behavior Transformers — 方法示意:核心 pipeline
Plate Nº IIBehavior Transformers — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

Step 1:动作离散化(offline 预处理)——像做菜前先把食材分成"肉/菜/蛋"几堆

把训练集里所有的动作 a 收集起来,跑 k-means 聚类,得到 k 个簇中心 ${c_1, ..., c_k}$。每个原始动作 a 都被分解成"它属于哪个簇 i" + "它相对于 $c_i$ 的偏移 $\delta = a - c_i$"。这一步纯离线、跟模型无关。k 一般取 8 到 64,具体数字需读原文

等等,先慢一拍 —— k-means 是什么? 给一堆点(这里是动作向量),让算法自动找出 k 个"代表点",每个原始点就近归到最近代表点。本质上就是"动作做归类",比如把 1000 种炒蛋手势归成"翻炒/颠勺/划散" 8 大类。

Step 2:因果 Transformer 学条件分布——像翻译员看完整句中文再决定下一个英文词,而不是逐字蒙

模型输入是过去 H 帧观测序列 $(o_{t-H+1}, ..., o_t)$(GPT 风格 mini-GPT,具体层数/参数量需读原文)。每个 token 位置输出两个头:

  • 分类头(categorical head):k 维 logits,预测应该走第几个 bin(哪一派做法)
  • 偏移头(offset head):k × dim_action 维向量,每个 bin 备一个微调向量

这样设计避免"先分类、再回归"的两步推理——训练时一次前传、两个 loss 同时优化。

Step 3:损失函数 = focal loss + masked MSE loss——像老师批改作业时只看你选的那道题答得对不对,没选的题不扣分

分类用 focal loss(缓解 bin 频次不均,常用动作 bin 会霸屏),偏移用 masked MSE——只对"真值 bin"那一列偏移算 loss,其他 bin 的偏移任由它去。这是关键 trick:偏移头要预测 k 个候选偏移,但训练时只惩罚 ground-truth 那个 bin 的偏移,其他 bin 不学习就不会乱。

Step 4:推理时采样——像点菜时不是只能选最热门的那道,可以随机翻翻别的派别

给定历史观测,先从分类头的 logits 采样(或 argmax)一个 bin index $i$,再从偏移头取出第 $i$ 列偏移 $\delta_i$,最终动作 $a = c_i + \delta_i$。采样而不是 argmax 就保证了每次执行可能走不同流派——这正是处理多模态人类示范该有的行为。

实验在做什么

  • 环境:CARLA 自动驾驶模拟、Franka kitchen(多任务厨房机械臂)、blockpush、relay-imitation 等。这些任务都有一个共同特点——人类示范明显多模态(同一情境下不同人做不同选择)。
  • 对比基线:MLP+MSE、MLP+GMM、IBC、k-NN、VAE-BC 等。
  • 评测指标:任务完成率、模态覆盖率(用了多少种不同的解法)、轨迹多样性。具体数字需读原文,但定性结论是 BeT 在"覆盖多模态"上明显赢,且任务成功率不输或更好。
  • 关键 ablation:k 的数量影响、context 长度 H 的影响、focal loss vs cross-entropy 的影响。

你应该懂的几个新词 — 4-6 个

  • 多模态行为分布(multi-modal behavior distribution):同一个状态下,人类可能选多种合理动作;这是个分布而不是单点。MSE 会把它"压成单点"。
  • k-means 离散化:把连续向量空间用 k 个中心切成 k 个 Voronoi 区域,每个连续向量被代表为"最近中心 + 偏移"。BeT 用它把动作空间切片。
  • Categorical head + Offset head:分类头选哪个 bin、偏移头给 bin 内部细调;二者是独立 head 但共享 transformer 主干。
  • Focal loss:cross-entropy 的加权版,给"模型已经分得很对的样本"降权,迫使模型多关注难样本/少数类。原本是 RetinaNet 用来对付目标检测的 class imbalance。
  • Behavior Cloning(BC):最朴素的模仿学习——监督学习"观测 → 动作"映射。BeT 是 BC 的一种增强版(加了 Transformer + 离散化)。
  • GPT-style causal transformer:只能看过去、不能看未来的 self-attention,每个位置预测下一动作;和 NLP 的 GPT 同构。

它和其他论文什么关系

  • 上游:决策 Transformer(Decision Transformer, 2106.01345)已经把 transformer 用进 offline RL,但 DT 需要 reward-to-go 作为输入条件;BeT 不需要任何 reward。
  • 同期对手:Implicit BC(IBC)也想解多模态,但走能量模型路线、推理慢;BeT 用"离散+残差"绕开能量模型。
  • 下游:Diffusion Policy(2303.04137)后来用 diffusion 来表达多模态动作分布,效果更强但训练/推理更重;BeT 可以看作 diffusion policy 的"轻量前辈"。
  • 思想血缘:和 NLP 里 wav2vec / VQ-VAE 的"离散 codebook"思想同源——把连续信号离散化后让 Transformer 处理。
  • 应用扩展:VQ-BeT(后续工作)把 k-means 升级成 VQ-VAE codebook,进一步提升表达力。

我建议这样读 — 3-4 步

  1. 先看 Figure 1 + Method 图:理解"分类头 + 偏移头"的双头结构怎么吃同一个 transformer 输出——这是全文最核心的画面。
  2. 跳到实验图(多模态可视化):看 BeT vs MSE 的轨迹散点图,直观感受"压平 vs 保留模态"的差别——比看公式更让你信服为什么要这么搞。
  3. 回到 Loss 公式:重点看 offset 的 masked loss 怎么写——为什么只对 ground-truth bin 那列算 loss,这个 trick 不直观但很关键。
  4. (可选)跟 Diffusion Policy 对比读:同样要解多模态,diffusion 用 score matching、BeT 用离散+残差,思想路线对比能让你对"如何表达多模态分布"有更立体的认识。

为什么值得读

  • 思路简洁、效果扎实:没用 GAN/VAE/diffusion 这些重武器,靠"k-means + 双头 transformer"就把多模态行为表达问题打下来——是"少即是多"的好范例。
  • 架起 NLP 和机器人学的桥:把 NLP 的"分类头 + 回归头"模式迁过来,证明 Transformer 在机器人 BC 里的潜力,也为后续 VQ-BeT、ACT、Diffusion Policy 铺路。
  • 没有 reward 也能学:在数据驱动的具身智能时代,"无奖励 + 大规模人类示范"是主流范式,BeT 是这条线上必读的一篇。
  • 难度适中:不需要懂 RL/ control theory 细节,BC 框架 + Transformer 基础就够——是从 NLP 切到机器人的不错入门论文之一。

引用本笔记 / Cite this note
BibTeX
@online{eai_bet_2026,
  title       = {(readable note) Behavior Transformers: Cloning k Modes with One Stone},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2022 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/bet/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim