回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
End-to-End VLA · Plate Nº 116

GR-2: Generative Video-Language-Action Model

8 min read · 2625 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

让机器人先刷 3800 万段网络视频攒常识,再练动手;它干活时脑子里会"预演"下一秒的画面。

这是个什么场景 — 日常类比

你新请了一个保姆。

情况 A:她从没看过别人做家务,直接进你家厨房上手。第一次端汤,泼了;第一次洗碗,碎了。每错一次你都得在旁边喊一句"不是这样"。家里能让她练的次数有限,而且就算练熟了倒水,换个新杯子她又不会了——因为她脑子里没"杯子倒过来水会洒"这种常识。

情况 B:她进门之前,已经在 B 站看了几年的生活 vlog——别人怎么切菜、怎么开抽油烟机、怎么把脏衣服塞进洗衣机。她没亲手做过,但闭上眼能"放电影":手伸过去,杯子会被举起来;门把手一拧,门会开。等她真上手,前几下还是有点笨,但能很快迁移到新东西上,因为脑子里那部"世界怎么动"的电影已经预装好了。

GR-2 走的是情况 B。3800 万条互联网视频是它的"童年放电影时间",机器人轨迹数据才是"正式上岗培训"。

GR-2 — 场景示意:这论文要解决的现实问题
Plate Nº IGR-2 — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • RT-1 / RT-2:直接在机器人数据 + 视觉语言数据上端到端训练,没有显式的"未来预测"。机器人数据贵且少,泛化靠 VLM 主干。
  • GR-1(GR-2 的前作):已经引入"预测未来视频帧 + 输出动作"的双任务,但预训练规模较小(约几十万视频)。
  • 世界模型路线(Dreamer 系列、GAIA-1):学环境动力学但不直接产出动作,需要再接 RL/规划。
  • 扩散策略类(Diffusion Policy、π0):用扩散模型生成动作序列,但视觉表征通常没用上大规模视频预训练。
  • 共同短板:机器人数据本身规模小(O(10^5~10^6) 条),难以获得"看一眼就知道接下来会发生什么"的常识级先验。

这篇论文的关键想法

类比一下:学打乒乓球的人,看一万场比赛回放,再上场挥拍,比直接闷头练要快——因为脑子里已经有"球会怎么飞、人会怎么跑"的画面。GR-2 想把这套思路搬给机器人。

把"互联网视频"当成机器人的预训练语料库,理由有三:

  1. 视频天然蕴含动作和因果——一个人推门,门会开;一只手抓杯子,杯子会被举起来。这种"先有动作再有结果"的时序结构,正是机器人需要的。
  2. 视频规模远大于机器人数据——38M vs O(M),差三个数量级以上。
  3. 统一的生成式 framing(统一的"生成式"任务壳子)——预训练阶段模型学"给定过去帧 + 文本,预测未来帧";微调阶段多加一个分支预测动作。同一套 transformer 架构、同一套 token(最小输入单元),前后任务高度对齐。

关键洞察:动作不是从零学的,动作是从"对未来画面的想象"里读出来的。模型先想"接下来手应该到这个位置",再把这个想象解码成机械臂指令。

GR-2 — 方法示意:核心 pipeline
Plate Nº IIGR-2 — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一阶段:视频生成预训练——像让小孩看动画片预测下一帧。模型在 3800 万条互联网视频(具体来源和过滤策略需读原文)上训练一个 video-language model(视频-文本模型),输入是过去若干帧 + 文本描述,输出是未来若干帧。这一阶段没有任何机器人数据,纯粹学"世界长什么样、会怎么变"。

等等,先慢一拍——这里的 "tokenize" 是什么?打个比方,文本送进 GPT 之前要先切成一个个"词块",每个词块是个编号;视频也一样,要先把每一帧画面压成一串"画面编号",模型才能像处理文字那样处理它。GR-2 用的是类似 VQ-VAE 的离散化方案,外加一个 causal transformer(只能看过去、不能偷看未来的 transformer,跟 GPT 同款)做自回归生成。

第二阶段:机器人数据微调——像保姆从看 vlog 切到上岗实操,但电视没关,一边干活一边继续看。模型在多任务机器人轨迹(任务种类、本体规模需读原文)上联合训练两个目标:(a) 继续预测未来视频帧;(b) 加一个 action head(动作输出头),预测对应时刻的机械臂动作(末端位姿 / 关节角等具体形式需读原文)。两个 loss 联合优化,视频预测在这里相当于"辅助作业",逼模型保持对画面变化的敏感度。

第三阶段:推理时部署——像厨师上菜前先在脑子里把成品摆盘"演"一遍。给定当前观测 + 任务指令,模型先在内部"想象"未来视频,再同步输出动作。具体是先生成视频 token 再 condition 出动作(先脑补画面再读出动作),还是两者交织生成,需读原文确认架构细节。

额外工程点:模型规模、训练硬件、推理频率(机器人控制要求 10Hz 以上,否则手抖跟不上),这些工程细节往往是能不能真正部署的关键,具体数字需读原文。

实验在做什么

按 VLA 论文的常规套路,GR-2 应该会做以下几类实验(具体设置和数字需读原文):

  • 多任务 benchmark:CALVIN / LIBERO / SimplerEnv 之类的标准评测集,对比 RT-2、OpenVLA、π0 等同期方法。
  • 真机实验:抓取、放置、open-ended 操作,看泛化到新物体、新场景、新指令的能力。
  • 消融:去掉视频预训练 vs 保留,去掉视频预测 loss vs 保留,验证"互联网视频预训练"和"未来帧预测辅助任务"各自贡献多少。
  • scaling:预训练数据量从小到大、模型参数从小到大,看性能曲线是否还在涨——这是判断"路线是否值得继续投入"的关键证据。
  • 可视化:模型生成的"想象未来"视频本身可以拿来看,作为可解释性证据。

最值得关注的是 scaling 曲线新物体/新指令的泛化数字——前者决定路线天花板,后者决定能不能真正出实验室。

你应该懂的几个新词 — 4-6 个

  • VLA(Vision-Language-Action)模型:输入图像 + 文本指令,输出机器人动作的端到端模型。RT-2 是开山之作,GR-2 属于这一谱系。
  • 视频 token 化:把连续的视频帧用 VQ-VAE 之类的 codebook 压成离散 token 序列,这样视频就能像文本一样喂给 transformer 自回归生成。
  • 世界模型(World Model):学习环境动力学的模型,给定状态和动作能预测下一个状态。GR-2 的视频生成器本质上是一个"视觉空间的世界模型"。
  • 辅助任务(Auxiliary Task):训练时除了主任务(这里是动作预测)还加上其他相关任务(这里是视频预测)联合优化,目的是让表征更好。
  • causal transformer:只能看过去不能看未来的自回归 transformer,GPT 用的就是这种,适合做生成任务。
  • 机器人本体(Embodiment):具体的机械臂型号 / 自由度配置。跨本体迁移是 VLA 的硬骨头。

它和其他论文什么关系

  • 直接前作GR-1(如有)——同一思路的小规模版本,GR-2 主要把预训练数据量扩到 38M。
  • 同期对比RT-2OpenVLAπ0——都是 VLA 路线,但 GR-2 强调"用互联网视频做预训练"这一独特卖点。
  • 思想源头GAIA-1UniSimGenie——视频/世界模型路线,证明"视频生成"本身能学到有用的物理直觉,GR-2 把这个直觉接到了下游控制。
  • 数据基建Open X-EmbodimentDROID 提供机器人微调数据;互联网视频部分则更接近视频预训练的语料思路(参考 Cosmos World Foundation)。
  • 平行路线Diffusion Policy / π0 走"动作扩散生成",不依赖视频预训练;GR-2 走"视频先验 + 动作头",两条路线各有侧重。

我建议这样读 — 3-4 步

  1. 先看官方 demo 视频(GR-2 项目主页通常有),花 5 分钟感受"模型生成的想象未来"和"实际机器人动作"对照起来是什么效果——这比读 method 节快得多。
  2. 读 Introduction + 方法图,确认两阶段训练结构和 token 化方式。重点看那张 architecture overview,搞清楚 video token 和 action token 怎么交互。
  3. 跳到实验消融,看"去掉视频预训练"掉多少分、"去掉视频预测 loss"掉多少分。这两个数字决定了论文核心 claim 是否成立。
  4. 回头看预训练数据细节——38M 视频是怎么过滤的、有没有领域偏置(比如全是 cooking 视频)、是否包含第一人称视角,这些决定了你能不能复现或迁移。

为什么值得读

GR-2 代表一种正在变得越来越主流的思路:机器人能力的瓶颈不在控制算法,而在"常识级视觉先验",而互联网视频是性价比最高的常识来源。如果你关注 VLA 路线,GR-2 是绕不过去的一篇——它把"视频生成预训练"这个 idea 推到了 38M 这一数量级,用规模证明思路可行。

更广义看,这篇论文也是"生成式建模 = 通用智能基础"这一论调在机器人领域的具体落地:GPT 用文本生成学到推理,Sora 用视频生成学到物理直觉,GR-2 把视频生成的 backbone 直接接上动作头——同一套范式,换个领域。读它有助于理解"为什么大家都在做视频生成",以及视频生成离机器人到底还差什么(很可能差的是动作-视频对齐数据,而不是视频本身)。

对零基础学习者,这篇的难点在"视频 token 化 + 自回归生成"这套机制,建议配合 audiolm / musiclm 之类同范式的论文一起看,能快速搭起 "把连续信号离散化再做语言模型" 的整体框架。

引用本笔记 / Cite this note
BibTeX
@online{eai_gr_2_2026,
  title       = {(readable note) GR-2: Generative Video-Language-Action Model},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/gr-2/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim