End-to-End VLA · Plate Nº 116

GR-2: Generative Video-Language-Action Model

8 min read · 2625 字 · ⭐⭐⭐⭐ · 短摘要

#diffusion #transformer #language #RL #world-model #VLA

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

让机器人先刷 3800 万段网络视频攒常识，再练动手；它干活时脑子里会"预演"下一秒的画面。

这是个什么场景 — 日常类比

你新请了一个保姆。

情况 A：她从没看过别人做家务，直接进你家厨房上手。第一次端汤，泼了；第一次洗碗，碎了。每错一次你都得在旁边喊一句"不是这样"。家里能让她练的次数有限，而且就算练熟了倒水，换个新杯子她又不会了——因为她脑子里没"杯子倒过来水会洒"这种常识。

情况 B：她进门之前，已经在 B 站看了几年的生活 vlog——别人怎么切菜、怎么开抽油烟机、怎么把脏衣服塞进洗衣机。她没亲手做过，但闭上眼能"放电影"：手伸过去，杯子会被举起来；门把手一拧，门会开。等她真上手，前几下还是有点笨，但能很快迁移到新东西上，因为脑子里那部"世界怎么动"的电影已经预装好了。

GR-2 走的是情况 B。3800 万条互联网视频是它的"童年放电影时间"，机器人轨迹数据才是"正式上岗培训"。

之前的人怎么做的 — 3-5 bullet

RT-1 / RT-2：直接在机器人数据 + 视觉语言数据上端到端训练，没有显式的"未来预测"。机器人数据贵且少，泛化靠 VLM 主干。
GR-1（GR-2 的前作）：已经引入"预测未来视频帧 + 输出动作"的双任务，但预训练规模较小（约几十万视频）。
世界模型路线（Dreamer 系列、GAIA-1）：学环境动力学但不直接产出动作，需要再接 RL/规划。
扩散策略类（Diffusion Policy、π0）：用扩散模型生成动作序列，但视觉表征通常没用上大规模视频预训练。
共同短板：机器人数据本身规模小（O(10^5~10^6) 条），难以获得"看一眼就知道接下来会发生什么"的常识级先验。

这篇论文的关键想法

类比一下：学打乒乓球的人，看一万场比赛回放，再上场挥拍，比直接闷头练要快——因为脑子里已经有"球会怎么飞、人会怎么跑"的画面。GR-2 想把这套思路搬给机器人。

把"互联网视频"当成机器人的预训练语料库，理由有三：

视频天然蕴含动作和因果——一个人推门，门会开；一只手抓杯子，杯子会被举起来。这种"先有动作再有结果"的时序结构，正是机器人需要的。
视频规模远大于机器人数据——38M vs O(M)，差三个数量级以上。
统一的生成式 framing（统一的"生成式"任务壳子）——预训练阶段模型学"给定过去帧 + 文本，预测未来帧"；微调阶段多加一个分支预测动作。同一套 transformer 架构、同一套 token（最小输入单元），前后任务高度对齐。

关键洞察：动作不是从零学的，动作是从"对未来画面的想象"里读出来的。模型先想"接下来手应该到这个位置"，再把这个想象解码成机械臂指令。

它怎么做的（方法）— 3-4 段

第一阶段：视频生成预训练——像让小孩看动画片预测下一帧。模型在 3800 万条互联网视频（具体来源和过滤策略需读原文）上训练一个 video-language model（视频-文本模型），输入是过去若干帧 + 文本描述，输出是未来若干帧。这一阶段没有任何机器人数据，纯粹学"世界长什么样、会怎么变"。

等等，先慢一拍——这里的 "tokenize" 是什么？打个比方，文本送进 GPT 之前要先切成一个个"词块"，每个词块是个编号；视频也一样，要先把每一帧画面压成一串"画面编号"，模型才能像处理文字那样处理它。GR-2 用的是类似 VQ-VAE 的离散化方案，外加一个 causal transformer（只能看过去、不能偷看未来的 transformer，跟 GPT 同款）做自回归生成。

第二阶段：机器人数据微调——像保姆从看 vlog 切到上岗实操，但电视没关，一边干活一边继续看。模型在多任务机器人轨迹（任务种类、本体规模需读原文）上联合训练两个目标：(a) 继续预测未来视频帧；(b) 加一个 action head（动作输出头），预测对应时刻的机械臂动作（末端位姿 / 关节角等具体形式需读原文）。两个 loss 联合优化，视频预测在这里相当于"辅助作业"，逼模型保持对画面变化的敏感度。

第三阶段：推理时部署——像厨师上菜前先在脑子里把成品摆盘"演"一遍。给定当前观测 + 任务指令，模型先在内部"想象"未来视频，再同步输出动作。具体是先生成视频 token 再 condition 出动作（先脑补画面再读出动作），还是两者交织生成，需读原文确认架构细节。

额外工程点：模型规模、训练硬件、推理频率（机器人控制要求 10Hz 以上，否则手抖跟不上），这些工程细节往往是能不能真正部署的关键，具体数字需读原文。

实验在做什么

按 VLA 论文的常规套路，GR-2 应该会做以下几类实验（具体设置和数字需读原文）：

多任务 benchmark：CALVIN / LIBERO / SimplerEnv 之类的标准评测集，对比 RT-2、OpenVLA、π0 等同期方法。
真机实验：抓取、放置、open-ended 操作，看泛化到新物体、新场景、新指令的能力。
消融：去掉视频预训练 vs 保留，去掉视频预测 loss vs 保留，验证"互联网视频预训练"和"未来帧预测辅助任务"各自贡献多少。
scaling：预训练数据量从小到大、模型参数从小到大，看性能曲线是否还在涨——这是判断"路线是否值得继续投入"的关键证据。
可视化：模型生成的"想象未来"视频本身可以拿来看，作为可解释性证据。

最值得关注的是 scaling 曲线 和 新物体/新指令的泛化数字——前者决定路线天花板，后者决定能不能真正出实验室。

你应该懂的几个新词 — 4-6 个

VLA（Vision-Language-Action）模型：输入图像 + 文本指令，输出机器人动作的端到端模型。RT-2 是开山之作，GR-2 属于这一谱系。
视频 token 化：把连续的视频帧用 VQ-VAE 之类的 codebook 压成离散 token 序列，这样视频就能像文本一样喂给 transformer 自回归生成。
世界模型（World Model）：学习环境动力学的模型，给定状态和动作能预测下一个状态。GR-2 的视频生成器本质上是一个"视觉空间的世界模型"。
辅助任务（Auxiliary Task）：训练时除了主任务（这里是动作预测）还加上其他相关任务（这里是视频预测）联合优化，目的是让表征更好。
causal transformer：只能看过去不能看未来的自回归 transformer，GPT 用的就是这种，适合做生成任务。
机器人本体（Embodiment）：具体的机械臂型号 / 自由度配置。跨本体迁移是 VLA 的硬骨头。

它和其他论文什么关系

直接前作：GR-1（如有）——同一思路的小规模版本，GR-2 主要把预训练数据量扩到 38M。
同期对比：RT-2、OpenVLA、π0——都是 VLA 路线，但 GR-2 强调"用互联网视频做预训练"这一独特卖点。
思想源头：GAIA-1、UniSim、Genie——视频/世界模型路线，证明"视频生成"本身能学到有用的物理直觉，GR-2 把这个直觉接到了下游控制。
数据基建：Open X-Embodiment、DROID 提供机器人微调数据；互联网视频部分则更接近视频预训练的语料思路（参考 Cosmos World Foundation）。
平行路线：Diffusion Policy / π0 走"动作扩散生成"，不依赖视频预训练；GR-2 走"视频先验 + 动作头"，两条路线各有侧重。

我建议这样读 — 3-4 步

先看官方 demo 视频（GR-2 项目主页通常有），花 5 分钟感受"模型生成的想象未来"和"实际机器人动作"对照起来是什么效果——这比读 method 节快得多。
读 Introduction + 方法图，确认两阶段训练结构和 token 化方式。重点看那张 architecture overview，搞清楚 video token 和 action token 怎么交互。
跳到实验消融，看"去掉视频预训练"掉多少分、"去掉视频预测 loss"掉多少分。这两个数字决定了论文核心 claim 是否成立。
回头看预训练数据细节——38M 视频是怎么过滤的、有没有领域偏置（比如全是 cooking 视频）、是否包含第一人称视角，这些决定了你能不能复现或迁移。

为什么值得读

GR-2 代表一种正在变得越来越主流的思路：机器人能力的瓶颈不在控制算法，而在"常识级视觉先验"，而互联网视频是性价比最高的常识来源。如果你关注 VLA 路线，GR-2 是绕不过去的一篇——它把"视频生成预训练"这个 idea 推到了 38M 这一数量级，用规模证明思路可行。

更广义看，这篇论文也是"生成式建模 = 通用智能基础"这一论调在机器人领域的具体落地：GPT 用文本生成学到推理，Sora 用视频生成学到物理直觉，GR-2 把视频生成的 backbone 直接接上动作头——同一套范式，换个领域。读它有助于理解"为什么大家都在做视频生成"，以及视频生成离机器人到底还差什么（很可能差的是动作-视频对齐数据，而不是视频本身）。

对零基础学习者，这篇的难点在"视频 token 化 + 自回归生成"这套机制，建议配合 audiolm / musiclm 之类同范式的论文一起看，能快速搭起 "把连续信号离散化再做语言模型" 的整体框架。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_gr_2_2026,
  title       = {(readable note) GR-2: Generative Video-Language-Action Model},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/gr-2/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)