回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
World Model & Video Policy · Plate Nº 153

GAIA-1

7 min read · 2288 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

GAIA-1 是个会做梦的开车模拟器:给它一段街景视频的开头加一句"我现在打方向盘",它能接着画出后面几秒街上看到的画面。

这是个什么场景 — 日常类比

想象你小时候玩"我画你猜",但反过来:你说一句"左转,雨天,前面有个红绿灯",旁边坐着一个看过几百万小时行车记录仪的高人,他立刻接着你的话头一帧一帧画下去——左转后路边的咖啡店滑到右边,雨点落在挡风玻璃上,红灯由远变近。你随时可以打断他说"换个动作,我现在踩刹车",他立刻顺着新动作把后面的画面改掉。

  • 你按"左转",高人就想:左转之后那家咖啡店应该出现在右手边,对面来车的视角会变化……然后画出来。
  • 你说"现在突然下雨了",他就把天空变阴、路面加上反光。

GAIA-1 就是这个高人。它脑子里不是真的"画",而是像写小说一样一格一格地猜"下一帧视频的拼图块(token)该是什么"——和大语言模型(LLM, large language model)猜下一个字的套路一模一样,只不过它猜的是图像碎片,不是中文字。

GAIA-1 — 场景示意:这论文要解决的现实问题
Plate Nº IGAIA-1 — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • Dreamer 系列(v1/v2/v3):在游戏环境(Atari、DMC)里学一个紧凑的 latent dynamics 世界模型,画面分辨率低、场景简单。
  • GameGAN / GAN-based world models:用对抗训练让神经网络模仿一个游戏引擎,但生成质量不稳定,长时序容易崩。
  • MILE(Wayve 自家前作):在驾驶场景里学世界模型,但规模和保真度还不够支撑"长视频续写 + 多模态条件"。
  • CARLA / Drive Sim 等仿真器:手工搭建的物理 + 渲染管线,可控性强但"长得不像真的",sim-to-real gap 是老问题。
  • 视频生成模型(Make-A-Video、Imagen Video 等):能生成视频但不接受动作输入,没法当"驾驶模拟器"用。

这篇论文的关键想法

把"驾驶世界模型"重新定义成一个自回归序列建模问题,和 GPT 训文本一模一样:

  1. 把视频、文本、动作都编码成同一个 token 序列。
  2. 训一个 9B 参数的 Transformer 去做 next-token prediction。
  3. 解码 token 时用一个独立的 video diffusion decoder 把 token 还原成高保真视频。

这一套的好处是:LLM 那套 scaling law 经验直接搬过来用——参数变大、数据变多、token 越长越能预测远期未来。GAIA-1 也确实展现出"涌现"(emergent)行为:能理解车辆、行人、道路结构、交通规则,并能根据 prompt 生成训练集中没出现过的场景(比如"车开上人行道")。

GAIA-1 — 方法示意:核心 pipeline
Plate Nº IIGAIA-1 — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一步:把视频压成 token——像把一本厚书拆成乐高积木。 一帧图像直接喂给模型太贵,于是用一个图像 tokenizer(类似 VQ-VAE 或 DALL-E 用的 discrete autoencoder,离散自动编码器)把每一帧切成几百块"视觉积木"(离散 token)。30 秒视频就变成几千块积木拼起来的长队列。文本 prompt 用类似 CLIP 的文字编码器编成 embedding(向量);动作(方向盘、油门、刹车的数值)也量化成 action token。三种模态最后拼成一条长队伍。

等等,先慢一拍——token 是什么?你可以把它想成"乐高的颜色编号":原图是一堆复杂的像素,tokenizer 给每个小区域贴一个标签(比如"3721 号块"),模型就只需要操心这些编号怎么排,不用直接画像素。

第二步:自回归世界模型——像写小说一样接龙。 一个 9B 参数的 decoder-only Transformer 接过这条长队伍:看着过去的视频 token + 文字 + 动作,猜下一个视频 token 是哪块积木。训练目标就是经典的 next-token prediction(下一个词预测),和训 GPT 完全一样。这一步输出还是一串数字,根本没画面

第三步:视频解码器——像画师把分镜稿变成正式作画。 一个独立的扩散模型(diffusion model,扩散模型)拿到上一步预测的 token 序列,把这些"积木编号"重新画回高分辨率、帧与帧连得上的真实画面。这样就把"剧情对不对"和"画工好不好"分开了:世界模型管剧情,扩散解码器管画工。

第四步:条件控制——像给画师改命令。 在队伍开头塞不同的文字和动作,就能让模型生成各种"如果当时这样会怎样"(counterfactual,反事实)的场景:换天气、换光照、换驾驶风格、甚至强行让车做平时不会做的动作。这正是"做模拟器"比"做策略"多出来的好处——你能让它演没真发生过的事。

实验在做什么

论文展示了一系列定性结果(quantitative 数字需读原文):

  • 长时序生成:从一段真实开头出发,续写几十秒的视频,画面保持时空一致。
  • prompt 控制:用文本 prompt 改天气、时段、场景类型。
  • action 控制:给定不同的方向盘/油门动作,看世界模型如何续写——验证它学到了"动作 → 视觉后果"的因果。
  • scaling 趋势:参数从几亿涨到 9B,生成质量、prompt 跟随、长时一致性都在变好。
  • 涌现能力:未明确训过的"开上人行道""逆行"等场景可以被 prompt 出来。

具体的 FVD(Fréchet Video Distance)、token 数量、训练数据小时数等数字需读原文。

你应该懂的几个新词 — 4-6 个

  • World Model(世界模型):神经网络版的"模拟器"。给当前状态 + 动作,预测下一状态。区别于"策略"(policy)只决定动作。
  • Autoregressive(自回归):一次预测一个 token,把刚预测出的塞回前缀,再预测下一个。LLM 的核心范式。
  • Tokenizer(分词器/编码器):把连续信号(图像、音频)切成离散 token 的模型。GAIA-1 用图像 tokenizer 把帧编成 token。
  • Diffusion Decoder(扩散解码器):一个用扩散过程从 token 还原成像素的网络。它只管"画得好看",不管"应该画什么"。
  • Counterfactual(反事实):训练集没出现过、但符合物理/语义合理性的"如果……会怎样"场景。世界模型的关键卖点。
  • Emergent Capability(涌现能力):模型变大后突然出现的、小模型完全没有的能力。源自 LLM 文献,GAIA-1 在驾驶域复现了这个现象。

它和其他论文什么关系

  • 上游World Models (Ha & Schmidhuber) 提出 latent world model 概念;Dreamer v1/v2 把它做到游戏环境里能学策略。
  • 同代视频生成:Make-A-Video、Imagen Video、Sora(更晚)都是文生视频,但不接受动作输入,不能当模拟器用。GAIA-1 把"动作可控"补上了。
  • 驾驶领域同行:DriveDreamer、MagicDrive、GenAD 都做驾驶视频生成,规模和定位略有不同;GAIA-1 是把"语言模型范式 + 9B 规模"押到驾驶域的代表作。
  • 下游用法:可以给 RL agent 当训练环境(dream + rollout),可以做安全性测试(生成边角案例 corner case),也可以做反事实评估。
  • 同期 Wayve 工作:LINGO 系列把语言-驾驶接起来;GAIA 这条线后来出了 GAIA-2(2025),更大、更可控。

我建议这样读 — 3-4 步

  1. 先看 demo 视频:Wayve 的 blog 和 Twitter 上有大量生成结果,先建立"它到底在做什么"的直觉,再读论文。
  2. 读引言 + 方法的总览图:理解 tokenizer → world model → diffusion decoder 三段式架构。这是全文骨架。
  3. 跳读实验定性结果:重点看 prompt 控制和 action 控制两类实验,体会"这是模拟器,不是策略"的差异。
  4. 想想能不能用:自己手头如果有视频 + 动作数据,能不能套这个范式?哪些假设要改?

为什么值得读

  • 范式信号:它是"把 LLM 的 next-token prediction 直接搬到驾驶视频"的代表作,证明 scaling law 在视觉-动作世界里也成立。后来的 Sora、GAIA-2、Genie 都在这个方向上往前推。
  • 世界模型 vs 策略:很多人把"开车 AI"等同于"端到端策略"。GAIA-1 提醒你还有第二条路——先建一个会做梦的模拟器,再在里面训策略,或者直接用它做评估、做数据增广。
  • 工程审美:三段式架构(tokenizer / autoregressive backbone / diffusion decoder)的解耦很干净,把"语义"和"像素"分开,每段都可以独立扩大。这套结构在 2024-2025 年成了视频生成 + 世界模型领域的事实标准之一。
  • 对 embodied AI 的启示:如果驾驶能做,机械臂、无人机、人形机器人也能照搬这套流程——前提是你有足够多的"视频 + 动作"配对数据。这正是 RT-2、Open X-Embodiment、π0 这一拨工作铺路要解决的问题。

引用本笔记 / Cite this note
BibTeX
@online{eai_gaia_1_2026,
  title       = {(readable note) GAIA-1},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/gaia-1/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim