World Model & Video Policy · Plate Nº 153

GAIA-1

7 min read · 2288 字 · ⭐⭐⭐⭐ · 短摘要

#diffusion #transformer #language #vision #RL #imitation

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

GAIA-1 是个会做梦的开车模拟器：给它一段街景视频的开头加一句"我现在打方向盘"，它能接着画出后面几秒街上看到的画面。

这是个什么场景 — 日常类比

想象你小时候玩"我画你猜"，但反过来：你说一句"左转，雨天，前面有个红绿灯"，旁边坐着一个看过几百万小时行车记录仪的高人，他立刻接着你的话头一帧一帧画下去——左转后路边的咖啡店滑到右边，雨点落在挡风玻璃上，红灯由远变近。你随时可以打断他说"换个动作，我现在踩刹车"，他立刻顺着新动作把后面的画面改掉。

你按"左转"，高人就想：左转之后那家咖啡店应该出现在右手边，对面来车的视角会变化……然后画出来。
你说"现在突然下雨了"，他就把天空变阴、路面加上反光。

GAIA-1 就是这个高人。它脑子里不是真的"画"，而是像写小说一样一格一格地猜"下一帧视频的拼图块（token）该是什么"——和大语言模型（LLM, large language model）猜下一个字的套路一模一样，只不过它猜的是图像碎片，不是中文字。

之前的人怎么做的 — 3-5 bullet

Dreamer 系列（v1/v2/v3）：在游戏环境（Atari、DMC）里学一个紧凑的 latent dynamics 世界模型，画面分辨率低、场景简单。
GameGAN / GAN-based world models：用对抗训练让神经网络模仿一个游戏引擎，但生成质量不稳定，长时序容易崩。
MILE（Wayve 自家前作）：在驾驶场景里学世界模型，但规模和保真度还不够支撑"长视频续写 + 多模态条件"。
CARLA / Drive Sim 等仿真器：手工搭建的物理 + 渲染管线，可控性强但"长得不像真的"，sim-to-real gap 是老问题。
视频生成模型（Make-A-Video、Imagen Video 等）：能生成视频但不接受动作输入，没法当"驾驶模拟器"用。

这篇论文的关键想法

把"驾驶世界模型"重新定义成一个自回归序列建模问题，和 GPT 训文本一模一样：

把视频、文本、动作都编码成同一个 token 序列。
训一个 9B 参数的 Transformer 去做 next-token prediction。
解码 token 时用一个独立的 video diffusion decoder 把 token 还原成高保真视频。

这一套的好处是：LLM 那套 scaling law 经验直接搬过来用——参数变大、数据变多、token 越长越能预测远期未来。GAIA-1 也确实展现出"涌现"（emergent）行为：能理解车辆、行人、道路结构、交通规则，并能根据 prompt 生成训练集中没出现过的场景（比如"车开上人行道"）。

它怎么做的（方法）— 3-4 段

第一步：把视频压成 token——像把一本厚书拆成乐高积木。 一帧图像直接喂给模型太贵，于是用一个图像 tokenizer（类似 VQ-VAE 或 DALL-E 用的 discrete autoencoder，离散自动编码器）把每一帧切成几百块"视觉积木"（离散 token）。30 秒视频就变成几千块积木拼起来的长队列。文本 prompt 用类似 CLIP 的文字编码器编成 embedding（向量）；动作（方向盘、油门、刹车的数值）也量化成 action token。三种模态最后拼成一条长队伍。

等等，先慢一拍——token 是什么？你可以把它想成"乐高的颜色编号"：原图是一堆复杂的像素，tokenizer 给每个小区域贴一个标签（比如"3721 号块"），模型就只需要操心这些编号怎么排，不用直接画像素。

第二步：自回归世界模型——像写小说一样接龙。 一个 9B 参数的 decoder-only Transformer 接过这条长队伍：看着过去的视频 token + 文字 + 动作，猜下一个视频 token 是哪块积木。训练目标就是经典的 next-token prediction（下一个词预测），和训 GPT 完全一样。这一步输出还是一串数字，根本没画面。

第三步：视频解码器——像画师把分镜稿变成正式作画。 一个独立的扩散模型（diffusion model，扩散模型）拿到上一步预测的 token 序列，把这些"积木编号"重新画回高分辨率、帧与帧连得上的真实画面。这样就把"剧情对不对"和"画工好不好"分开了：世界模型管剧情，扩散解码器管画工。

第四步：条件控制——像给画师改命令。 在队伍开头塞不同的文字和动作，就能让模型生成各种"如果当时这样会怎样"（counterfactual，反事实）的场景：换天气、换光照、换驾驶风格、甚至强行让车做平时不会做的动作。这正是"做模拟器"比"做策略"多出来的好处——你能让它演没真发生过的事。

实验在做什么

论文展示了一系列定性结果（quantitative 数字需读原文）：

长时序生成：从一段真实开头出发，续写几十秒的视频，画面保持时空一致。
prompt 控制：用文本 prompt 改天气、时段、场景类型。
action 控制：给定不同的方向盘/油门动作，看世界模型如何续写——验证它学到了"动作 → 视觉后果"的因果。
scaling 趋势：参数从几亿涨到 9B，生成质量、prompt 跟随、长时一致性都在变好。
涌现能力：未明确训过的"开上人行道""逆行"等场景可以被 prompt 出来。

具体的 FVD（Fréchet Video Distance）、token 数量、训练数据小时数等数字需读原文。

你应该懂的几个新词 — 4-6 个

World Model（世界模型）：神经网络版的"模拟器"。给当前状态 + 动作，预测下一状态。区别于"策略"（policy）只决定动作。
Autoregressive（自回归）：一次预测一个 token，把刚预测出的塞回前缀，再预测下一个。LLM 的核心范式。
Tokenizer（分词器/编码器）：把连续信号（图像、音频）切成离散 token 的模型。GAIA-1 用图像 tokenizer 把帧编成 token。
Diffusion Decoder（扩散解码器）：一个用扩散过程从 token 还原成像素的网络。它只管"画得好看"，不管"应该画什么"。
Counterfactual（反事实）：训练集没出现过、但符合物理/语义合理性的"如果……会怎样"场景。世界模型的关键卖点。
Emergent Capability（涌现能力）：模型变大后突然出现的、小模型完全没有的能力。源自 LLM 文献，GAIA-1 在驾驶域复现了这个现象。

它和其他论文什么关系

上游：World Models (Ha & Schmidhuber) 提出 latent world model 概念；Dreamer v1/v2 把它做到游戏环境里能学策略。
同代视频生成：Make-A-Video、Imagen Video、Sora（更晚）都是文生视频，但不接受动作输入，不能当模拟器用。GAIA-1 把"动作可控"补上了。
驾驶领域同行：DriveDreamer、MagicDrive、GenAD 都做驾驶视频生成，规模和定位略有不同；GAIA-1 是把"语言模型范式 + 9B 规模"押到驾驶域的代表作。
下游用法：可以给 RL agent 当训练环境（dream + rollout），可以做安全性测试（生成边角案例 corner case），也可以做反事实评估。
同期 Wayve 工作：LINGO 系列把语言-驾驶接起来；GAIA 这条线后来出了 GAIA-2（2025），更大、更可控。

我建议这样读 — 3-4 步

先看 demo 视频：Wayve 的 blog 和 Twitter 上有大量生成结果，先建立"它到底在做什么"的直觉，再读论文。
读引言 + 方法的总览图：理解 tokenizer → world model → diffusion decoder 三段式架构。这是全文骨架。
跳读实验定性结果：重点看 prompt 控制和 action 控制两类实验，体会"这是模拟器，不是策略"的差异。
想想能不能用：自己手头如果有视频 + 动作数据，能不能套这个范式？哪些假设要改？

为什么值得读

范式信号：它是"把 LLM 的 next-token prediction 直接搬到驾驶视频"的代表作，证明 scaling law 在视觉-动作世界里也成立。后来的 Sora、GAIA-2、Genie 都在这个方向上往前推。
世界模型 vs 策略：很多人把"开车 AI"等同于"端到端策略"。GAIA-1 提醒你还有第二条路——先建一个会做梦的模拟器，再在里面训策略，或者直接用它做评估、做数据增广。
工程审美：三段式架构（tokenizer / autoregressive backbone / diffusion decoder）的解耦很干净，把"语义"和"像素"分开，每段都可以独立扩大。这套结构在 2024-2025 年成了视频生成 + 世界模型领域的事实标准之一。
对 embodied AI 的启示：如果驾驶能做，机械臂、无人机、人形机器人也能照搬这套流程——前提是你有足够多的"视频 + 动作"配对数据。这正是 RT-2、Open X-Embodiment、π0 这一拨工作铺路要解决的问题。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_gaia_1_2026,
  title       = {(readable note) GAIA-1},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/gaia-1/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)