回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
World Model & Video Policy · Plate Nº 149

Transformers are Sample-Efficient World Models

7 min read · 2446 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

把游戏画面切成一格格"积木",让 AI 像写句子一样接龙下一帧,然后让它在脑子里"自己跟自己玩"练强化学习——只玩两小时就接近人类水平。

这是个什么场景

你小时候肯定干过这种事:玩一个新游戏卡住了,晚上躺床上闭着眼"在脑子里复盘"——按左会怎样、按右会怎样、这个鬼会从哪边来。第二天再开机,手感明显变好了。

人类学游戏其实只玩了几小时,但 AI 玩雅达利往往要"刷"上亿局才能玩明白。差距就在这——人能在脑子里"过电影"自己练,AI 通常只会硬刷。

IRIS 想让 AI 也学会这套"脑内模拟":

  • 常见做法(Model-free RL):AI 必须真在游戏里反复死,靠死出来的经验更新策略——慢且贵。
  • 基于模型的做法(Model-based RL):AI 先学一个"小型游戏模拟器"装在脑子里,然后大部分练习都在脑内模拟器里完成,省掉真打。
  • IRIS 的小聪明:它脑内的模拟器不直接"画"出下一帧画面(画图很容易糊),而是把画面切成 16×16 的"乐高积木",然后像写句子一样一块一块接龙预测——这正好是 Transformer(写文章那种 AI)的强项。

换句话说,IRIS 把"预测下一帧画面"变成了"写下一句话"。

Transformers are Sample-Efficient World Models — 场景示意:这论文要解决的现实问题
Plate Nº ITransformers are Sample-Efficient World Models — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • Dreamer 系列(v1/v2):在隐空间里建 RSSM(Recurrent State-Space Model),用 RNN 滚动预测潜变量。世界模型连续、平滑,但 RNN 长程依赖弱。
  • MuZero:不显式建图像,而是学一个"价值/策略一致性"的 latent 模型,配合 MCTS 搜索。强但工程复杂。
  • SimPLe(Atari 100k 基准的开山之作):用像素级视频预测模型,在想象里训 PPO。证明了 model-based 在低数据 Atari 上可行,但模型不够准。
  • World Models(Ha & Schmidhuber 2018):VAE + MDN-RNN 想象 CarRacing。开创"在梦里训练"思路,但规模小。
  • 共同问题:要么用连续隐空间 + RNN(容量与可扩展性受限),要么用像素级预测(噪声大、累积误差大)。Transformer 在语言上的成功还没真正"搬"进 world model。

这篇论文的关键想法

一句话:把"预测画面"硬掰成"写文章",然后用 GPT 那一套去做。

像翻译一样三步走:

  1. 把画面翻译成"字":用 VQ-VAE 把每帧 64×64 的图切成 16×16=256 个小格子,每个格子从一本"字典"(codebook,大约 512–1024 个候选)里挑一个最像的"字"代替。这一步图像就变成了一串"文本"。
  2. 请 GPT 当游戏模拟器:训练一个 Transformer,输入是"过去几帧的字 + 玩家按了什么键",输出"下一帧应该写哪些字 + 这一步得几分 + 游戏是不是结束了"。结构跟 GPT 一模一样,只是它学的"语言"是游戏画面。
  3. 让智能体在小说里练级:用 actor-critic(演员-评论员,演员负责出招、评论员负责打分)这种强化学习算法,完全在 Transformer 编出来的"游戏小说"里训练。真游戏只负责给世界模型喂新素材。

等等,先慢一拍——这里的 token 是什么?

可以理解成"视觉拼音":原本一张图有几万个像素值,太碎了 Transformer 学不动;VQ-VAE 替它压缩成 256 个"拼音字母",再交给 Transformer 去拼。这样模型只能从有限的"字"里选词,自带防止"画歪"的护栏。

Transformers are Sample-Efficient World Models — 方法示意:核心 pipeline
Plate Nº IITransformers are Sample-Efficient World Models — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一阶段 — 训练 tokenizer(VQ-VAE):像给画面学拼音

想象你在教孩子认字:先准备一本 512 字的字典,再让他看图找最像的字。这就是 VQ-VAE(Vector Quantized Variational Autoencoder,向量量化变分自编码器)做的事。Encoder 把图像下采样到 16×16 网格,每个网格位置去 codebook(字典)里找最近的码字,用索引代替;Decoder 再把这串索引"读"回成图像。损失由三部分组成:重建损失(还原得像不像)+ commitment loss(防止字典字四处乱跑)+ perceptual loss(视觉上像不像)。这一步是离线无监督的,只用 replay buffer 里攒下来的图像。

第二阶段 — 训练世界模型(Transformer):像翻译官学接龙

把一个翻译官关在屋里,只给他看"过去几帧的字 + 玩家按的键",让他猜下一帧的字、这步得多少分、游戏是不是结束了。这就是 Transformer 在做的事。输入序列长这样:[obs_tokens_t, action_t, obs_tokens_{t+1}, action_{t+1}, ...],每帧约 256 个 token。Transformer 自回归预测三件事:(a) 下一帧的 token 串;(b) 这步的奖励(标量回归头);(c) 是否 episode 结束(二分类头)。三个头共享同一个主干网络。真实游戏数据持续往里灌。

第三阶段 — 在想象中训练策略:像在脑内跑马拉松

类比抄作业但只抄过程不抄答案——智能体从真实游戏的某一刻"截图",然后让世界模型在脑内 rollout 十几步假轨迹,在这串假轨迹上更新自己的策略。actor(出招的演员)按 critic(打分的评论员)的反馈调整动作选择,critic 用 λ-return 平衡"看远还是看近"。整个循环是:真玩一小段 → 训 tokenizer + 世界模型 → 在想象里训 actor-critic → 用新策略再去真玩。

关键细节

token 化让注意力(attention)能在一帧内自己问"豆子和鬼在哪、互相离多近",跨帧时再去算"按了左之后这堆字会怎么变"。比起 Dreamer 那种 RSSM(用 RNN 压成一个小瓶颈),Transformer 容量大得多、适合更复杂的画面。代价是 token 多,脑内 rollout 比 Dreamer 慢。

实验在做什么

主战场:Atari 100k 基准——只允许 100k 步真实环境交互(约等于人类玩 2 小时),看能学多好。

  • 26 款 Atari 游戏,跟 SimPLe / Dreamer-V2 / SPR / MuZero-Reanalyze 等比 human-normalized score。
  • IRIS 的人类标准化中位数显著超过之前 model-based baseline(具体数字需读原文,量级是 mean 1.0+ 即跨过人类水平)。
  • 在 10 款游戏上超人类。
  • 消融:去掉离散 token、换 RNN 都掉点,证明"Transformer + discrete token"的组合是关键。
  • 想象质量可视化:能从一个起点 rollout 几十步还保持画面连贯。

局限:在需要长程规划的游戏(如 Montezuma's Revenge)上仍弱——这是探索问题,不是世界模型问题。

你应该懂的几个新词 — 4-6 个

  • World Model(世界模型):一个能预测"环境对动作的反应"的神经网络。给定 (s, a) 输出 (s', r)。
  • VQ-VAE:把连续向量"吸附"到一个有限码本上的自编码器。让图像变成离散 token 序列,便于 Transformer 处理。
  • Tokenization(token 化):把原始信号(文本/图像/音频)切成离散单位。NLP 里是 BPE,视觉里就是 VQ-VAE / dVAE 这类。
  • Imagination Rollout(想象中 rollout):不在真实环境,而是在 world model 里模拟若干步轨迹。便宜、可并行、但有累积误差。
  • Sample Efficiency(样本效率):用更少真实交互达到同样性能。Atari 100k 基准就是专门衡量这个。
  • Actor-Critic:策略网络(actor)+ 价值网络(critic)的双塔训练框架。critic 估 V/Q,actor 用它的梯度信号更新。

它和其他论文什么关系

  • 直接前辈:Dreamer-V2(Hafner 2021)—— 同样是 model-based + imagination training,但用 RSSM 而非 Transformer。IRIS 可以看作"Dreamer 把骨架换成 Transformer"。
  • 方法论先祖:World Models(Ha & Schmidhuber 2018)—— "在梦里训练"的最早系统化提法。
  • token 化思路来源:VQ-VAE-2 / DALL·E —— 把图像变成 token 序列让 Transformer 处理的视觉生成传统。
  • 同期/后续:TWM (Transformer-based World Models)、STORM、DreamerV3、GAIA-1(自动驾驶世界模型)、Genie(DeepMind 2024)—— 都在沿着"Transformer 当世界模型"这条路走,但任务从 Atari 推到机器人、自动驾驶、开放世界视频。
  • 机器人方向应用:UniSim、1X World Model、DayDreamer 改造 —— 用 IRIS 类似思路给机器人造数据。
  • 互补对比:Diffusion World Model(如 DIAMOND)—— 一种走"连续 + 扩散"路线的替代方案,证明离散 token 不是唯一答案。

我建议这样读 — 3-4 步

  1. 先读 Dreamer-V2 弄懂"什么叫在想象里训 actor-critic"和 RSSM 是什么。否则直接读 IRIS 会卡在 model-based RL 框架。
  2. 再扫一眼 VQ-VAE 原文(van den Oord 2017)的图 1-2,搞清"码本 + 最近邻替换"的机械动作。
  3. 正式读 IRIS:重点看 Figure 1(整体架构)和 Algorithm 1(训练循环)。方法 4-5 页就能读完,剩下都是实验。
  4. 配合官方代码跑一遍 Atari Pong(最简单):体感"100k 步 = 多少分钟训练 = 玩成什么样",比看曲线直观。

为什么值得读

  • 范式信号:是把 Transformer 用作世界模型的早期标杆之一。后来 Genie / GAIA-1 / Sora-as-world-model 等都受它启发。
  • 方法干净:三件套(VQ-VAE + Transformer + actor-critic)每件都是经典模块的组合,没有黑魔法。读完能把"model-based RL × 视觉 tokenization × 自回归"三个领域串起来。
  • 样本效率证据:在 Atari 100k 这种极端低数据场景跑赢,说明 world model 学习是给样本效率续命的有效手段——这对机器人这种"采样昂贵"的领域是直接信号。
  • 承上启下:往前接 Dreamer / World Models 传统,往后通 Genie / DIAMOND / 大规模视频世界模型。是 world-model 主线笔记里跳不过的一站。
  • 工程参考价值:如果你想给自己的机器人任务做一个 world model 当数据增广器,IRIS 的代码量小(相比 DreamerV3)、可读性高,是不错的起手项目。

引用本笔记 / Cite this note
BibTeX
@online{eai_iris_world_model_2026,
  title       = {(readable note) Transformers are Sample-Efficient World Models},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/iris-world-model/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim