回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
World Model & Video Policy · Plate Nº 150

TWM: Transformer-based World Models

6 min read · 2258 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

agent 在脑子里"做梦"练本事。这篇把梦的引擎从 RNN 换成 Transformer,记得更长,做得更准。

这是个什么场景 — 日常类比

想象你在准备一场陌生城市的自驾旅行。一种学法:直接开车上路撞车试错(真实环境,贵、慢、可能出事)。另一种学法:先在脑子里反复模拟"我打方向盘 30 度,车会怎么走、路口红灯几秒变绿",在脑内跑一百遍,再真上路。后者就是 agent(智能体)学习的"省钱模式"。

这个"脑内模拟器"就叫世界模型(world model)——agent 脑子里关于"环境会怎么演化"的内部小宇宙。

早期的世界模型(Dreamer 系列)像一台老式胶卷放映机:靠 RNN(循环神经网络)按时间一格一格手摇,必须先把第 t 步的隐状态记下来,才能推出第 t+1 步。问题是放着放着,前面的画面就模糊了——20 步前你捡过一把钥匙,它可能已经忘了。

TWM 换了引擎:像 GPT 读一段文字那样,把过去几十步的画面 + 动作 + 奖励一起摊在桌上,用注意力(attention)一眼扫过全部历史,再吐出"下一步会怎样"。长程的事它更容易记住,训练也更能并行。

TWM — 场景示意:这论文要解决的现实问题
Plate Nº ITWM — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • World Models(Ha & Schmidhuber, 2018):VAE 压图像 + MDN-RNN 预测下一帧潜变量 + 小策略网络在"梦"里训练。开山作,但用的是 RNN。
  • Dreamer / DreamerV2 / DreamerV3:用 RSSM(Recurrent State-Space Model,带循环结构的隐状态空间模型)做世界模型,在想象的 latent 轨迹上做 actor-critic。SOTA 系列,但核心还是 RNN。
  • PlaNet:CEM(cross-entropy method)在 latent world model 上做规划,不学 policy,纯 planning。
  • MuZero:学一个抽象的"动力学函数"+"奖励函数"+"价值函数",配 MCTS(蒙特卡洛树搜索)做规划,但模型也是 MLP/RNN 形态。
  • IRIS(同期 ICLR 2023):和 TWM 思路非常像——离散化图像 token + Transformer 世界模型 + 在想象 rollout 里训 PPO。两篇一起把"Transformer 当世界模型"推到台面。

共同痛点:RNN 在长 horizon 任务上记忆衰减、并行差;想换成 Transformer 又有"序列怎么组织、怎么和 RL 闭环"的工程问题。

这篇论文的关键想法

把世界模型重新定义为"序列建模问题"。每一步的"观察、动作、奖励、终止位"都被编码成 token,按时间顺序串成一条序列,让 Transformer 做自回归(autoregressive)预测:

下一步观察的 latent | 下一步奖励 | 是否终止 ← Transformer(过去 K 步的 obs/action/reward token)

这个框架的两点关键设计:

  1. token 化方式:图像先被一个编码器压成离散或连续的 latent,再和动作、奖励一起作为序列元素。这样 attention 就在"事件"层面做,而不是像素层面。
  2. 想象 + 策略训练:策略不是直接在真环境训,而是在 Transformer 想象出的 rollout 上做 actor-critic 训练(沿用 Dreamer 的 imagination training 思想),但底层动力学换成了 Transformer。

具体的 token 数量、上下文长度、是不是用了 VQ(向量量化)这些细节需读原文确认。

TWM — 方法示意:核心 pipeline
Plate Nº IITWM — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

Step 1:观察编码(像把照片压成缩略图)。摄影师不会把每张高清原图直接塞进相册,会先压成小图。这里也一样:每一帧画面 o_t 先经过 CNN 编码器,压成一个紧凑的小向量 latent z_t(latent = "压缩后的精华表示")。这样 Transformer 不用啃像素,直接看缩略图就行。

Step 2:序列拼装(像写日记,每天一行:今天看到啥 / 做了啥 / 拿了多少分)。把每一步的 (z_t, a_t, r_t, done_t)——也就是「画面、动作、奖励、是否结束」——按时间顺序串成一条 token 序列:[..., z_{t-1}, a_{t-1}, r_{t-1}, z_t, a_t, ...]。每种 token 配自己的 embedding 和位置编码。Transformer 按因果掩码(causal mask,只能看历史不能偷看未来)一路自回归。

等等,先慢一拍——什么叫"自回归"?就是写小说时下一个字要参考前面所有字。这里就是预测下一帧时把前面所有"日记行"都看一遍。

Step 3:训练世界模型(像让学徒抄菜谱)。师傅给学徒一堆"做菜全过程录像"(真实环境采集的 replay buffer),让他学会预测:下一帧画面长啥样(z_{t+1})、这一步能拿多少分(r_t)、菜是不是做完了(done)。loss 就是这几项的加权和。训完,Transformer 就成了"会做梦"的模拟器。

Step 4:策略训练 — 想象后再行动(imagine-then-act,像棋手脑内打谱)。世界模型先冻住,在它生成的想象 rollout(脑内展开 H 步)里跑 actor-critic:actor 决定下一步走哪、critic 给当前局势打分。脑内练完一轮,再真去环境里采新数据,反过来更新世界模型。如此循环。

实验在做什么

主战场是 Atari 100k benchmark——只允许 agent 在真环境玩 10 万步(约 2 小时人类游戏时长),看在 26 个 Atari 游戏上的归一化得分。这个 benchmark 专门考"样本效率",世界模型方法的传统强项。

对照组通常包括 DreamerV2/V3、IRIS、SimPLe、Rainbow(model-free 基线)等。论文要证明的核心点:换成 Transformer 后,在长依赖游戏上表现更好、整体平均分有竞争力,同时训练成本可控。

具体数字(人类归一化中位数、平均分、各游戏胜出数)需读原文。这一类工作通常会附消融实验:上下文窗口长度、token 化方式、image vs latent 输入等。

你应该懂的几个新词 — 4-6 个

  • 世界模型(world model):agent 内部学到的环境动力学模拟器,输入"当前状态 + 动作"输出"下一状态 + 奖励"。让 agent 能在想象里训练,节省真环境交互。
  • 自回归(autoregressive):预测下一个元素时,把已生成的元素一起作为输入。GPT 写文章是这个套路,TWM 把它搬到"下一帧"。
  • latent:经过编码器压缩后的低维表示。比起原始像素,latent 更紧凑也更易建模。
  • imagination training:在世界模型生成的虚拟 rollout 里训练策略,不消耗真环境样本。Dreamer 系列的标志做法。
  • causal mask:Transformer 的注意力掩码,让位置 t 只能看到 ≤ t 的 token。保证训练时不"偷看未来"。
  • Atari 100k:样本效率基准,限制 100k 真环境帧;世界模型 / 高效 RL 方法的常见战场。

它和其他论文什么关系

  • 上承 Dreamer 系列:继承"在想象里训 actor-critic"的范式,把动力学骨干从 RSSM 换成 Transformer。
  • 同期对照 IRIS(ICLR 2023):思路高度相似(Transformer + token 化世界模型 + Atari 100k)。两篇可以对照读,看不同 token 化和训练细节如何影响结果。
  • 远祖 World Models(Ha 2018):开了"VAE 压图 + RNN 想象"的范式,TWM 是这条线的现代化版本。
  • 下游延伸:Genie(DeepMind 2024)、DIAMOND(NeurIPS 2024,用扩散做世界模型)、各种"video as world model"工作(Sora 之后那一波),都在共享"世界模型 = 序列/视频生成模型"这个母题。
  • MuZero 是另一条路:不显式建图像,建的是抽象的 value-equivalent 模型,配 MCTS。TWM 这条线更"生成式",MuZero 更"规划式"。

我建议这样读 — 3-4 步

  1. 先复习 Dreamer 的 imagination training(看 DreamerV2 的图就够)。理解"世界模型 + actor-critic"的双层闭环是吃 TWM 的前置条件。
  2. 读 TWM 第 3 节方法:重点看 token 序列怎么组织、loss 怎么设计、context 多长。和 IRIS 对比一下两者的 token 化差异。
  3. 看 Atari 100k 实验表:关注它在长程依赖游戏(比如 Frostbite、Alien)上是否相对 DreamerV2/V3 有提升,这是 Transformer 替代 RNN 的最直接证据。
  4. 如果想动手:找开源实现(GitHub 上有作者放出的 PyTorch 代码),跑 1-2 个 Atari 游戏感受一下"想象 rollout"长什么样。

为什么值得读

这是把"序列建模 = 世界建模"明确摆出来的早期代表作之一。理解它之后,你会发现后来 Genie、DIAMOND、各种"video world model"的工作其实都在回答同一个问题:世界模型是不是就是一个生成模型?

对于 embodied AI 学习路径来说,这篇是从"经典 RL 世界模型(Dreamer)"过渡到"现代生成式世界模型(Genie / Sora-style)"的桥。读完它,你能讲清楚为什么大家现在都在卷"video diffusion 当世界模型"——因为 TWM/IRIS 这一步先证明了 Transformer 行得通,剩下的只是把生成器换得更强而已。

难度 ⭐⭐⭐⭐:需要 Dreamer 风格的 imagination training 背景 + Transformer 序列建模基础,但只要这两块齐了,方法本身不复杂,是一篇"性价比高"的精读对象。

引用本笔记 / Cite this note
BibTeX
@online{eai_transformer_world_model_2026,
  title       = {(readable note) TWM: Transformer-based World Models},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/transformer-world-model/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim