回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
World Model & Video Policy · Plate Nº 146

DayDreamer

9 min read · 2994 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

让一只四足机器人不靠仿真,在真实世界里 1 小时就学会走路——靠的是边走边在脑子里"做梦"演练。


这是个什么场景 — 日常类比

想象你第一次学骑自行车,小区楼下那块水泥地就是你的"训练场"。

第一种学法(无模型 RL,model-free RL):你只能靠"摔"来学。每摔一次记一笔——龙头掰太狠、脚下蹬太慢——摔够几千次,肌肉记忆才慢慢成型。问题是真实自行车不像游戏关卡,摔多了膝盖会破、车把会歪、天会黑、你妈会喊你回家吃饭。

第二种学法(基于模型 RL,model-based RL / world model):你脑子里慢慢攒出一套"自行车物理直觉"——龙头往左掰一点车会向左倒、蹬快一点反而更稳。有了这个脑内小模型,你可以闭着眼在脑子里反复演练:白天下楼骑 5 分钟收集真实反馈,晚上躺床上"做梦"一样在脑内骑 1 小时复盘。第二天再上车,进步神速。

DayDreamer 做的就是第二件事:机器人在真实地面上只走一小段,把这段数据喂进一个"脑内物理模型",再让算法在脑内做几千次梦去试各种动作,最后只把"梦里跑通的经验"拿回真世界继续验证。1 小时学会走路,就是这么省出来的。


DayDreamer — 场景示意:这论文要解决的现实问题
Plate Nº IDayDreamer — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • Sim-to-Real(仿真到真实):先在 MuJoCo / Isaac Gym 这类仿真器里跑几百万步,把策略练到 90 分,再迁移到真实机器人。问题是仿真和现实总有 gap(reality gap),尤其是接触、摩擦、电机延迟,迁移过去常常掉到 60 分。
  • 真实世界 model-free RL(PPO / SAC 直接在真机上学):理论上可以,但样本效率太差,常常需要几十小时甚至几天的真机交互,机器人撑不住,电池烧不起。
  • 示教学习 / 模仿学习:人遥控示范 → 机器人模仿。省样本但天花板在示教者水平,且示教成本高。
  • Dreamer 系列(v1/v2)的成绩:在 Atari 和 DM Control(仿真控制 benchmark)上拿到过 SOTA,但几乎没人把它直接放到真实机器人上——大家默认 model-based 在真实世界里"不稳"。
  • 核心痛点:在真实物理世界里,想让一个从零开始的强化学习智能体在人类可以接受的时间内(1 小时级别,而不是 1 周)学会一个真实任务,被认为很难。

这篇论文的关键想法

一句话:Dreamer 已经够好了,差的只是有人去把它接到真机上。

具体拆三层:

1. World model 的样本效率是"被低估"的真实优势。 之前大家把 Dreamer 当成"仿真里跑分高的算法",但忘了它的核心机制——学一个 latent 动力学模型,然后在 latent 里 imagine(想象/做梦)大量轨迹——天然就是为"真实世界数据贵"设计的。在仿真里这个优势看不出来(仿真步是免费的),到真机上它就显形了。

2. 几乎不改算法。 作者强调他们没有为机器人重新设计 Dreamer。该论文的工程贡献是把 Dreamer-V2 的架构直接接上四足机器人 A1(Unitree A1)的传感器和电机,加几个"真机才需要"的小组件(异步训练、安全限位、自动复位),算法核心几乎原封不动。

3. 不只是四足。 论文同时演示了 4 个任务:四足走路、机械臂抓取、机械臂推方块、视觉导航。这是为了证明 world model 不是只在某一个特定形态上 work,而是一种通用的"在真实世界里高效学习"的范式


DayDreamer — 方法示意:核心 pipeline
Plate Nº IIDayDreamer — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

架构骨干:Dreamer-V2 的 RSSM(Recurrent State-Space Model,循环状态空间模型)。 像一个一边看一边记笔记的侦探:机器人每走一步就收集一条线索 (观察, 动作, 奖励),丢进一个循环网络。这个网络在脑内维护一份当前世界的速记本——也就是 latent state(潜在状态,一组压缩后的内部信念向量)。从这份速记本,模型同时猜三件事:下一帧画面会长什么样、下一步能拿多少奖励、要不要喊停。三个预测任务一起监督 RSSM,最后练出一个能在脑子里推演世界的 dynamics model(动力学模型)。

等等,先慢一拍 — latent state 是什么? 你可以想成一张极度压缩的"现场便签"。原始观察是一整张高清图,便签只记关键几条:"正在向右倾斜、左前腿离地、地面有点滑"。神经网络靠这种便签思考,比对着原始像素思考快得多。

学习循环:actor-critic 在 latent 里 rollout(推演)。 就像棋手下棋前先在脑子里走几步看结果——有了 world model,强化学习不需要真机交互了。actor(动作网络,决定下一步怎么动)和 critic(价值网络,给当前局面打分)直接在 latent 空间里"做梦":每次梦想象一条几十步的轨迹,让 critic 给沿途每一步估个分,再用策略梯度把 actor 调向"梦里更高分"的方向。这一步是纯算力换样本:GPU 里想多少次都行,真机一根毛都不掉。

真机适配:异步训练 + 安全限位 + 自动复位。 仿真可以按暂停键,真机不行——机器人不会在你训练时乖乖立正等你。所以训练循环和数据采集循环必须异步并行,像厨房后厨和前台分工:一个进程在 GPU 上不停训练 world model 和 actor(后厨炒菜),另一个进程在机器人上跑当前最新版 actor 收集数据(前台上菜)。再加几个工程兜底:动作幅度限制(怕摔坏)、自动复位机制(摔倒后能自己站起来或触发人工介入)、传感器异常处理。

4 个任务的具体配置(具体数字需读原文)。 四足任务用 Unitree A1 机器人,状态包含本体感知(关节角、IMU 惯性测量单元);机械臂任务用 UR5 + 视觉;导航任务直接吃 RGB 图像。每个任务的奖励函数、训练时长、最终性能数据需读原文表 1 / 表 2 确认。


实验在做什么

核心 claim:1 小时真机训练,从零学会四足走路。

这是论文的"招牌镜头"——一只刚开机、连什么是"前"都不知道的四足机器人,在大约 1 小时的真实世界训练后,能够稳定地向前行走。整个过程不需要仿真、不需要示教、不需要预训练权重。

对比基线:和 model-free 的 SAC / PPO 直接在真机上跑。 这种对比是为了凸显 world model 的样本效率——同样的真机时间预算下,model-free 方法基本还在原地打转,而 DayDreamer 已经走起来了。

消融与扩展:4 个任务横向铺开。 四足走路、机械臂 pick、机械臂 push、视觉导航。这种"一个算法 4 个 embodiment"的实验设计,是为了从单点突破升级成"范式有效性"的论证。

质性观察:训练过程中的"摔倒-恢复-改进"曲线。 论文里应该有训练曲线图(reward over real-world minutes),可以直观看到智能体从随机抖动 → 站稳 → 迈步 → 稳定行走的过程。具体数字(最终速度、成功率、奖励曲线斜率)需读原文。


你应该懂的几个新词 — 4-6 个

  • World model(世界模型):智能体内部学到的"环境模拟器",给定当前状态和动作,能预测下一帧观察 + 奖励。有了它就可以在脑内 rollout,不必每次都问真世界。
  • Latent dynamics(潜在动力学):world model 不是直接在像素层面预测(太难太慢),而是先把观察压缩成一个低维 latent state,在 latent 空间里学动力学。可以理解为"用抽象概念思考"而不是"用像素思考"。
  • RSSM(Recurrent State-Space Model):Dreamer 系列的核心模块。一种把循环网络和概率隐变量结合的架构,同时维护"确定性 hidden state"和"随机 latent",能处理部分可观测和长时依赖。
  • Imagination rollout(想象式展开):在 latent world model 里向前推演 N 步,全程不碰真环境,actor-critic 在这条想象轨迹上做策略优化。这是 model-based RL 省样本的核心机制。
  • Sample efficiency(样本效率):达到某个性能水平所需的真实环境交互步数。Model-based 方法的卖点就是这个数字小。
  • Sim-to-real gap(仿真到真实差距):仿真里学好的策略迁移到真机时的性能下降。DayDreamer 的间接 claim 是"如果直接在真机上学就没这个 gap"。

它和其他论文什么关系

  • 直接前作:Dreamer-V1(2019) / Dreamer-V2(2020)。DayDreamer 几乎是 Dreamer-V2 的"真机迁移工程报告"。算法本体读这两篇,DayDreamer 看怎么落地。
  • 思想源头:World Models(Ha & Schmidhuber, 2018) world-models-ha.md。最早把"先学世界模型再在脑内训练智能体"这套范式写成文章的论文。DayDreamer 是这条线在真实机器人上的兑现。
  • 对照:Sim-to-Real 路线(ANYmal RL、Isaac Gym)。两条路线哲学不同——sim-to-real 信"先在便宜的仿真里学到极致",DayDreamer 信"world model 已经够省,直接吃真数据"。两者不是替代关系,更可能是互补。
  • 下游影响:之后 Dreamer-V3(2023)进一步把这套方法在更多任务上调成"开箱即用",部分动机就来自 DayDreamer 暴露的真机训练痛点。
  • 与 RT-1 / RT-2 这种大数据 + transformer 路线对比:那条路是"用海量数据 + 大模型蒸馏出策略",DayDreamer 是"用极少数据 + 显式动力学模型在线学"。前者像查字典,后者像现场推理。

我建议这样读 — 3-4 步

  1. 先读 abstract + intro + 4 个任务的 demo 视频(YouTube 搜 "DayDreamer CoRL 2022")。这一步只是建立"它真的让机器人在 1 小时学会走路"的直觉,不要陷入算法细节。
  2. 回去补 Dreamer-V2 的方法部分(如果不熟 RSSM),重点搞清楚 latent state 是怎么训练的、imagination rollout 是怎么做策略梯度的。这是 DayDreamer 的算法底座,论文本身不会重讲。
  3. 再回来读 DayDreamer 的"系统设计"章节——异步训练、安全机制、自动复位。这部分是论文的真正贡献,读的时候问自己:"如果我来做,每一个工程决策为什么必须这样?"
  4. 最后扫实验表 + 训练曲线,确认 4 个任务的真机训练时长和最终性能,建立"world model 在真机上能省多少样本"的量化感觉。

为什么值得读

  • 它是 model-based RL 走出仿真的标志性时刻。这之前 model-based 一直被怀疑"只在 toy environment 里能打",DayDreamer 用一个 1 小时学会走路的 demo 一锤定音。
  • 工程极简主义的样板。算法不改、堆 GPU 想象、加几个真机兜底——这种"不发明新东西也能写好论文"的风格,对实习生有方法论启发:有时候 contribution 是"我证明了它能 work",不必发明新框架
  • 是 embodied AI 路径选择的重要参考。读完你会更清楚 sim-to-real 和直接真机 RL 的优劣边界,未来选研究方向时不会盲从某一派。
  • 难度适中(⭐⭐⭐)。不像 Dreamer-V2 那样需要从零啃 RSSM 数学,DayDreamer 的工程叙事更友好,适合作为"world model + 真机"主题的入门首选。

引用本笔记 / Cite this note
BibTeX
@online{eai_daydreamer_2026,
  title       = {(readable note) DayDreamer},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2022 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/daydreamer/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim