回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
World Model & Video Policy · Plate Nº 144

Dream to Control: Learning Behaviors by Latent Imagination

18 min read · 6449 字 · ⭐⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI"的读者看的精读笔记。不假设你懂强化学习,公式全部翻成人话。

一句话讲什么(TL;DR)

教 AI 在脑子里反复"做白日梦"演练动作,不用真去摔跤,就能学会跑步、翻跟头这种复杂动作。

所以这一节是想说:这篇论文教 AI"闭着眼想一遍"就把动作练好。


这是个什么场景

想象你刚买了驾照要上路。方法 A:直接开着真车上街练,蹭一次保险杠 5000 块,撞到人就更麻烦——这是"试错"型,贵、慢、危险。方法 B:你坐在沙发上闭眼"过电影"——"这里红灯踩刹车、那个路口右转要看后视镜",脑子里走一百遍,再上车你会发现稳多了。

这种"脑内过电影"心理学里叫心象演练(mental rehearsal),钢琴家、外科医生、F1 车手都在偷偷用。问题来了:AI 能不能也学会这套"闭眼练习"?

AI 面临的版本是这样的:

  • 真实训练机器人,跟新手开真车一样贵——机械臂磨损、零件砸坏、bug 闯出实验室。
  • 一只机器狗要摔一千次才学会走路,电池都换坏了三块。
  • 如果它能在脑子里"想象摔一千次"再上场试一次,是不是就能省下 99% 的真实代价?

Dreamer 要做的就是这件事:让 AI 自学一个"世界的脑内模型",然后躲在这个模型里做梦练习,不用天天去真环境里碰运气

所以这一节是想说:Dreamer 想给 AI 安装"做白日梦"的能力,靠想象代替真实试错来学复杂动作。


Dream to Control — 场景示意:这论文要解决的现实问题
Plate Nº IDream to Control — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:纯试错型 RL(D4PG / A3C 等"无模型"方法) 类比:让你在真球场上拍 1 亿次球才学会发球。能学会,但贵、慢,电费比球拍贵。论文里 D4PG 要 1 亿步真实交互才能勉强追上 Dreamer。

  • 方案 B:先学会做梦,但梦完不会自己出招(World Models 2018 / PlaNet 2018) 类比:脑子里能脑补世界长什么样,但每次该出哪招还得"实时搜索"——临到上场才一招招试,慢得要命。PlaNet 训练时间是 Dreamer 的 4 倍。

  • 方案 C:在像素空间做梦(直接想象画面) 类比:每次脑内演练都要把整张球场重新画一遍。脑子根本装不下——每帧 64×64×3 = 12288 个数字,想 50 步未来要堆 60 万数字,还要 N 个分支。

  • 方案 D:用导数自由的优化(PETS、CEM 这些) 类比:闭着眼瞎试一千个挥拍角度,挑得分最高的那个。能避开模型误差,但不用神经网络梯度等于浪费了一座金矿——梯度本来就长在那儿,告诉你"往哪个方向调更好",他们偏不用。

  • 方案 E:多步 Q 学习(MVE、STEVE) 类比:拿模型预测的奖励去帮真实试错型 AI 算账。只是辅助,不是真的全靠想象学。

所以这一节是想说:之前要么贵要么慢要么短视,没人把"压缩到潜空间想象 + 解析梯度回传 + 价值函数补长程"三件事缝起来。


这篇论文的新想法

不在像素世界做梦,而是在一个压缩过的"潜空间"里做梦;做完梦还要把"梦里赚的分"沿着可微的神经网络梯度,一路反向流回去告诉策略"刚才哪步该多做"。

等等,先慢一拍——"潜空间"和"可微"是什么?

  • 潜空间(latent space):把一张 64×64 的图(约一万两千个数字)压成 30 个数字的"剧情摘要"。脑子里想"摘要"比想"原画"快几百倍。
  • 可微(differentiable):整条链路是数学函数搭起来的,可以一路求导——意思是"分数高了 0.1 分,反推回去刚好能算出哪个动作要稍微往左偏一点点"。

听起来还是抽象,下面拆成 3 步讲。

所以这一节是想说:Dreamer 把"想象 → 评分 → 改进"三件事用一根可微的管子串了起来。


它分几步做的(方法)

整个 Dreamer 由三个互相喂养的循环组成:学世界模型、学行为(演员-评论家)、跟真环境交互。

1. 学一个会"压缩世界"的脑内模型(潜动力学)

类比

你看一段足球比赛录像。你不会把每一帧 1080p 画面存进脑子,而是抽象成一个剧情梗概:A 队 3 号球员控球到中线、传给 7 号、7 号射门、进了。下次回忆这场比赛,你脑子里其实只剩这串"剧情向量"。Dreamer 的世界模型干的就是这事。

它在干什么

模型分三个零件:

  1. 表示模型 (representation model):把当前画面 + 上一步动作压缩成一个 30 维的"剧情向量" s_t
  2. 转移模型 (transition model):在不看新画面的前提下,纯靠 s_{t-1} 和动作 a_{t-1},预测下一秒的剧情向量 s_t。这就是"做梦"的核心——不依赖真画面也能往前推
  3. 奖励模型 (reward model):给我一个剧情向量 s_t,告诉我"在这个状态会拿多少分"。

潜空间 (latent space):高维输入(图片、声音)被压缩后的低维空间。Dreamer 用 30 维向量。比起 12288 维的图片,又小又快又干净。

马尔可夫性 (Markovian):下一刻只依赖此刻,不依赖更早的历史。便于把状态当"完整剧情快照"用。

RSSM (Recurrent State Space Model):Dreamer 用的具体模型结构。把"确定性记忆 + 随机变量"两条线并起来,相当于给"剧情向量"配了一条 RNN 时间链。

关键术语解释

POMDP (部分可观测马尔可夫决策过程):现实里的标准设定——你看不到世界全貌,只看到一帧画面,得自己脑补背景。

变分下界 / ELBO:训练这种"压缩 + 重建"模型的标准损失。人话:让"压完再解压"的画面尽量像原图,同时让"压缩"过程别记太多无关细节。

重建 (reconstruction):让模型把潜向量再画回图。Dreamer 训练时用一个反卷积网络去画。后来发现这步是性能命根。

为什么这步有用

  • 一旦剧情向量足够好,"想象一千个未来"只是 1000 次 30 维向量计算——比想象 1000 个 12288 维图像便宜 400 倍。
  • 论文 Figure 5 给了一个震撼实验:只看前 5 帧,让模型自己预测后 45 帧——RSSM 在视觉上几乎 1:1 还原。说明剧情向量真的抓住了世界规律。
  • 这是后面所有"做梦练习"的基础——梦得不准,练什么都白搭。

所以这一节是想说:先教 AI 把世界压成一串剧情向量,再教它在这个空间里"快进时间"看未来。


2. 在梦里同时学"出招"和"打分员"(演员-评论家)

类比

你脑内打网球时其实在干两件事:

  • 出招的你(Actor / 行动者):模拟出"这一拍我侧身回斜线"。
  • 打分的你(Critic / 评论者):边模拟边打分——"嗯,这一拍打过去对面接不到,预计本回合赢"。

两个"你"互相喂养:打分员告诉行动者哪种出招更值钱,行动者再去试新招让打分员重新校准。这就是演员-评论家 (actor-critic) 框架,已存在几十年。Dreamer 的新地方在"梦里就这么练,不上真球场"。

它在干什么

每次训练循环:

  1. 从经验池里随便挑一个真实的剧情向量 s_t 作为"梦的起点"。
  2. 让行动者从这个起点出发,在脑子里走 H=15 步,每步:
    • 行动者输出一个动作 a_τ
    • 转移模型预测下一个剧情向量 s_{τ+1}
    • 奖励模型预测这一步拿多少分 r_τ
    • 评论者预测从这步往后能拿多少总分 v(s_τ)
  3. 用一种叫 V_λ 的混合估计算"这条想象轨迹值多少分"(混合不同长度的展望,对方差和偏差做权衡)。

关键术语解释

想象时域 (imagination horizon, H):在梦里往前推几步。Dreamer 用 H=15。

价值函数 (value function, V):给一个状态打分,告诉你"从这里往后总共能拿多少分"。是评论者的输出。

演员-评论家 (actor-critic):两个神经网络,一个出招(演员)一个打分(评论家),互相学习。SAC、A3C、PPO 都属于这家。

λ-return (V_λ):把"只看 1 步"、"只看 2 步"... "看到底"这些不同视野的估计,按指数权重平均。优点:兼顾"看得远"和"算得稳"。

重参数化 (reparameterization):让"采样动作"这一步看起来像"确定性变换 + 随机噪声",这样梯度可以穿过它流回参数。Dreamer 的关键技术。

关键公式翻译成人话

原文写:a_τ = tanh(μ_φ(s_τ) + σ_φ(s_τ) · ε)ε ~ Normal(0, I)

人话:给定剧情向量,神经网络吐出"动作的均值和不确定度",然后骰一个标准正态噪声 ε,按这个不确定度抖一抖、再用 tanh 压到 [-1, 1] 区间,就是这次的动作。骰子那部分用了重参数化——梯度可以从最终动作一路传回神经网络的参数里。

为什么这步有用

  • 用价值函数填补"看不见的未来":H=15 步以外的奖励,让评论者的预测顶上去。这就避开了"短视"——只看 15 步会错过那些 30 步之后才到来的回报。
  • Figure 4 的实验:Dreamer 在 H=10 和 H=40 时表现差不多;而没有价值函数的版本("No value")随着 H 增大才慢慢爬上来,性能对 H 很敏感。
  • 没有价值函数,等于打网球时只看眼前两秒——你永远学不会布局长回合。

所以这一节是想说:梦里同时训"出招 + 打分员",让 AI 既能想得远又算得稳。


3. 用解析梯度直接告诉演员"哪步该多做"

类比

你是个篮球教练,看完一场比赛复盘。

  • 传统方法(REINFORCE / PPO):你只能告诉队员"上半场总分高 → 整体多做这种打法"。粗放,因为你不知道具体是哪一回合贡献了高分
  • Dreamer 方法:因为整场比赛是你在脑子里模拟的(而且每个环节都是"可微"的神经网络),你可以精确算出:"那次第 7 分钟的传球,对终场比分的贡献是 +3.2 分;如果当时角度多偏 5 度,预计能 +4.1 分"。

这种"具体到每个动作的导数"叫解析梯度 (analytic gradient)。Dreamer 把它从 H 步之外的价值估计一路反向传回演员的神经网络参数里。

它在干什么

训练演员的优化目标,写成人话:

让 ∑ (整条想象轨迹上每一步的 V_λ 估计) 最大化。

因为整条链 s_t → a_t → s_{t+1} → ... → V_λ 全是神经网络组成,每一步都可微——你直接对演员参数 φ 求导,告诉它"参数 φ 往哪个方向挪一点点能让这条想象的总分变大"。

关键术语解释

解析梯度 (analytic gradient):直接把数学公式微分得到的精确导数,相对于"采样估计"这种粗糙的近似。

反向传播 (backpropagation):神经网络训练的标准做法,把误差从输出端一路往输入端微分回去。

REINFORCE / 策略梯度 (policy gradient):传统 RL 训演员的方法,靠"采样回报 × log 概率"。方差高,需要大量样本。Dreamer 不用这个。

stop-gradient:训练评论者时,把回归目标 V_λ 当成"已知常数",不让梯度流过它。否则演员和评论者会互相搞乱。

为什么这步有用

  • 解析梯度的方差比策略梯度低几个数量级——同样的样本量能学得更准。
  • DDPG、SAC 也用解析梯度,但它们只用"单步 Q 值"的梯度,看不远;Dreamer 用"多步价值"的梯度,看得远。这是它和 SAC 这一系最关键的差别。
  • 实验结果:Dreamer 用 5×10⁶ 步交互达到 823 平均分;D4PG 要 10⁸ 步(多 20 倍)才达到 786。梯度信息利用得越好,样本越省

所以这一节是想说:因为整场梦是可微的,可以精确算出"哪步动作往哪个方向调",比传统 RL 的粗放反馈高效得多。


4. 表征学习:怎么让"梦"长得像真世界

类比

学画画时老师让你做三种练习:(A) 看一眼苹果转身画出来——逼你记住完整结构;(B) 在一堆水果照片里挑出哪两张是同一个苹果——只要分得清就行;(C) 只记住这苹果"甜度 7 分"——根本没看形状。三种练习练出来的画工天差地别。Dreamer 的世界模型也面临这个选择:让它学着"重建图片"、"分清哪张配哪张"、还是"只记奖励分"?

它在干什么

Dreamer 算法本身和"怎么压缩世界"是解耦的——你换不同的世界模型训练目标都行。论文比了三种:

  • 图像重建 (reconstruction):让模型把潜向量解码回原图。最有效,绝大多数任务上最强。
  • 对比学习 (contrastive / NCE):不重建图像,只让"潜向量配对图像"分得清。能解决一半任务。
  • 只预测奖励 (reward only):完全不管像素,只让奖励预测对。不够——Figure 8 显示几乎完全学不会走路。

NCE (Noise Contrastive Estimation):对比学习损失之一,靠"区分真配对 vs 假配对"间接学表征。

信息瓶颈 (Information Bottleneck):理论框架,让模型只保留对预测有用的信息,丢掉无关细节。

所以这一节是想说:图像重建是当前最有效的"造梦原料";只看奖励的偷懒法不够。


Dream to Control — 方法示意:核心 pipeline
Plate Nº IIDream to Control — 方法示意:核心 pipeline

关键数字(What works)

数字 1:平均得分 823 vs D4PG 786

  • 怎么算的:20 个视觉控制任务的平均得分(满分 1000)。
  • 对比:Dreamer 在 5×10⁶ 步内 = 823;D4PG 用 10⁸ 步 = 786。
  • 生活语言:花 1/20 的真实交互,分数还更高。样本效率提升 20 倍

数字 2:训练时间 3 小时 vs PlaNet 11 小时 vs D4PG 24 小时

  • 怎么算的:每 100 万步真实交互的训练耗时(单张 V100 GPU + 10 CPU)。
  • 对比:Dreamer 比 PlaNet(同样会做梦但没演员)快 3.7×,比 D4PG 快 8×。
  • 生活语言:PlaNet 慢是因为每次决策都要"实时搜索"100 个想象分支选最优;Dreamer 是"训练时把演员练好,上场直接出招"。

数字 3:Hopper Hop 任务 369 vs PlaNet 0.4

  • 怎么算的:让一只单腿机器人原地跳的任务。
  • 对比:Dreamer 369;PlaNet 几乎是 0;A3C(用真实状态量,不看图)也只有 0.5。
  • 生活语言:长程信用分配任务(要先蹲再蹦才能拿分)上,没有价值函数的方法完全学不会——它们只看 H=15 步内的奖励,蹲下那一步看不到回报,就放弃了。

数字 4:Imagination Horizon 在 [10, 40] 都稳定

  • 怎么算的:把 H 从 10 调到 40 看分数变化。
  • 对比:Dreamer 全程 ~800;"No value" 在 H=10 时只有 200,H=40 才接近 700。
  • 生活语言:因为有价值函数兜底,Dreamer 不靠"看得远"硬扛——这意味着 H 不用调,所有任务用同一组超参就行

数字 5:表征学习消融——重建 > 对比 > 只奖励

  • 怎么算的:换三种世界模型损失,看 Dreamer 平均分。
  • 对比:重建大约 800;对比一半任务能解;只奖励几乎学不会。
  • 生活语言:让模型学着把图"画回去"是最强的监督信号。这个发现影响了后面 DreamerV2 / V3 的设计。

数字 6:所有 20 个连续控制任务用同一组超参

  • 怎么算的:原文 Section 6。
  • 生活语言:之前的方法(包括 PlaNet)每个任务要单独调"动作重复次数"等超参,工程繁琐。Dreamer 全跑同一套,体现了鲁棒性——这是给后续工业界用的重要信号。

所以这一节是想说:在样本效率、计算效率、长程任务表现、稳健性四个维度同时碾压,是 model-based RL 第一次做到全面碾压 model-free。


你应该懂的几个新词

强化学习 (Reinforcement Learning, RL):通过试错 + 奖励信号学行为的范式。AlphaGo、ChatGPT 的 RLHF 都属于此。

世界模型 (World Model):AI 心里那个"环境怎么演化"的模型,可以用来"在脑子里模拟"。Dreamer 是把世界模型用到登峰造极的代表作。

潜空间 (latent space) / 潜动力学 (latent dynamics):把高维输入压缩成低维向量后所在的空间。Dreamer 用 30 维潜空间预测未来。

想象 (imagination):在世界模型里"快进时间"看可能的未来轨迹,不需要真去环境里走。

演员-评论家 (actor-critic):两个网络,一个出招 (actor / policy / action model),一个打分 (critic / value model)。Dreamer 的核心结构。

价值函数 (value function, V):状态打分函数。"从这状态往后总共能拿多少分"。

解析梯度 (analytic gradient):通过反向传播精确算出的导数。相对于"采样估计的策略梯度"方差低很多。

重参数化 (reparameterization):把随机采样改写成"确定性变换 + 标准噪声",让梯度能穿过采样这一步。

POMDP (Partially Observable Markov Decision Process):标准 RL 形式化,承认"你只看到部分观测,得自己脑补"。视觉控制天然是 POMDP。

DM Control Suite:DeepMind 发布的连续控制基准,包括走路、跳跃、平衡杆等 20 多个任务。Dreamer 把它当主战场。

样本效率 (sample efficiency):拿到好性能需要多少真实交互步数。model-based 方法的核心卖点就是样本效率。

RSSM (Recurrent State Space Model):Dreamer 用的具体世界模型结构,确定性 + 随机性两条线并行。后续 DreamerV2/V3 沿用并改进。

所以这一节是想说:上面这些词是 model-based RL 这条路的基本词汇表,Dreamer 把它们的标准用法定型了。


它有什么搞不定的

  • 离散动作(Atari)打不过 model-free:原文 Appendix C 老实承认,在 Atari 这种动作离散、画面复杂的环境上,Dreamer 还赢不过 Rainbow / IMPALA。要等 DreamerV2(2021)才追上。这暴露了 RSSM 在复杂视觉场景下"做梦"质量不够。
  • 奖励稀疏到极端时仍然会卡:纯奖励驱动学世界模型时几乎瘫痪(Figure 8)。说明世界模型本身得有"额外信号"(图像重建)才稳定。
  • 想象的世界 ≠ 真实世界:模型再准也有误差,长想象时域里误差会累积——所以 Dreamer 才不得不靠价值函数兜底,纯靠想象推到底是不现实的。
  • 不能处理 3D 或大规模场景:64×64 像素的卡通仿真环境是它的舒适区。真实机器人摄像头分辨率高、光照变、纹理复杂,得等 DreamerV3。

所以这一节是想说:Dreamer 是连续控制 + 简单视觉的霸主,但离散动作和真实复杂场景还得等续作。


它和别的论文是什么关系

放到我们这批已经读过的笔记里:

  • vs LLaVA / 多模态 VLM:LLaVA 教 AI"看图说话",Dreamer 教 AI"想象未来动作"。一个偏感知,一个偏决策。但都体现了"用大模型把世界压缩成有用表示"的共同套路。
  • vs SayCan / OpenVLA:SayCan 让大语言模型当机器人的"高层规划师",OpenVLA 端到端从图直接吐动作。Dreamer 是另一条腿——自己学一个世界模型,再在里头做梦。这条腿后来发展成 DreamerV3、DayDreamer,可以跑真机器人。
  • vs Cosmos World Foundation Model:NVIDIA Cosmos 是把"世界模型"思路放大到大规模视频预训练的版本。可以理解成 Dreamer 的精神后裔——压缩 → 想象 → 学策略。Cosmos 用 Transformer 替了 RSSM,规模拉到几亿参数。
  • vs 模仿学习类论文:模仿学习(如行为克隆)需要专家数据;Dreamer 完全自己探索 + 想象,不需要演示
  • 历史脉络:World Models (2018) → PlaNet (2018) → Dreamer (2020, 本篇) → DreamerV2 (2021, 攻克 Atari) → DreamerV3 (2023, 一组超参跑 150 个任务) → DayDreamer (真机器人) → 各种衍生(IRIS、TWM、Genie、Cosmos)。

所以这一节是想说:Dreamer 是 model-based RL 这条主线的"成年礼"——之后所有"AI 自己造梦学动作"的工作都从它出发。


我建议这样读这篇

零基础读者按这条路走:

  1. 看 Figure 1 和 Figure 3(5 分钟):把"学动力学 / 学行为 / 真环境交互"三件套图记进脑子。这是整篇的骨架。
  2. 跳到 Section 3 第一段 + Algorithm 1(15 分钟):搞清楚训练循环里到底干了什么。Algorithm 1 写得相当人话。
  3. 读 Equation 6 和 Figure 4(10 分钟):理解 V_λ 是个"混合多视野估计"的玩意儿;Figure 4 直观看到为啥要价值函数。
  4. 跳过 Section 4 的公式(除非要自己实现):知道"重建是最强的世界模型损失"就够了。Section 4 里的变分推导留给将来再回来啃。
  5. 看 Figure 6 的柱状图(5 分钟):直观感受 20 任务上 Dreamer vs 别人。
  6. 挑两条好奇心的引用追(视情况):World Models (2018) 和 PlaNet (2018) 是它的直接前传。

读完这 6 步大约 60 分钟。如果你想推到能复现,再去啃 Appendix A 的超参表 + GitHub 代码。

所以这一节是想说:先看图(结构 + 实验),再看一段算法伪代码,公式和变分推导都可以暂缓。


一些好奇心问答(FAQ)

Q1:为什么不用真实图像做梦,而要在潜空间?

潜空间小(30 维 vs 12288 维),可以并行想象几千条轨迹;图像空间想象一条都嫌慢。论文 Section 1 第二段直接点了这一点。

Q2:Dreamer 是不是 supervised learning 的强化版?

不完全是。它确实有监督部分(奖励预测、图像重建),但怎么出招那部分是 RL(自己探索、自己造数据、自己评分)。可以说是"监督学世界 + 强化学行为"的混合体。

Q3:H=15 是怎么定的?

经验值。Figure 4 显示 H 在 [10, 40] 区间分数差不多,说明价值函数把它调宽容了。原文用 H=15 在所有连续任务上都跑。

Q4:为什么"做梦"梦得准是可能的?

DM Control Suite 是仿真环境——物理规则简单(牛顿力学)+ 画面卡通。Figure 5 的实验显示模型只看 5 帧能预测后 45 帧。真实复杂环境(猫从沙发跳下打翻水杯)梦不准,所以 DreamerV3 才需要更大模型。

Q5:训练 Dreamer 要多少卡?我能跑吗?

单张 V100 + 10 CPU 跑一个任务大约 12-15 小时(500 万步)。GitHub 上原作者放了完整代码(TF1 版本)。社区也有 PyTorch 复现。研究生硬件够用。

Q6:演员是确定性还是随机性策略?

随机性。输出"动作均值 + 标准差"的高斯分布(再用 tanh 压到 [-1, 1])。重参数化让梯度可以穿过采样。

Q7:奖励稀疏的时候 Dreamer 还行吗?

部分行。Cartpole Swingup Sparse 这种"扔出杆子才有 1 分"的任务上 Dreamer 拿 812(D4PG 482,PlaNet 0.6)。但完全没奖励信号的环境(纯探索)不行——它没有内在好奇心机制。后续 Plan2Explore 补了这块。

Q8:和 SAC 这种 model-free 的最强代表比,Dreamer 强在哪?

主要是样本效率。SAC 也用解析梯度(重参数化),但它只能用"环境真实数据 + 单步 Q"。Dreamer 在脑内造了无穷数据 + 多步价值,每步真交互价值是 SAC 的 10-20 倍。但是 SAC 在大规模真实任务(比如真机器人 360 度全转)目前还更稳。

所以这一节是想说:Dreamer 是仿真环境的样本效率冠军,但稀疏奖励、复杂感知、真机部署这些工程问题还有空间。


如果你想再深入

按"前传 → 续作 → 衍生 → 实战"四类排序:

  1. 前传:World Models (Ha & Schmidhuber, 2018) — 第一次提出"AI 在脑子里学世界模型 + 在梦里训练策略"的端到端范式。Dreamer 是它的"端到端训练 + 解析梯度"升级版。
  2. 前传:PlaNet (Hafner et al., 2018) — 同一作者的前作。引入 RSSM,但出招靠在线规划而非演员。读完 Dreamer 再读 PlaNet,会发现"加一个演员"的改进多么关键。
  3. 续作:DreamerV2 (Hafner et al., 2021) — 攻克离散动作(Atari),把 RSSM 的随机变量改成 categorical。第一次让纯 model-based 在 Atari 击败 Rainbow。
  4. 续作:DreamerV3 (Hafner et al., 2023)一组超参跑 150 多个任务,包括 Minecraft "钻石挑战"。引入 symlog 预测、KL balancing、free bits 等稳定性 trick。Cosmos / TWM / IRIS 等几乎都受 DreamerV3 启发。
  5. 衍生:DayDreamer (Wu et al., 2022) — 把 Dreamer 直接搬到真机器狗、机械臂上。证明"想象学习"在真实硬件上也能省样本。
  6. 衍生:Plan2Explore (Sekar et al., 2020) — 补 Dreamer 不会主动探索的弱点,加内在好奇心。

如果你想把这条主线串起来,World Models → PlaNet → Dreamer → DreamerV3 是必读四件套。

所以这一节是想说:把 Dreamer 放进 Hafner 的研究序列里读,能清楚看到 model-based RL 这条路怎么从玩具发展到能解 Minecraft 钻石挑战。


最后一个画面

Figure 5 的视频预测——给模型 5 帧,让它做梦推 45 步。生成的画面里:

  • 走路机器人继续迈腿,姿态自然,腿不会突然消失。
  • 杂技机器人翻完跟头能稳稳落地。
  • 杯子里的小球会按物理规律滚动。

这一刻,"AI 在脑子里能生成可信的物理世界"第一次在通用任务上变成现实。Dreamer 没有用任何外部数据集,靠自己玩、自己看、自己想。

所以最后一节是想说:Dreamer 真正历史性的不是分数,而是它证明了——AI 可以靠"自己造梦"学会复杂的具身行为,这是通往通用智能体的一块基石。

引用本笔记 / Cite this note
BibTeX
@online{eai_dreamer_v1_2026,
  title       = {(readable note) Dream to Control: Learning Behaviors by Latent Imagination},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2020 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/dreamer-v1/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim