World Model & Video Policy · Plate Nº 144

Dream to Control: Learning Behaviors by Latent Imagination

18 min read · 6449 字 · ⭐⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI"的读者看的精读笔记。不假设你懂强化学习，公式全部翻成人话。

一句话讲什么（TL;DR）

教 AI 在脑子里反复"做白日梦"演练动作，不用真去摔跤，就能学会跑步、翻跟头这种复杂动作。

所以这一节是想说：这篇论文教 AI"闭着眼想一遍"就把动作练好。

这是个什么场景

想象你刚买了驾照要上路。方法 A：直接开着真车上街练，蹭一次保险杠 5000 块，撞到人就更麻烦——这是"试错"型，贵、慢、危险。方法 B：你坐在沙发上闭眼"过电影"——"这里红灯踩刹车、那个路口右转要看后视镜"，脑子里走一百遍，再上车你会发现稳多了。

这种"脑内过电影"心理学里叫心象演练（mental rehearsal），钢琴家、外科医生、F1 车手都在偷偷用。问题来了：AI 能不能也学会这套"闭眼练习"？

AI 面临的版本是这样的：

真实训练机器人，跟新手开真车一样贵——机械臂磨损、零件砸坏、bug 闯出实验室。
一只机器狗要摔一千次才学会走路，电池都换坏了三块。
如果它能在脑子里"想象摔一千次"再上场试一次，是不是就能省下 99% 的真实代价？

Dreamer 要做的就是这件事：让 AI 自学一个"世界的脑内模型"，然后躲在这个模型里做梦练习，不用天天去真环境里碰运气。

所以这一节是想说：Dreamer 想给 AI 安装"做白日梦"的能力，靠想象代替真实试错来学复杂动作。

Plate Nº IDream to Control — 场景示意：这论文要解决的现实问题

之前的人怎么做的，为什么不够好

方案 A：纯试错型 RL（D4PG / A3C 等"无模型"方法） 类比：让你在真球场上拍 1 亿次球才学会发球。能学会，但贵、慢，电费比球拍贵。论文里 D4PG 要 1 亿步真实交互才能勉强追上 Dreamer。
方案 B：先学会做梦，但梦完不会自己出招（World Models 2018 / PlaNet 2018） 类比：脑子里能脑补世界长什么样，但每次该出哪招还得"实时搜索"——临到上场才一招招试，慢得要命。PlaNet 训练时间是 Dreamer 的 4 倍。
方案 C：在像素空间做梦（直接想象画面） 类比：每次脑内演练都要把整张球场重新画一遍。脑子根本装不下——每帧 64×64×3 = 12288 个数字，想 50 步未来要堆 60 万数字，还要 N 个分支。
方案 D：用导数自由的优化（PETS、CEM 这些） 类比：闭着眼瞎试一千个挥拍角度，挑得分最高的那个。能避开模型误差，但不用神经网络梯度等于浪费了一座金矿——梯度本来就长在那儿，告诉你"往哪个方向调更好"，他们偏不用。
方案 E：多步 Q 学习（MVE、STEVE） 类比：拿模型预测的奖励去帮真实试错型 AI 算账。只是辅助，不是真的全靠想象学。

所以这一节是想说：之前要么贵要么慢要么短视，没人把"压缩到潜空间想象 + 解析梯度回传 + 价值函数补长程"三件事缝起来。

这篇论文的新想法

不在像素世界做梦，而是在一个压缩过的"潜空间"里做梦；做完梦还要把"梦里赚的分"沿着可微的神经网络梯度，一路反向流回去告诉策略"刚才哪步该多做"。

等等，先慢一拍——"潜空间"和"可微"是什么？

潜空间（latent space）：把一张 64×64 的图（约一万两千个数字）压成 30 个数字的"剧情摘要"。脑子里想"摘要"比想"原画"快几百倍。
可微（differentiable）：整条链路是数学函数搭起来的，可以一路求导——意思是"分数高了 0.1 分，反推回去刚好能算出哪个动作要稍微往左偏一点点"。

听起来还是抽象，下面拆成 3 步讲。

所以这一节是想说：Dreamer 把"想象 → 评分 → 改进"三件事用一根可微的管子串了起来。

它分几步做的（方法）

整个 Dreamer 由三个互相喂养的循环组成：学世界模型、学行为（演员-评论家）、跟真环境交互。

1. 学一个会"压缩世界"的脑内模型（潜动力学）

类比

你看一段足球比赛录像。你不会把每一帧 1080p 画面存进脑子，而是抽象成一个剧情梗概：A 队 3 号球员控球到中线、传给 7 号、7 号射门、进了。下次回忆这场比赛，你脑子里其实只剩这串"剧情向量"。Dreamer 的世界模型干的就是这事。

它在干什么

模型分三个零件：

表示模型 (representation model)：把当前画面 + 上一步动作压缩成一个 30 维的"剧情向量" s_t。
转移模型 (transition model)：在不看新画面的前提下，纯靠 s_{t-1} 和动作 a_{t-1}，预测下一秒的剧情向量 s_t。这就是"做梦"的核心——不依赖真画面也能往前推。
奖励模型 (reward model)：给我一个剧情向量 s_t，告诉我"在这个状态会拿多少分"。

潜空间 (latent space)：高维输入（图片、声音）被压缩后的低维空间。Dreamer 用 30 维向量。比起 12288 维的图片，又小又快又干净。

马尔可夫性 (Markovian)：下一刻只依赖此刻，不依赖更早的历史。便于把状态当"完整剧情快照"用。

RSSM (Recurrent State Space Model)：Dreamer 用的具体模型结构。把"确定性记忆 + 随机变量"两条线并起来，相当于给"剧情向量"配了一条 RNN 时间链。

关键术语解释

POMDP (部分可观测马尔可夫决策过程)：现实里的标准设定——你看不到世界全貌，只看到一帧画面，得自己脑补背景。

变分下界 / ELBO：训练这种"压缩 + 重建"模型的标准损失。人话：让"压完再解压"的画面尽量像原图，同时让"压缩"过程别记太多无关细节。

重建 (reconstruction)：让模型把潜向量再画回图。Dreamer 训练时用一个反卷积网络去画。后来发现这步是性能命根。

为什么这步有用

一旦剧情向量足够好，"想象一千个未来"只是 1000 次 30 维向量计算——比想象 1000 个 12288 维图像便宜 400 倍。
论文 Figure 5 给了一个震撼实验：只看前 5 帧，让模型自己预测后 45 帧——RSSM 在视觉上几乎 1:1 还原。说明剧情向量真的抓住了世界规律。
这是后面所有"做梦练习"的基础——梦得不准，练什么都白搭。

所以这一节是想说：先教 AI 把世界压成一串剧情向量，再教它在这个空间里"快进时间"看未来。

2. 在梦里同时学"出招"和"打分员"（演员-评论家）

类比

你脑内打网球时其实在干两件事：

出招的你（Actor / 行动者）：模拟出"这一拍我侧身回斜线"。
打分的你（Critic / 评论者）：边模拟边打分——"嗯，这一拍打过去对面接不到，预计本回合赢"。

两个"你"互相喂养：打分员告诉行动者哪种出招更值钱，行动者再去试新招让打分员重新校准。这就是演员-评论家 (actor-critic) 框架，已存在几十年。Dreamer 的新地方在"梦里就这么练，不上真球场"。

它在干什么

每次训练循环：

从经验池里随便挑一个真实的剧情向量 s_t 作为"梦的起点"。
让行动者从这个起点出发，在脑子里走 H=15 步，每步：
- 行动者输出一个动作 a_τ
- 转移模型预测下一个剧情向量 s_{τ+1}
- 奖励模型预测这一步拿多少分 r_τ
- 评论者预测从这步往后能拿多少总分 v(s_τ)
用一种叫 V_λ 的混合估计算"这条想象轨迹值多少分"（混合不同长度的展望，对方差和偏差做权衡）。

关键术语解释

想象时域 (imagination horizon, H)：在梦里往前推几步。Dreamer 用 H=15。

价值函数 (value function, V)：给一个状态打分，告诉你"从这里往后总共能拿多少分"。是评论者的输出。

演员-评论家 (actor-critic)：两个神经网络，一个出招（演员）一个打分（评论家），互相学习。SAC、A3C、PPO 都属于这家。

λ-return (V_λ)：把"只看 1 步"、"只看 2 步"... "看到底"这些不同视野的估计，按指数权重平均。优点：兼顾"看得远"和"算得稳"。

重参数化 (reparameterization)：让"采样动作"这一步看起来像"确定性变换 + 随机噪声"，这样梯度可以穿过它流回参数。Dreamer 的关键技术。

关键公式翻译成人话

原文写：a_τ = tanh(μ_φ(s_τ) + σ_φ(s_τ) · ε)，ε ~ Normal(0, I)。

人话：给定剧情向量，神经网络吐出"动作的均值和不确定度"，然后骰一个标准正态噪声 ε，按这个不确定度抖一抖、再用 tanh 压到 [-1, 1] 区间，就是这次的动作。骰子那部分用了重参数化——梯度可以从最终动作一路传回神经网络的参数里。

为什么这步有用

用价值函数填补"看不见的未来"：H=15 步以外的奖励，让评论者的预测顶上去。这就避开了"短视"——只看 15 步会错过那些 30 步之后才到来的回报。
Figure 4 的实验：Dreamer 在 H=10 和 H=40 时表现差不多；而没有价值函数的版本（"No value"）随着 H 增大才慢慢爬上来，性能对 H 很敏感。
没有价值函数，等于打网球时只看眼前两秒——你永远学不会布局长回合。

所以这一节是想说：梦里同时训"出招 + 打分员"，让 AI 既能想得远又算得稳。

3. 用解析梯度直接告诉演员"哪步该多做"

类比

你是个篮球教练，看完一场比赛复盘。

传统方法（REINFORCE / PPO）：你只能告诉队员"上半场总分高 → 整体多做这种打法"。粗放，因为你不知道具体是哪一回合贡献了高分。
Dreamer 方法：因为整场比赛是你在脑子里模拟的（而且每个环节都是"可微"的神经网络），你可以精确算出："那次第 7 分钟的传球，对终场比分的贡献是 +3.2 分；如果当时角度多偏 5 度，预计能 +4.1 分"。

这种"具体到每个动作的导数"叫解析梯度 (analytic gradient)。Dreamer 把它从 H 步之外的价值估计一路反向传回演员的神经网络参数里。

它在干什么

训练演员的优化目标，写成人话：

让 ∑ (整条想象轨迹上每一步的 V_λ 估计) 最大化。

因为整条链 s_t → a_t → s_{t+1} → ... → V_λ 全是神经网络组成，每一步都可微——你直接对演员参数 φ 求导，告诉它"参数 φ 往哪个方向挪一点点能让这条想象的总分变大"。

关键术语解释

解析梯度 (analytic gradient)：直接把数学公式微分得到的精确导数，相对于"采样估计"这种粗糙的近似。

反向传播 (backpropagation)：神经网络训练的标准做法，把误差从输出端一路往输入端微分回去。

REINFORCE / 策略梯度 (policy gradient)：传统 RL 训演员的方法，靠"采样回报 × log 概率"。方差高，需要大量样本。Dreamer 不用这个。

stop-gradient：训练评论者时，把回归目标 V_λ 当成"已知常数"，不让梯度流过它。否则演员和评论者会互相搞乱。

为什么这步有用

解析梯度的方差比策略梯度低几个数量级——同样的样本量能学得更准。
DDPG、SAC 也用解析梯度，但它们只用"单步 Q 值"的梯度，看不远；Dreamer 用"多步价值"的梯度，看得远。这是它和 SAC 这一系最关键的差别。
实验结果：Dreamer 用 5×10⁶ 步交互达到 823 平均分；D4PG 要 10⁸ 步（多 20 倍）才达到 786。梯度信息利用得越好，样本越省。

所以这一节是想说：因为整场梦是可微的，可以精确算出"哪步动作往哪个方向调"，比传统 RL 的粗放反馈高效得多。

4. 表征学习：怎么让"梦"长得像真世界

类比

学画画时老师让你做三种练习：(A) 看一眼苹果转身画出来——逼你记住完整结构；(B) 在一堆水果照片里挑出哪两张是同一个苹果——只要分得清就行；(C) 只记住这苹果"甜度 7 分"——根本没看形状。三种练习练出来的画工天差地别。Dreamer 的世界模型也面临这个选择：让它学着"重建图片"、"分清哪张配哪张"、还是"只记奖励分"？

它在干什么

Dreamer 算法本身和"怎么压缩世界"是解耦的——你换不同的世界模型训练目标都行。论文比了三种：

图像重建 (reconstruction)：让模型把潜向量解码回原图。最有效，绝大多数任务上最强。
对比学习 (contrastive / NCE)：不重建图像，只让"潜向量配对图像"分得清。能解决一半任务。
只预测奖励 (reward only)：完全不管像素，只让奖励预测对。不够——Figure 8 显示几乎完全学不会走路。

NCE (Noise Contrastive Estimation)：对比学习损失之一，靠"区分真配对 vs 假配对"间接学表征。

信息瓶颈 (Information Bottleneck)：理论框架，让模型只保留对预测有用的信息，丢掉无关细节。

所以这一节是想说：图像重建是当前最有效的"造梦原料"；只看奖励的偷懒法不够。

Plate Nº IIDream to Control — 方法示意：核心 pipeline

关键数字（What works）

数字 1：平均得分 823 vs D4PG 786

怎么算的：20 个视觉控制任务的平均得分（满分 1000）。
对比：Dreamer 在 5×10⁶ 步内 = 823；D4PG 用 10⁸ 步 = 786。
生活语言：花 1/20 的真实交互，分数还更高。样本效率提升 20 倍。

数字 2：训练时间 3 小时 vs PlaNet 11 小时 vs D4PG 24 小时

怎么算的：每 100 万步真实交互的训练耗时（单张 V100 GPU + 10 CPU）。
对比：Dreamer 比 PlaNet（同样会做梦但没演员）快 3.7×，比 D4PG 快 8×。
生活语言：PlaNet 慢是因为每次决策都要"实时搜索"100 个想象分支选最优；Dreamer 是"训练时把演员练好，上场直接出招"。

数字 3：Hopper Hop 任务 369 vs PlaNet 0.4

怎么算的：让一只单腿机器人原地跳的任务。
对比：Dreamer 369；PlaNet 几乎是 0；A3C（用真实状态量，不看图）也只有 0.5。
生活语言：长程信用分配任务（要先蹲再蹦才能拿分）上，没有价值函数的方法完全学不会——它们只看 H=15 步内的奖励，蹲下那一步看不到回报，就放弃了。

数字 4：Imagination Horizon 在 [10, 40] 都稳定

怎么算的：把 H 从 10 调到 40 看分数变化。
对比：Dreamer 全程 ~800；"No value" 在 H=10 时只有 200，H=40 才接近 700。
生活语言：因为有价值函数兜底，Dreamer 不靠"看得远"硬扛——这意味着 H 不用调，所有任务用同一组超参就行。

数字 5：表征学习消融——重建 > 对比 > 只奖励

怎么算的：换三种世界模型损失，看 Dreamer 平均分。
对比：重建大约 800；对比一半任务能解；只奖励几乎学不会。
生活语言：让模型学着把图"画回去"是最强的监督信号。这个发现影响了后面 DreamerV2 / V3 的设计。

数字 6：所有 20 个连续控制任务用同一组超参

怎么算的：原文 Section 6。
生活语言：之前的方法（包括 PlaNet）每个任务要单独调"动作重复次数"等超参，工程繁琐。Dreamer 全跑同一套，体现了鲁棒性——这是给后续工业界用的重要信号。

所以这一节是想说：在样本效率、计算效率、长程任务表现、稳健性四个维度同时碾压，是 model-based RL 第一次做到全面碾压 model-free。

你应该懂的几个新词

强化学习 (Reinforcement Learning, RL)：通过试错 + 奖励信号学行为的范式。AlphaGo、ChatGPT 的 RLHF 都属于此。

世界模型 (World Model)：AI 心里那个"环境怎么演化"的模型，可以用来"在脑子里模拟"。Dreamer 是把世界模型用到登峰造极的代表作。

潜空间 (latent space) / 潜动力学 (latent dynamics)：把高维输入压缩成低维向量后所在的空间。Dreamer 用 30 维潜空间预测未来。

想象 (imagination)：在世界模型里"快进时间"看可能的未来轨迹，不需要真去环境里走。

演员-评论家 (actor-critic)：两个网络，一个出招 (actor / policy / action model)，一个打分 (critic / value model)。Dreamer 的核心结构。

价值函数 (value function, V)：状态打分函数。"从这状态往后总共能拿多少分"。

解析梯度 (analytic gradient)：通过反向传播精确算出的导数。相对于"采样估计的策略梯度"方差低很多。

重参数化 (reparameterization)：把随机采样改写成"确定性变换 + 标准噪声"，让梯度能穿过采样这一步。

POMDP (Partially Observable Markov Decision Process)：标准 RL 形式化，承认"你只看到部分观测，得自己脑补"。视觉控制天然是 POMDP。

DM Control Suite：DeepMind 发布的连续控制基准，包括走路、跳跃、平衡杆等 20 多个任务。Dreamer 把它当主战场。

样本效率 (sample efficiency)：拿到好性能需要多少真实交互步数。model-based 方法的核心卖点就是样本效率。

RSSM (Recurrent State Space Model)：Dreamer 用的具体世界模型结构，确定性 + 随机性两条线并行。后续 DreamerV2/V3 沿用并改进。

所以这一节是想说：上面这些词是 model-based RL 这条路的基本词汇表，Dreamer 把它们的标准用法定型了。

它有什么搞不定的

离散动作（Atari）打不过 model-free：原文 Appendix C 老实承认，在 Atari 这种动作离散、画面复杂的环境上，Dreamer 还赢不过 Rainbow / IMPALA。要等 DreamerV2（2021）才追上。这暴露了 RSSM 在复杂视觉场景下"做梦"质量不够。
奖励稀疏到极端时仍然会卡：纯奖励驱动学世界模型时几乎瘫痪（Figure 8）。说明世界模型本身得有"额外信号"（图像重建）才稳定。
想象的世界 ≠ 真实世界：模型再准也有误差，长想象时域里误差会累积——所以 Dreamer 才不得不靠价值函数兜底，纯靠想象推到底是不现实的。
不能处理 3D 或大规模场景：64×64 像素的卡通仿真环境是它的舒适区。真实机器人摄像头分辨率高、光照变、纹理复杂，得等 DreamerV3。

所以这一节是想说：Dreamer 是连续控制 + 简单视觉的霸主，但离散动作和真实复杂场景还得等续作。

它和别的论文是什么关系

放到我们这批已经读过的笔记里：

vs LLaVA / 多模态 VLM：LLaVA 教 AI"看图说话"，Dreamer 教 AI"想象未来动作"。一个偏感知，一个偏决策。但都体现了"用大模型把世界压缩成有用表示"的共同套路。
vs SayCan / OpenVLA：SayCan 让大语言模型当机器人的"高层规划师"，OpenVLA 端到端从图直接吐动作。Dreamer 是另一条腿——自己学一个世界模型，再在里头做梦。这条腿后来发展成 DreamerV3、DayDreamer，可以跑真机器人。
vs Cosmos World Foundation Model：NVIDIA Cosmos 是把"世界模型"思路放大到大规模视频预训练的版本。可以理解成 Dreamer 的精神后裔——压缩 → 想象 → 学策略。Cosmos 用 Transformer 替了 RSSM，规模拉到几亿参数。
vs 模仿学习类论文：模仿学习（如行为克隆）需要专家数据；Dreamer 完全自己探索 + 想象，不需要演示。
历史脉络：World Models (2018) → PlaNet (2018) → Dreamer (2020, 本篇) → DreamerV2 (2021, 攻克 Atari) → DreamerV3 (2023, 一组超参跑 150 个任务) → DayDreamer (真机器人) → 各种衍生（IRIS、TWM、Genie、Cosmos）。

所以这一节是想说：Dreamer 是 model-based RL 这条主线的"成年礼"——之后所有"AI 自己造梦学动作"的工作都从它出发。

我建议这样读这篇

零基础读者按这条路走：

看 Figure 1 和 Figure 3（5 分钟）：把"学动力学 / 学行为 / 真环境交互"三件套图记进脑子。这是整篇的骨架。
跳到 Section 3 第一段 + Algorithm 1（15 分钟）：搞清楚训练循环里到底干了什么。Algorithm 1 写得相当人话。
读 Equation 6 和 Figure 4（10 分钟）：理解 V_λ 是个"混合多视野估计"的玩意儿；Figure 4 直观看到为啥要价值函数。
跳过 Section 4 的公式（除非要自己实现）：知道"重建是最强的世界模型损失"就够了。Section 4 里的变分推导留给将来再回来啃。
看 Figure 6 的柱状图（5 分钟）：直观感受 20 任务上 Dreamer vs 别人。
挑两条好奇心的引用追（视情况）：World Models (2018) 和 PlaNet (2018) 是它的直接前传。

读完这 6 步大约 60 分钟。如果你想推到能复现，再去啃 Appendix A 的超参表 + GitHub 代码。

所以这一节是想说：先看图（结构 + 实验），再看一段算法伪代码，公式和变分推导都可以暂缓。

一些好奇心问答（FAQ）

Q1：为什么不用真实图像做梦，而要在潜空间？

潜空间小（30 维 vs 12288 维），可以并行想象几千条轨迹；图像空间想象一条都嫌慢。论文 Section 1 第二段直接点了这一点。

Q2：Dreamer 是不是 supervised learning 的强化版？

不完全是。它确实有监督部分（奖励预测、图像重建），但怎么出招那部分是 RL（自己探索、自己造数据、自己评分）。可以说是"监督学世界 + 强化学行为"的混合体。

Q3：H=15 是怎么定的？

经验值。Figure 4 显示 H 在 [10, 40] 区间分数差不多，说明价值函数把它调宽容了。原文用 H=15 在所有连续任务上都跑。

Q4：为什么"做梦"梦得准是可能的？

DM Control Suite 是仿真环境——物理规则简单（牛顿力学）+ 画面卡通。Figure 5 的实验显示模型只看 5 帧能预测后 45 帧。真实复杂环境（猫从沙发跳下打翻水杯）梦不准，所以 DreamerV3 才需要更大模型。

Q5：训练 Dreamer 要多少卡？我能跑吗？

单张 V100 + 10 CPU 跑一个任务大约 12-15 小时（500 万步）。GitHub 上原作者放了完整代码（TF1 版本）。社区也有 PyTorch 复现。研究生硬件够用。

Q6：演员是确定性还是随机性策略？

随机性。输出"动作均值 + 标准差"的高斯分布（再用 tanh 压到 [-1, 1]）。重参数化让梯度可以穿过采样。

Q7：奖励稀疏的时候 Dreamer 还行吗？

部分行。Cartpole Swingup Sparse 这种"扔出杆子才有 1 分"的任务上 Dreamer 拿 812（D4PG 482，PlaNet 0.6）。但完全没奖励信号的环境（纯探索）不行——它没有内在好奇心机制。后续 Plan2Explore 补了这块。

Q8：和 SAC 这种 model-free 的最强代表比，Dreamer 强在哪？

主要是样本效率。SAC 也用解析梯度（重参数化），但它只能用"环境真实数据 + 单步 Q"。Dreamer 在脑内造了无穷数据 + 多步价值，每步真交互价值是 SAC 的 10-20 倍。但是 SAC 在大规模真实任务（比如真机器人 360 度全转）目前还更稳。

所以这一节是想说：Dreamer 是仿真环境的样本效率冠军，但稀疏奖励、复杂感知、真机部署这些工程问题还有空间。

如果你想再深入

按"前传 → 续作 → 衍生 → 实战"四类排序：

前传：World Models (Ha & Schmidhuber, 2018) — 第一次提出"AI 在脑子里学世界模型 + 在梦里训练策略"的端到端范式。Dreamer 是它的"端到端训练 + 解析梯度"升级版。
前传：PlaNet (Hafner et al., 2018) — 同一作者的前作。引入 RSSM，但出招靠在线规划而非演员。读完 Dreamer 再读 PlaNet，会发现"加一个演员"的改进多么关键。
续作：DreamerV2 (Hafner et al., 2021) — 攻克离散动作（Atari），把 RSSM 的随机变量改成 categorical。第一次让纯 model-based 在 Atari 击败 Rainbow。
续作：DreamerV3 (Hafner et al., 2023) — 一组超参跑 150 多个任务，包括 Minecraft "钻石挑战"。引入 symlog 预测、KL balancing、free bits 等稳定性 trick。Cosmos / TWM / IRIS 等几乎都受 DreamerV3 启发。
衍生：DayDreamer (Wu et al., 2022) — 把 Dreamer 直接搬到真机器狗、机械臂上。证明"想象学习"在真实硬件上也能省样本。
衍生：Plan2Explore (Sekar et al., 2020) — 补 Dreamer 不会主动探索的弱点，加内在好奇心。

如果你想把这条主线串起来，World Models → PlaNet → Dreamer → DreamerV3 是必读四件套。

所以这一节是想说：把 Dreamer 放进 Hafner 的研究序列里读，能清楚看到 model-based RL 这条路怎么从玩具发展到能解 Minecraft 钻石挑战。

最后一个画面

Figure 5 的视频预测——给模型 5 帧，让它做梦推 45 步。生成的画面里：

走路机器人继续迈腿，姿态自然，腿不会突然消失。
杂技机器人翻完跟头能稳稳落地。
杯子里的小球会按物理规律滚动。

这一刻，"AI 在脑子里能生成可信的物理世界"第一次在通用任务上变成现实。Dreamer 没有用任何外部数据集，靠自己玩、自己看、自己想。

所以最后一节是想说：Dreamer 真正历史性的不是分数，而是它证明了——AI 可以靠"自己造梦"学会复杂的具身行为，这是通往通用智能体的一块基石。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_dreamer_v1_2026,
  title       = {(readable note) Dream to Control: Learning Behaviors by Latent Imagination},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2020 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/dreamer-v1/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)