回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
World Model & Video Policy · Plate Nº 147

Mastering Atari with Discrete World Models

17 min read · 6048 字 · ⭐⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过强化学习"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

让 AI 闭眼"做白日梦"练打老游戏,第一次只靠脑子里想象就打到人类水平。

所以这一节是想说:DreamerV2 让 agent 不用真打游戏,靠"脑内模拟"就学会了 Atari。


这是个什么场景

你出门前在脑子里"过一遍"路线:先到地铁口,换乘 2 号线,出站找右手边那个咖啡店。这个"过一遍"就是脑内模拟——你没真走,但已经把可能撞到的坑预演了一遍。等真出门时,速度比第一次去快多了。

学打游戏其实也分这两种人:

  • 方案 A(model-free,硬刚派):插上手柄死磕,输了重来、赢了记套路。慢,但直接。
  • 方案 B(model-based,建模派):先在脑子里搭一个"游戏模拟器"——它能预测"我按这个键、画面下一秒大概变成啥"。然后大部分练习都在脑子里推演,偶尔上真机验证。

下盲棋的高手就是 B:他闭眼也能下,因为脑子里那张棋盘比眼前的还清楚。

强化学习圈里有个叫 Atari 的"全国统考"——55 款 1980 年代街机游戏(打砖块、太空入侵者、吃豆人之类),每款规则都不一样,用来比哪家 AI 更通用。诡异的是:这场考试里,所有"脑内建模派"都干不过"硬刚派"——脑子里搭的模拟器要么不准、要么算到游戏结束都还没建好。

DreamerV2 是第一个在 Atari 上把"脑内模拟"这条路走通的 AI。

强化学习(Reinforcement Learning, RL):让 AI 通过"试错 + 拿奖励"自己学会一件事的训练方法。比如让它打游戏,赢了加分、输了扣分,慢慢学会怎么打分高。

Atari 基准:1980 年代街机游戏组成的标准测试集。AI 圈用它比较算法的通用性——同一套代码能不能把 55 个完全不同的游戏都打好。

所以这一节是想说:DreamerV2 走的是"先建脑内模拟器再练习"的路子,第一次在 Atari 上跑赢了"硬刚游戏"的传统派。


Mastering Atari with Discrete World Models — 场景示意:这论文要解决的现实问题
Plate Nº IMastering Atari with Discrete World Models — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • DQN / Rainbow / IQN(model-free 派):直接拿真游戏画面练手,2015 年起就是 Atari 之王。问题是——要打 2 亿帧才到人类水平,相当于一个游戏让 AI 不眠不休练几十天。
  • SimPLe(早期 model-based 派):在像素空间里逐帧预测下一帧画面,再用预测出来的画面练 agent。问题是像素预测太贵,一帧帧画面预测要 GPU 算半天,只能玩 36 个游戏中的部分。
  • MuZero(DeepMind 王炸):能在 Atari 上拿到惊人分数,但算力恐怖——单卡训一个游戏要 80 天,论文还没开源。普通研究组看看就行。
  • DreamerV1(这篇的前作):只能搞定连续控制(机器人手臂之类),到 Atari 这种离散动作 + 复杂画面就崩。
  • 核心难题:要在脑子里建"模拟器",模拟器得够准才能拿来练。Atari 画面突变多(进新房间、敌人消失),用普通的高斯分布建模拟器抓不住这种"跳变"。

所以这一节是想说:之前要么算力贵到爆,要么模拟器不够准,没人能用"脑内模拟"在 Atari 上打赢传统派。


这篇论文的新想法

把脑内模拟器的状态从"连续小数"换成"离散类别变量",第一次让纯潜空间想象在 Atari 上超越传统派。

听起来反直觉——把表达更"精细"的连续数字换成更"粗糙"的类别选项,怎么反而效果好?后面会讲,关键就在 Atari 这种游戏画面就是"跳变型"的。

所以这一节是想说:核心改动是潜状态从高斯分布换成多组 categorical(类别)变量,外加一个叫 KL balancing 的小技巧。


它分几步做的(方法)

把 DreamerV2 当成一个学游戏的小孩,他每天做三件事:白天看几局真游戏录像、晚上躺床上闭眼推演几千遍、第二天再上手玩几把验证。下面四节就是这套作息的拆解:

  1. 世界模型——把看到的画面压成"摘要快照",方便晚上回忆。
  2. KL balancing——晚上闭眼推演的画面要尽量对得上白天看到的,一个二八开的小技巧。
  3. 脑内白日梦——晚上同时跑 2500 条 15 步的推演,挑高分动作。
  4. 真环境闭环——第二天上手玩几把,收集脑子里没见过的局面。

1. 世界模型:用一个 RSSM 把游戏画面压成"压缩快照"

类比

你看一段 30 秒的游戏录像。要让 AI 记住这段录像,又不想存原始视频(占空间),怎么办?

你把每一帧压成一句"游戏当前状态摘要"——比如"敌人在右下、我在中间、还有 3 条命"。这一句话就是这一帧的压缩快照

然后下一帧的摘要 = 上一帧摘要 + 这一帧新看到的东西。一连串摘要就能复原整段游戏。

DreamerV2 的世界模型就这么干,但摘要分两半:

  • 确定性记忆 h:像 GRU(一种简单 RNN)的隐藏状态,记着"前面发生了什么"。
  • 随机潜状态 z:每一步的"瞬间快照",论文用 32 组、每组 32 类的离散变量表示。

RSSM(Recurrent State-Space Model,循环状态空间模型):一个把"画面 + 历史"压缩成紧凑状态、再从状态预测下一步的网络结构。

潜状态(latent state):游戏当前情况的"数字摘要",AI 内部用,外人看不懂。

categorical(类别变量):从有限选项里选一个,比如"红/绿/蓝"。32 组 × 32 类相当于 32 个槽,每个槽从 32 个选项里选一个。

它在干什么

  1. 看到一帧画面 x,CNN 把它压成一串数字。
  2. RSSM 根据"上一步的状态 + 上一步的动作 + 这一帧的数字"算出当前的潜状态 z。
  3. 同时只看历史(不看当前画面)也算出一个预测版的潜状态 ẑ——这个是"prior(先验)",等会儿做白日梦时全靠它。
  4. 拿 z 去重建当前画面、预测当前奖励、预测"游戏是否结束"。
  5. 用一个 KL loss 让 prior 尽量接近 posterior——也就是"光看历史的猜测"接近"真看到画面的状态"。

关键术语

prior vs posterior(先验 vs 后验):prior = "光想就能猜的",posterior = "亲眼看到后修正的"。世界模型希望两者越接近越好,因为做白日梦时只能靠 prior。

KL loss / KL 散度:两个概率分布的差距。让 KL 变小 = 让 prior 越来越像 posterior。

straight-through 梯度:训练时遇到"采样某个类别"这种不可导操作的应急办法。前向用真采样,反向当成连续概率传导数。

为什么这步有用

  • 离散变量天然表达"跳变"——画面从一个房间切换到另一个房间,对应类别选项也直接换一个,没有"连续过渡"的别扭。
  • 32 × 32 离散选项展开是个 1024 维的稀疏二进制向量(只有 32 位是 1),这种稀疏表示对泛化有好处。
  • prior 是类别分布,理论上能精确拟合 posterior 混合分布;高斯分布做不到这点。

所以这一节是想说:世界模型用 RSSM 把游戏压成"摘要 + 离散快照",让脑内模拟器既紧凑又能捕捉跳变。


2. KL balancing:教训 prior 比规训 posterior 更重要

类比

你在补习班学英语。两件事可以做:

  • A:拿老师写的标准答案当样板,逼自己写得像它(让 posterior 像 prior)。
  • B:拿自己写得最好的那篇当样板,逼老师改答案像它(让 prior 像 posterior)。

普通的 KL loss 同时干 A 和 B,各 50%。问题是 prior(老师答案)一开始就乱写,你模仿它越写越烂。

KL balancing 的做法:A 占 20%,B 占 80%——重点训 prior,少规训 posterior

它在干什么

代码里就两行(论文 Algorithm 2):

kl_loss = 0.8 * KL(stop_grad(posterior), prior)    # 训 prior,posterior 不动
        + 0.2 * KL(posterior, stop_grad(prior))    # 训 posterior,prior 不动

stop_grad 是"反向传播时假装这个是常数"的咒语。

为什么这步有用

  • prior 学得准,做白日梦时才不会越想越偏。
  • posterior 不被一个还没学好的 prior 拽偏,能继续抓住图像里的有用信息。
  • 消融实验里,去掉 KL balancing 在 44 个游戏上掉分;clipped record 指标从 0.25 掉到 0.16。

所以这一节是想说:KL balancing 是"二八开"分配 KL loss——让 prior 拼命追 posterior,而不是让 posterior 迁就还没学好的 prior。


3. 在脑内做白日梦:actor-critic 在潜空间里想象 15 步

类比

你下棋时不会真把每一步都摆出来,而是在脑子里推演:"我走这里 → 对方大概会走那里 → 我再走这里…"想个 5-10 步深,挑最有利的那条线。

DreamerV2 也这么干——但不是 5-10 步,是 15 步,而且一次同时推演 2500 条

它在干什么

  1. 从世界模型训练时见过的某个潜状态出发(不需要再看真画面)。
  2. actor 网络根据当前状态选一个动作。
  3. **transition predictor(prior)**根据状态 + 动作算出下一个潜状态。
  4. reward predictor说这一步能拿多少奖励、discount predictor说游戏是否结束。
  5. 重复 15 步,得到一条想象出来的轨迹。
  6. critic 网络估计"从这个状态出发,未来能拿到多少累计奖励"——也就是状态价值。
  7. 用 λ-return(一种把 1-步到 15-步预测加权平均的目标)训 critic。
  8. 用 Reinforce 梯度训 actor——让它倾向于选"被 critic 评分高"的动作。

actor-critic:actor 决定"做什么动作",critic 评判"这个状态多值钱"。两者相互配合:critic 给 actor 反馈,actor 给 critic 提供新数据。

Reinforce 梯度:训练 actor 的经典方法。把"选某个动作的概率"按"这个动作带来多少超额回报"加权调整。无偏但方差大。

λ-return:把"看 1 步""看 2 步"…"看 H 步"的奖励预估按指数权重平均,得到一个稳健的目标值。λ=0.95 表示更看重远期。

target network(目标网络):训 critic 时用的"延迟更新副本",每 100 步同步一次主网络的参数。防止训练时"自己追自己尾巴"震荡。

为什么这步有用

  • 不预测画面(只在潜空间走)→ 一张 V100 卡能并行跑 2500 条想象轨迹。
  • 200M 真环境帧背后是 468B 条潜空间想象——10000 倍的练习量。
  • Atari 上发现 Reinforce > 直通梯度;连续控制(机器人)上反过来。两种梯度都保留,超参 ρ 控制混合比例。

所以这一节是想说:actor-critic 在世界模型的潜空间里同时跑 2500 条想象 × 15 步深,把一帧真数据扩展成上万倍的练习量。


4. 落到真环境:闭环数据收集

类比

你在脑子里推演下棋只是练习,最终还是要上真棋盘走几手——一是验证脑内模拟器对不对,二是收集脑子里没见过的局面。

它在干什么

  1. 把训好的 actor 放进真 Atari 模拟器跑一局。
  2. 把这局的画面、动作、奖励、是否结束存进经验数据集。
  3. 每收集 4 步真环境数据,就用世界模型 + actor-critic 各更新 1 次梯度。
  4. 数据集是 FIFO(先进先出)队列,最多存 200 万帧。
  5. 整个训练在单卡 V100 上跑 10 天,到 200M 真环境步。

为什么这步有用

  • "想象 + 真实"闭环:真环境数据让世界模型见到新局面,不至于在自己想象里越走越偏。
  • actor 在真环境时加 entropy 正则鼓励探索(不要总走同一条路)。
  • 这个闭环结构后来被 DreamerV3、TD-MPC 等一票后续工作沿用。

所以这一节是想说:DreamerV2 不是纯做白日梦——每 4 步真练习配套大量脑内推演,闭环让模型不会越练越偏。


Mastering Atari with Discrete World Models — 方法示意:核心 pipeline
Plate Nº IIMastering Atari with Discrete World Models — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你什么"设计选择"才是关键。

数字 1:Gamer Median 2.15,超过 Rainbow(1.47)和 IQN(1.29)

  • 怎么算的:55 个 Atari 游戏的得分,按"人类专业玩家"得分归一化后取中位数。
  • 对比:DQN 0.65、C51 1.09、Rainbow 1.47、IQN 1.29、DreamerV2 2.15。
  • 生活语言:DreamerV2 在一半游戏上能打到人类玩家的 2 倍以上分数。这是第一次有"纯潜空间世界模型"agent 在这个标准基准上拿到第一。

数字 2:单卡 V100 跑 10 天到 200M 帧

  • 怎么算的:在一张消费级以上的科学计算卡上完整训完一个游戏需要的 wall-clock 时间。
  • 对比:MuZero 单卡需 80 天、SimPLe 用了 40 卡天。
  • 生活语言:普通研究组(一张 GPU + 10 天)就能复现,这是它能流行的关键。MuZero 虽强但只有 DeepMind 玩得起。

数字 3:去掉离散 latent → clipped record 从 0.25 掉到 0.19

  • 怎么算的:消融实验——把 32×32 离散变量换回 DreamerV1 的高斯连续变量。
  • 对比:离散在 42 个游戏上赢、8 个游戏上输、5 个平手。
  • 生活语言:换离散是这篇 V2 区别于 V1 最重要的改动,能解释相当一部分性能提升。

数字 4:去掉 KL balancing → 0.25 掉到 0.16

  • 怎么算的:消融——KL loss 不再做二八分,改回普通 50/50。
  • 对比:在 44 个游戏上输、6 个游戏上赢、5 平。
  • 生活语言:第二大功臣。和离散 latent 加在一起几乎决定了 V2 的胜负。

数字 5:去掉 image gradient → 0.25 直接崩到 0.01

  • 怎么算的:消融——不让"重建画面"的损失反传到表征。
  • 对比:51 个游戏崩、3 个游戏涨、1 平。
  • 生活语言:世界模型完全靠"画面重建"这个监督信号才学到有用表征。MuZero 不重建画面也行(因为靠 value gradient),但 DreamerV2 没有 image 就是瞎子。

数字 6:468B 想象状态 vs 50M 真观察

  • 怎么算的:训练全程在世界模型里采样的潜状态总数除以真环境步数。
  • 生活语言:一帧真画面背后做了一万倍量的脑内推演。这就是为什么"算力换性能"在 model-based 这条路上比 model-free 更划算。

所以这一节是想说:决定胜负的是离散潜状态 + KL balancing + 图像重建监督;少了任意一个都崩。


你应该懂的几个新词

World Model(世界模型):agent 脑子里建的一个"环境模拟器",给它当前状态和动作就能预测下一步。

Model-based RL(基于模型的强化学习):先学世界模型再用它练策略;和 model-free(直接用真数据练策略)对立。

Latent dynamics model(潜动力学模型):在压缩后的状态空间(不是像素空间)里做动力学预测。比逐帧预测画面快几个数量级。

RSSM(Recurrent State-Space Model):DreamerV2 用的世界模型架构。状态分确定性 GRU 隐藏态 + 随机潜变量两半。

Categorical latent(类别潜变量):DreamerV2 的招牌——32 组、每组 32 类的离散变量。比高斯连续变量更适合 Atari 这种跳变多的场景。

KL balancing(KL 平衡):把 KL loss 的两个方向按 0.8 / 0.2 拆开训,重点提升 prior 的预测能力。

Imagination horizon(想象长度):一次脑内推演走多少步。DreamerV2 用 H=15。

λ-return(λ 回报):把 1 步到 H 步的回报按指数权重加权平均的稳健目标值。λ=0.95 偏长期。

Reinforce gradient(策略梯度):训 actor 的经典方法。无偏、方差大。Atari 上比直通梯度好用。

Straight-through gradient(直通梯度):让"采样离散变量"这种不可导操作能被反向传播跑过去的应急技巧。前向是真采样,反向当成软概率。

Sticky actions(粘性动作):Atari 评测的一个变体——25% 概率重复上一步动作。让游戏不那么确定,更接近真实分布。这篇用的就是 sticky 设定。

Discount factor γ(折扣因子):未来奖励的衰减率,γ=0.999 = 几乎不衰减、看远期;γ=0.99 = 看近期。Atari 默认 0.999,Montezuma 这种稀疏奖励用 0.99。

所以这一节是想说:上面这 12 个词是看任何 model-based RL 论文都会反复出现的核心词汇。


它有什么搞不定的

DreamerV2 强归强,论文也老实交代了几个翻车场景:

  • Video Pinball:唯一明显输给 model-free 的游戏。原因猜测是关键物体(球)在画面上只占 1 像素,画面重建损失根本"看不见它",导致世界模型抓不到核心动力学。
  • 稀疏奖励游戏:Montezuma's Revenge 这种"几分钟才有一次奖励"的游戏,要把 γ 从 0.999 降到 0.99 才稳定,且只能勉强追平专门做探索的 ICM 方法。
  • 跨任务迁移:每个游戏单独训一个 agent,世界模型不会在游戏之间复用。要做 multi-task 是后续 DreamerV3 / DayDreamer 的事。
  • MCTS 这条路:MuZero 的蒙特卡洛树搜索能进一步推高分数,DreamerV2 没用——作者说这是正交的方向,未来可以叠加。

所以这一节是想说:DreamerV2 是"基线打通"的概念证明,迁移、稀疏奖励、规划深度这些方向都是后续工作要补的坑。


它和别的论文是什么关系

  • 前传:DreamerV1(Hafner et al. 2019) — 同一作者的连续控制版,潜状态用高斯。V2 = V1 + 离散 latent + KL balancing + 一些训练细节。
  • 同期对手:MuZero、SimPLe — Table 3 的对比清楚:MuZero 强但贵且闭源,SimPLe 在像素空间预测不可扩展,DreamerV2 找到了"潜空间 + 离散"的甜点。
  • 续作:DreamerV3(2023) — 同一组人做的"通用版"——同一套超参跨 150+ 任务,引入 symlog 变换、free bits 等小改动。是目前 model-based RL 的事实标准。
  • 横向关系:和 LLaVA / OpenVLA 对照 — LLaVA 这些 VLM 本质是"理解 + 生成",没有"在脑子里推演 + 拿奖励"的闭环。DreamerV2 这条路通往具身 AI:把世界模型 + actor-critic 套到机器人控制上,就是 DayDreamer、TD-MPC、Cosmos Policy 等后续工作。
  • 和 SayCan / VLAs 对照 — SayCan 用 LLM 做"高层规划",但底层动作还得有"世界模型 + 控制器"。DreamerV2 提供的就是这种底层基础设施。
  • 认知科学映射 — 这条路其实是 Sutton 1991 年 Dyna 框架的当代版本:人脑就是一个一直在做"反事实想象"的 agent,DreamerV2 把这个想法在深度学习时代实现出来了。

所以这一节是想说:DreamerV2 是 model-based RL 这条线的里程碑——上承 PlaNet/Dreamer,下启 DreamerV3 和具身世界模型这一票后续工作。


我建议这样读这篇

零基础读者不要从头读到尾。建议这样走:

  1. 看 Figure 1(1 分钟):记住一个事实——DreamerV2 在 Atari 上第一次让 model-based 派打败 model-free 派。
  2. 看 Figure 2 世界模型图(5 分钟):理解 RSSM 的两条线——确定性 GRU + 离散随机变量、posterior 看图像、prior 不看图像。
  3. 看 Figure 3 actor-critic 图(3 分钟):理解"想象一段轨迹 → critic 评分 → actor 更新"这个循环。
  4. 跳到 Section 2.1 末尾"KL balancing"(5 分钟):搞懂那两行 stop_grad 在干嘛,这是这篇画龙点睛的一笔。
  5. 扫 Table 2 消融实验(3 分钟):知道哪些设计是命根子(离散 latent、KL balancing、image gradient)。
  6. 跳过 Equation 6 的 Reinforce 推导细节(除非你想自己实现):知道"actor 调整选动作的概率,让高分动作更常被选"就够了。
  7. 看 Appendix C 改动总结(5 分钟):作者诚实列出"试了什么 work、什么没 work",对你以后调参很有用。

读完这 7 步大约 30-45 分钟,已经能在和别人讨论 model-based RL 时报出 DreamerV2 的核心思路。

所以这一节是想说:精华全在 Figure 2 + KL balancing + 消融表三处,公式细节可以略读。


一些好奇心问答

Q1:为什么离散变量比连续高斯好?

论文给了 4 个猜想:(a) 类别混合还是类别,先验能精确拟合;高斯混合不是高斯,先验追不上。(b) 32 槽 × 32 类展开是 1024 位稀疏二进制向量,对泛化有好处。(c) 直通梯度避免高斯重参数化时的"梯度爆炸/消失"。(d) Atari 画面跳变多(进新房间、敌人消失),离散更适合表达"突变"。作者也承认不知道哪个是真因

Q2:32 × 32 这两个数怎么来的?

论文没做过广泛的网格搜索。32 组 × 32 类是经验值——展开 1024 维和 V1 用的高斯潜变量维度差不多,方便对比。

Q3:H=15 想象长度够不够?λ=0.95 怎么定的?

跟 V1 一致。H 太长,想象误差累积;太短,看不到长期奖励。λ-return 把不同长度的预测加权平均,让长度选择不那么敏感。

Q4:Reinforce 还是直通梯度?

Atari 上 ρ=1(纯 Reinforce),连续控制上 ρ=0(纯直通)。**为什么 Atari 偏 Reinforce?**论文没给完全解释,猜测是离散动作 + 稀疏奖励让直通的 bias 影响更大。

Q5:单卡 V100 10 天 × 55 个游戏 = 550 卡天,要这么多算力?

是的。但消融做不全也是因为这——做一组完整消融要 60000 卡天,太贵。所以 Table 2 里只挑了 6 项最重要的消融。

Q6:能不能把 DreamerV2 用到机器人?

可以。论文 Appendix A 已经在 Humanoid Walk(21 维连续动作的人形机器人)上跑通了——只需要把 actor 输出从 categorical 改成 truncated normal 即可。后来 DayDreamer 把它直接放到真实物理机器人上,1 小时学会站立。

Q7:和 MuZero 谁强?

各有所长。MuZero 用 MCTS 在棋类和确定性 Atari 上打分更高,但贵且不开源。DreamerV2 算力 1/8、单卡可跑、开源,作者说 MCTS 是正交方向,可以叠加在世界模型之上。

Q8:Sticky actions 是什么?为什么要用?

每步有 25% 概率忽略你给的动作、改重复上一步。这让 Atari 不再是确定性环境,更接近真实场景的分布。Machado et al. 2018 推荐这个评测协议——之前很多 paper 在确定性 Atari 上分数虚高,sticky 是更公平的赛道。

所以这一节是想说:实操问题(设计选择、算力、迁移、和谁打)作者都给了答案或开诚布公说"不知道"。


如果你想再深入

按"前传 → 同期对手 → 续作 → 衍生方向"四类排序:

  1. 前传:PlaNet(Hafner 2018)+ DreamerV1(Hafner 2019) — 同一系列。PlaNet 提出 RSSM 结构;V1 把它扩展到 actor-critic 拿到连续控制 SOTA。读完再看 V2 能很清楚看到"潜状态从高斯到离散"这一步的演化。
  2. 同期对手:MuZero(Schrittwieser 2019)+ SimPLe(Kaiser 2019) — Table 3 的全部三家。读这两篇能搞清楚"靠 value gradient 学模型"和"在像素空间预测下一帧"两条路为什么都走不远。
  3. 续作:DreamerV3(Hafner 2023) — 同一组的"通用版",同一套超参跨 150+ 任务,引入 symlog reward 变换、free bits 等改动。真要用 Dreamer,请直接读 V3
  4. 续作:DayDreamer(Wu et al. 2022) — 把 DreamerV2 直接拉到真实机器人上,1 小时学会四足走路。证明"潜空间想象"在物理世界也成立。
  5. 衍生方向:TD-MPC / DayDreamer / Cosmos Policy — 把"世界模型 + 短期规划"的思路拓展到机器人控制。可以理解为 DreamerV2 在具身 AI 时代的孩子们。

所以这一节是想说:把 PlaNet → DreamerV1 → DreamerV2 → DreamerV3 这条线连起来读,就是过去 5 年潜空间世界模型的全貌。


最后一个画面

想象你在玩一款 Atari 老游戏。每次你眨眼的瞬间——大约 0.3 秒——你脑子里其实模拟了一遍"我下一步该往哪走"。这件事人类天生会做,AI 直到 2021 年才在 55 个 Atari 游戏上学会。

DreamerV2 没用什么花哨技术——就是把高斯换成了离散类别,把 KL loss 拆成了二八分。但这两个简单改动,让"在脑子里推演"这条沉寂多年的路第一次跑赢"硬刚游戏"的传统派。

所以最后一节是想说:DreamerV2 不是单点突破——它是人类朝着"会做白日梦的 AI"这条路上一个里程碑式的胜利。

引用本笔记 / Cite this note
BibTeX
@online{eai_dreamer_v2_2026,
  title       = {(readable note) Mastering Atari with Discrete World Models},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2021 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/dreamer-v2/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim