World Model & Video Policy · Plate Nº 147

Mastering Atari with Discrete World Models

17 min read · 6048 字 · ⭐⭐⭐⭐ · auto 摘要

#mamba-ssm #vision #RL #imitation #world-model

Featured in Issue Nº VI

这是一份给"完全没接触过强化学习"的读者看的精读笔记。语言尽量像聊天，公式全部翻译成人话。

一句话讲什么（TL;DR）

让 AI 闭眼"做白日梦"练打老游戏，第一次只靠脑子里想象就打到人类水平。

所以这一节是想说：DreamerV2 让 agent 不用真打游戏，靠"脑内模拟"就学会了 Atari。

这是个什么场景

你出门前在脑子里"过一遍"路线：先到地铁口，换乘 2 号线，出站找右手边那个咖啡店。这个"过一遍"就是脑内模拟——你没真走，但已经把可能撞到的坑预演了一遍。等真出门时，速度比第一次去快多了。

学打游戏其实也分这两种人：

方案 A（model-free，硬刚派）：插上手柄死磕，输了重来、赢了记套路。慢，但直接。
方案 B（model-based，建模派）：先在脑子里搭一个"游戏模拟器"——它能预测"我按这个键、画面下一秒大概变成啥"。然后大部分练习都在脑子里推演，偶尔上真机验证。

下盲棋的高手就是 B：他闭眼也能下，因为脑子里那张棋盘比眼前的还清楚。

强化学习圈里有个叫 Atari 的"全国统考"——55 款 1980 年代街机游戏（打砖块、太空入侵者、吃豆人之类），每款规则都不一样，用来比哪家 AI 更通用。诡异的是：这场考试里，所有"脑内建模派"都干不过"硬刚派"——脑子里搭的模拟器要么不准、要么算到游戏结束都还没建好。

DreamerV2 是第一个在 Atari 上把"脑内模拟"这条路走通的 AI。

强化学习（Reinforcement Learning, RL）：让 AI 通过"试错 + 拿奖励"自己学会一件事的训练方法。比如让它打游戏，赢了加分、输了扣分，慢慢学会怎么打分高。

Atari 基准：1980 年代街机游戏组成的标准测试集。AI 圈用它比较算法的通用性——同一套代码能不能把 55 个完全不同的游戏都打好。

所以这一节是想说：DreamerV2 走的是"先建脑内模拟器再练习"的路子，第一次在 Atari 上跑赢了"硬刚游戏"的传统派。

Plate Nº IMastering Atari with Discrete World Models — 场景示意：这论文要解决的现实问题

之前的人怎么做的，为什么不够好

DQN / Rainbow / IQN（model-free 派）：直接拿真游戏画面练手，2015 年起就是 Atari 之王。问题是贵——要打 2 亿帧才到人类水平，相当于一个游戏让 AI 不眠不休练几十天。
SimPLe（早期 model-based 派）：在像素空间里逐帧预测下一帧画面，再用预测出来的画面练 agent。问题是像素预测太贵，一帧帧画面预测要 GPU 算半天，只能玩 36 个游戏中的部分。
MuZero（DeepMind 王炸）：能在 Atari 上拿到惊人分数，但算力恐怖——单卡训一个游戏要 80 天，论文还没开源。普通研究组看看就行。
DreamerV1（这篇的前作）：只能搞定连续控制（机器人手臂之类），到 Atari 这种离散动作 + 复杂画面就崩。
核心难题：要在脑子里建"模拟器"，模拟器得够准才能拿来练。Atari 画面突变多（进新房间、敌人消失），用普通的高斯分布建模拟器抓不住这种"跳变"。

所以这一节是想说：之前要么算力贵到爆，要么模拟器不够准，没人能用"脑内模拟"在 Atari 上打赢传统派。

这篇论文的新想法

把脑内模拟器的状态从"连续小数"换成"离散类别变量"，第一次让纯潜空间想象在 Atari 上超越传统派。

听起来反直觉——把表达更"精细"的连续数字换成更"粗糙"的类别选项，怎么反而效果好？后面会讲，关键就在 Atari 这种游戏画面就是"跳变型"的。

所以这一节是想说：核心改动是潜状态从高斯分布换成多组 categorical（类别）变量，外加一个叫 KL balancing 的小技巧。

它分几步做的（方法）

把 DreamerV2 当成一个学游戏的小孩，他每天做三件事：白天看几局真游戏录像、晚上躺床上闭眼推演几千遍、第二天再上手玩几把验证。下面四节就是这套作息的拆解：

世界模型——把看到的画面压成"摘要快照"，方便晚上回忆。
KL balancing——晚上闭眼推演的画面要尽量对得上白天看到的，一个二八开的小技巧。
脑内白日梦——晚上同时跑 2500 条 15 步的推演，挑高分动作。
真环境闭环——第二天上手玩几把，收集脑子里没见过的局面。

1. 世界模型：用一个 RSSM 把游戏画面压成"压缩快照"

类比

你看一段 30 秒的游戏录像。要让 AI 记住这段录像，又不想存原始视频（占空间），怎么办？

你把每一帧压成一句"游戏当前状态摘要"——比如"敌人在右下、我在中间、还有 3 条命"。这一句话就是这一帧的压缩快照。

然后下一帧的摘要 = 上一帧摘要 + 这一帧新看到的东西。一连串摘要就能复原整段游戏。

DreamerV2 的世界模型就这么干，但摘要分两半：

确定性记忆 h：像 GRU（一种简单 RNN）的隐藏状态，记着"前面发生了什么"。
随机潜状态 z：每一步的"瞬间快照"，论文用 32 组、每组 32 类的离散变量表示。

RSSM（Recurrent State-Space Model，循环状态空间模型）：一个把"画面 + 历史"压缩成紧凑状态、再从状态预测下一步的网络结构。

潜状态（latent state）：游戏当前情况的"数字摘要"，AI 内部用，外人看不懂。

categorical（类别变量）：从有限选项里选一个，比如"红/绿/蓝"。32 组 × 32 类相当于 32 个槽，每个槽从 32 个选项里选一个。

它在干什么

看到一帧画面 x，CNN 把它压成一串数字。
RSSM 根据"上一步的状态 + 上一步的动作 + 这一帧的数字"算出当前的潜状态 z。
同时只看历史（不看当前画面）也算出一个预测版的潜状态 ẑ——这个是"prior（先验）"，等会儿做白日梦时全靠它。
拿 z 去重建当前画面、预测当前奖励、预测"游戏是否结束"。
用一个 KL loss 让 prior 尽量接近 posterior——也就是"光看历史的猜测"接近"真看到画面的状态"。

关键术语

prior vs posterior（先验 vs 后验）：prior = "光想就能猜的"，posterior = "亲眼看到后修正的"。世界模型希望两者越接近越好，因为做白日梦时只能靠 prior。

KL loss / KL 散度：两个概率分布的差距。让 KL 变小 = 让 prior 越来越像 posterior。

straight-through 梯度：训练时遇到"采样某个类别"这种不可导操作的应急办法。前向用真采样，反向当成连续概率传导数。

为什么这步有用

离散变量天然表达"跳变"——画面从一个房间切换到另一个房间，对应类别选项也直接换一个，没有"连续过渡"的别扭。
32 × 32 离散选项展开是个 1024 维的稀疏二进制向量（只有 32 位是 1），这种稀疏表示对泛化有好处。
prior 是类别分布，理论上能精确拟合 posterior 混合分布；高斯分布做不到这点。

所以这一节是想说：世界模型用 RSSM 把游戏压成"摘要 + 离散快照"，让脑内模拟器既紧凑又能捕捉跳变。

2. KL balancing：教训 prior 比规训 posterior 更重要

类比

你在补习班学英语。两件事可以做：

A：拿老师写的标准答案当样板，逼自己写得像它（让 posterior 像 prior）。
B：拿自己写得最好的那篇当样板，逼老师改答案像它（让 prior 像 posterior）。

普通的 KL loss 同时干 A 和 B，各 50%。问题是 prior（老师答案）一开始就乱写，你模仿它越写越烂。

KL balancing 的做法：A 占 20%，B 占 80%——重点训 prior，少规训 posterior。

它在干什么

代码里就两行（论文 Algorithm 2）：

kl_loss = 0.8 * KL(stop_grad(posterior), prior)    # 训 prior，posterior 不动
        + 0.2 * KL(posterior, stop_grad(prior))    # 训 posterior，prior 不动

stop_grad 是"反向传播时假装这个是常数"的咒语。

为什么这步有用

prior 学得准，做白日梦时才不会越想越偏。
posterior 不被一个还没学好的 prior 拽偏，能继续抓住图像里的有用信息。
消融实验里，去掉 KL balancing 在 44 个游戏上掉分；clipped record 指标从 0.25 掉到 0.16。

所以这一节是想说：KL balancing 是"二八开"分配 KL loss——让 prior 拼命追 posterior，而不是让 posterior 迁就还没学好的 prior。

3. 在脑内做白日梦：actor-critic 在潜空间里想象 15 步

类比

你下棋时不会真把每一步都摆出来，而是在脑子里推演："我走这里 → 对方大概会走那里 → 我再走这里…"想个 5-10 步深，挑最有利的那条线。

DreamerV2 也这么干——但不是 5-10 步，是 15 步，而且一次同时推演 2500 条。

它在干什么

从世界模型训练时见过的某个潜状态出发（不需要再看真画面）。
actor 网络根据当前状态选一个动作。
**transition predictor（prior）**根据状态 + 动作算出下一个潜状态。
reward predictor说这一步能拿多少奖励、discount predictor说游戏是否结束。
重复 15 步，得到一条想象出来的轨迹。
critic 网络估计"从这个状态出发，未来能拿到多少累计奖励"——也就是状态价值。
用 λ-return（一种把 1-步到 15-步预测加权平均的目标）训 critic。
用 Reinforce 梯度训 actor——让它倾向于选"被 critic 评分高"的动作。

actor-critic：actor 决定"做什么动作"，critic 评判"这个状态多值钱"。两者相互配合：critic 给 actor 反馈，actor 给 critic 提供新数据。

Reinforce 梯度：训练 actor 的经典方法。把"选某个动作的概率"按"这个动作带来多少超额回报"加权调整。无偏但方差大。

λ-return：把"看 1 步""看 2 步"…"看 H 步"的奖励预估按指数权重平均，得到一个稳健的目标值。λ=0.95 表示更看重远期。

target network（目标网络）：训 critic 时用的"延迟更新副本"，每 100 步同步一次主网络的参数。防止训练时"自己追自己尾巴"震荡。

为什么这步有用

不预测画面（只在潜空间走）→ 一张 V100 卡能并行跑 2500 条想象轨迹。
200M 真环境帧背后是 468B 条潜空间想象——10000 倍的练习量。
Atari 上发现 Reinforce > 直通梯度；连续控制（机器人）上反过来。两种梯度都保留，超参 ρ 控制混合比例。

所以这一节是想说：actor-critic 在世界模型的潜空间里同时跑 2500 条想象 × 15 步深，把一帧真数据扩展成上万倍的练习量。

4. 落到真环境：闭环数据收集

类比

你在脑子里推演下棋只是练习，最终还是要上真棋盘走几手——一是验证脑内模拟器对不对，二是收集脑子里没见过的局面。

它在干什么

把训好的 actor 放进真 Atari 模拟器跑一局。
把这局的画面、动作、奖励、是否结束存进经验数据集。
每收集 4 步真环境数据，就用世界模型 + actor-critic 各更新 1 次梯度。
数据集是 FIFO（先进先出）队列，最多存 200 万帧。
整个训练在单卡 V100 上跑 10 天，到 200M 真环境步。

为什么这步有用

"想象 + 真实"闭环：真环境数据让世界模型见到新局面，不至于在自己想象里越走越偏。
actor 在真环境时加 entropy 正则鼓励探索（不要总走同一条路）。
这个闭环结构后来被 DreamerV3、TD-MPC 等一票后续工作沿用。

所以这一节是想说：DreamerV2 不是纯做白日梦——每 4 步真练习配套大量脑内推演，闭环让模型不会越练越偏。

Plate Nº IIMastering Atari with Discrete World Models — 方法示意：核心 pipeline

关键数字（What works）

数字本身不重要，重要的是它们告诉你什么"设计选择"才是关键。

数字 1：Gamer Median 2.15，超过 Rainbow（1.47）和 IQN（1.29）

怎么算的：55 个 Atari 游戏的得分，按"人类专业玩家"得分归一化后取中位数。
对比：DQN 0.65、C51 1.09、Rainbow 1.47、IQN 1.29、DreamerV2 2.15。
生活语言：DreamerV2 在一半游戏上能打到人类玩家的 2 倍以上分数。这是第一次有"纯潜空间世界模型"agent 在这个标准基准上拿到第一。

数字 2：单卡 V100 跑 10 天到 200M 帧

怎么算的：在一张消费级以上的科学计算卡上完整训完一个游戏需要的 wall-clock 时间。
对比：MuZero 单卡需 80 天、SimPLe 用了 40 卡天。
生活语言：普通研究组（一张 GPU + 10 天）就能复现，这是它能流行的关键。MuZero 虽强但只有 DeepMind 玩得起。

数字 3：去掉离散 latent → clipped record 从 0.25 掉到 0.19

怎么算的：消融实验——把 32×32 离散变量换回 DreamerV1 的高斯连续变量。
对比：离散在 42 个游戏上赢、8 个游戏上输、5 个平手。
生活语言：换离散是这篇 V2 区别于 V1 最重要的改动，能解释相当一部分性能提升。

数字 4：去掉 KL balancing → 0.25 掉到 0.16

怎么算的：消融——KL loss 不再做二八分，改回普通 50/50。
对比：在 44 个游戏上输、6 个游戏上赢、5 平。
生活语言：第二大功臣。和离散 latent 加在一起几乎决定了 V2 的胜负。

数字 5：去掉 image gradient → 0.25 直接崩到 0.01

怎么算的：消融——不让"重建画面"的损失反传到表征。
对比：51 个游戏崩、3 个游戏涨、1 平。
生活语言：世界模型完全靠"画面重建"这个监督信号才学到有用表征。MuZero 不重建画面也行（因为靠 value gradient），但 DreamerV2 没有 image 就是瞎子。

数字 6：468B 想象状态 vs 50M 真观察

怎么算的：训练全程在世界模型里采样的潜状态总数除以真环境步数。
生活语言：一帧真画面背后做了一万倍量的脑内推演。这就是为什么"算力换性能"在 model-based 这条路上比 model-free 更划算。

所以这一节是想说：决定胜负的是离散潜状态 + KL balancing + 图像重建监督；少了任意一个都崩。

你应该懂的几个新词

World Model（世界模型）：agent 脑子里建的一个"环境模拟器"，给它当前状态和动作就能预测下一步。

Model-based RL（基于模型的强化学习）：先学世界模型再用它练策略；和 model-free（直接用真数据练策略）对立。

Latent dynamics model（潜动力学模型）：在压缩后的状态空间（不是像素空间）里做动力学预测。比逐帧预测画面快几个数量级。

RSSM（Recurrent State-Space Model）：DreamerV2 用的世界模型架构。状态分确定性 GRU 隐藏态 + 随机潜变量两半。

Categorical latent（类别潜变量）：DreamerV2 的招牌——32 组、每组 32 类的离散变量。比高斯连续变量更适合 Atari 这种跳变多的场景。

KL balancing（KL 平衡）：把 KL loss 的两个方向按 0.8 / 0.2 拆开训，重点提升 prior 的预测能力。

Imagination horizon（想象长度）：一次脑内推演走多少步。DreamerV2 用 H=15。

λ-return（λ 回报）：把 1 步到 H 步的回报按指数权重加权平均的稳健目标值。λ=0.95 偏长期。

Reinforce gradient（策略梯度）：训 actor 的经典方法。无偏、方差大。Atari 上比直通梯度好用。

Straight-through gradient（直通梯度）：让"采样离散变量"这种不可导操作能被反向传播跑过去的应急技巧。前向是真采样，反向当成软概率。

Sticky actions（粘性动作）：Atari 评测的一个变体——25% 概率重复上一步动作。让游戏不那么确定，更接近真实分布。这篇用的就是 sticky 设定。

Discount factor γ（折扣因子）：未来奖励的衰减率，γ=0.999 = 几乎不衰减、看远期；γ=0.99 = 看近期。Atari 默认 0.999，Montezuma 这种稀疏奖励用 0.99。

所以这一节是想说：上面这 12 个词是看任何 model-based RL 论文都会反复出现的核心词汇。

它有什么搞不定的

DreamerV2 强归强，论文也老实交代了几个翻车场景：

Video Pinball：唯一明显输给 model-free 的游戏。原因猜测是关键物体（球）在画面上只占 1 像素，画面重建损失根本"看不见它"，导致世界模型抓不到核心动力学。
稀疏奖励游戏：Montezuma's Revenge 这种"几分钟才有一次奖励"的游戏，要把 γ 从 0.999 降到 0.99 才稳定，且只能勉强追平专门做探索的 ICM 方法。
跨任务迁移：每个游戏单独训一个 agent，世界模型不会在游戏之间复用。要做 multi-task 是后续 DreamerV3 / DayDreamer 的事。
MCTS 这条路：MuZero 的蒙特卡洛树搜索能进一步推高分数，DreamerV2 没用——作者说这是正交的方向，未来可以叠加。

所以这一节是想说：DreamerV2 是"基线打通"的概念证明，迁移、稀疏奖励、规划深度这些方向都是后续工作要补的坑。

它和别的论文是什么关系

前传：DreamerV1（Hafner et al. 2019） — 同一作者的连续控制版，潜状态用高斯。V2 = V1 + 离散 latent + KL balancing + 一些训练细节。
同期对手：MuZero、SimPLe — Table 3 的对比清楚：MuZero 强但贵且闭源，SimPLe 在像素空间预测不可扩展，DreamerV2 找到了"潜空间 + 离散"的甜点。
续作：DreamerV3（2023） — 同一组人做的"通用版"——同一套超参跨 150+ 任务，引入 symlog 变换、free bits 等小改动。是目前 model-based RL 的事实标准。
横向关系：和 LLaVA / OpenVLA 对照 — LLaVA 这些 VLM 本质是"理解 + 生成"，没有"在脑子里推演 + 拿奖励"的闭环。DreamerV2 这条路通往具身 AI：把世界模型 + actor-critic 套到机器人控制上，就是 DayDreamer、TD-MPC、Cosmos Policy 等后续工作。
和 SayCan / VLAs 对照 — SayCan 用 LLM 做"高层规划"，但底层动作还得有"世界模型 + 控制器"。DreamerV2 提供的就是这种底层基础设施。
认知科学映射 — 这条路其实是 Sutton 1991 年 Dyna 框架的当代版本：人脑就是一个一直在做"反事实想象"的 agent，DreamerV2 把这个想法在深度学习时代实现出来了。

所以这一节是想说：DreamerV2 是 model-based RL 这条线的里程碑——上承 PlaNet/Dreamer，下启 DreamerV3 和具身世界模型这一票后续工作。

我建议这样读这篇

零基础读者不要从头读到尾。建议这样走：

看 Figure 1（1 分钟）：记住一个事实——DreamerV2 在 Atari 上第一次让 model-based 派打败 model-free 派。
看 Figure 2 世界模型图（5 分钟）：理解 RSSM 的两条线——确定性 GRU + 离散随机变量、posterior 看图像、prior 不看图像。
看 Figure 3 actor-critic 图（3 分钟）：理解"想象一段轨迹 → critic 评分 → actor 更新"这个循环。
跳到 Section 2.1 末尾"KL balancing"（5 分钟）：搞懂那两行 stop_grad 在干嘛，这是这篇画龙点睛的一笔。
扫 Table 2 消融实验（3 分钟）：知道哪些设计是命根子（离散 latent、KL balancing、image gradient）。
跳过 Equation 6 的 Reinforce 推导细节（除非你想自己实现）：知道"actor 调整选动作的概率，让高分动作更常被选"就够了。
看 Appendix C 改动总结（5 分钟）：作者诚实列出"试了什么 work、什么没 work"，对你以后调参很有用。

读完这 7 步大约 30-45 分钟，已经能在和别人讨论 model-based RL 时报出 DreamerV2 的核心思路。

所以这一节是想说：精华全在 Figure 2 + KL balancing + 消融表三处，公式细节可以略读。

一些好奇心问答

Q1：为什么离散变量比连续高斯好？

论文给了 4 个猜想：(a) 类别混合还是类别，先验能精确拟合；高斯混合不是高斯，先验追不上。(b) 32 槽 × 32 类展开是 1024 位稀疏二进制向量，对泛化有好处。(c) 直通梯度避免高斯重参数化时的"梯度爆炸/消失"。(d) Atari 画面跳变多（进新房间、敌人消失），离散更适合表达"突变"。作者也承认不知道哪个是真因。

Q2：32 × 32 这两个数怎么来的？

论文没做过广泛的网格搜索。32 组 × 32 类是经验值——展开 1024 维和 V1 用的高斯潜变量维度差不多，方便对比。

Q3：H=15 想象长度够不够？λ=0.95 怎么定的？

跟 V1 一致。H 太长，想象误差累积；太短，看不到长期奖励。λ-return 把不同长度的预测加权平均，让长度选择不那么敏感。

Q4：Reinforce 还是直通梯度？

Atari 上 ρ=1（纯 Reinforce），连续控制上 ρ=0（纯直通）。**为什么 Atari 偏 Reinforce？**论文没给完全解释，猜测是离散动作 + 稀疏奖励让直通的 bias 影响更大。

Q5：单卡 V100 10 天 × 55 个游戏 = 550 卡天，要这么多算力？

是的。但消融做不全也是因为这——做一组完整消融要 60000 卡天，太贵。所以 Table 2 里只挑了 6 项最重要的消融。

Q6：能不能把 DreamerV2 用到机器人？

可以。论文 Appendix A 已经在 Humanoid Walk（21 维连续动作的人形机器人）上跑通了——只需要把 actor 输出从 categorical 改成 truncated normal 即可。后来 DayDreamer 把它直接放到真实物理机器人上，1 小时学会站立。

Q7：和 MuZero 谁强？

各有所长。MuZero 用 MCTS 在棋类和确定性 Atari 上打分更高，但贵且不开源。DreamerV2 算力 1/8、单卡可跑、开源，作者说 MCTS 是正交方向，可以叠加在世界模型之上。

Q8：Sticky actions 是什么？为什么要用？

每步有 25% 概率忽略你给的动作、改重复上一步。这让 Atari 不再是确定性环境，更接近真实场景的分布。Machado et al. 2018 推荐这个评测协议——之前很多 paper 在确定性 Atari 上分数虚高，sticky 是更公平的赛道。

所以这一节是想说：实操问题（设计选择、算力、迁移、和谁打）作者都给了答案或开诚布公说"不知道"。

如果你想再深入

按"前传 → 同期对手 → 续作 → 衍生方向"四类排序：

前传：PlaNet（Hafner 2018）+ DreamerV1（Hafner 2019） — 同一系列。PlaNet 提出 RSSM 结构；V1 把它扩展到 actor-critic 拿到连续控制 SOTA。读完再看 V2 能很清楚看到"潜状态从高斯到离散"这一步的演化。
同期对手：MuZero（Schrittwieser 2019）+ SimPLe（Kaiser 2019） — Table 3 的全部三家。读这两篇能搞清楚"靠 value gradient 学模型"和"在像素空间预测下一帧"两条路为什么都走不远。
续作：DreamerV3（Hafner 2023） — 同一组的"通用版"，同一套超参跨 150+ 任务，引入 symlog reward 变换、free bits 等改动。真要用 Dreamer，请直接读 V3。
续作：DayDreamer（Wu et al. 2022） — 把 DreamerV2 直接拉到真实机器人上，1 小时学会四足走路。证明"潜空间想象"在物理世界也成立。
衍生方向：TD-MPC / DayDreamer / Cosmos Policy — 把"世界模型 + 短期规划"的思路拓展到机器人控制。可以理解为 DreamerV2 在具身 AI 时代的孩子们。

所以这一节是想说：把 PlaNet → DreamerV1 → DreamerV2 → DreamerV3 这条线连起来读，就是过去 5 年潜空间世界模型的全貌。

最后一个画面

想象你在玩一款 Atari 老游戏。每次你眨眼的瞬间——大约 0.3 秒——你脑子里其实模拟了一遍"我下一步该往哪走"。这件事人类天生会做，AI 直到 2021 年才在 55 个 Atari 游戏上学会。

DreamerV2 没用什么花哨技术——就是把高斯换成了离散类别，把 KL loss 拆成了二八分。但这两个简单改动，让"在脑子里推演"这条沉寂多年的路第一次跑赢"硬刚游戏"的传统派。

所以最后一节是想说：DreamerV2 不是单点突破——它是人类朝着"会做白日梦的 AI"这条路上一个里程碑式的胜利。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_dreamer_v2_2026,
  title       = {(readable note) Mastering Atari with Discrete World Models},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2021 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/dreamer-v2/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)