Mastering Atari with Discrete World Models
这是一份给"完全没接触过强化学习"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。
一句话讲什么(TL;DR)
让 AI 闭眼"做白日梦"练打老游戏,第一次只靠脑子里想象就打到人类水平。
所以这一节是想说:DreamerV2 让 agent 不用真打游戏,靠"脑内模拟"就学会了 Atari。
这是个什么场景
你出门前在脑子里"过一遍"路线:先到地铁口,换乘 2 号线,出站找右手边那个咖啡店。这个"过一遍"就是脑内模拟——你没真走,但已经把可能撞到的坑预演了一遍。等真出门时,速度比第一次去快多了。
学打游戏其实也分这两种人:
- 方案 A(model-free,硬刚派):插上手柄死磕,输了重来、赢了记套路。慢,但直接。
- 方案 B(model-based,建模派):先在脑子里搭一个"游戏模拟器"——它能预测"我按这个键、画面下一秒大概变成啥"。然后大部分练习都在脑子里推演,偶尔上真机验证。
下盲棋的高手就是 B:他闭眼也能下,因为脑子里那张棋盘比眼前的还清楚。
强化学习圈里有个叫 Atari 的"全国统考"——55 款 1980 年代街机游戏(打砖块、太空入侵者、吃豆人之类),每款规则都不一样,用来比哪家 AI 更通用。诡异的是:这场考试里,所有"脑内建模派"都干不过"硬刚派"——脑子里搭的模拟器要么不准、要么算到游戏结束都还没建好。
DreamerV2 是第一个在 Atari 上把"脑内模拟"这条路走通的 AI。
强化学习(Reinforcement Learning, RL):让 AI 通过"试错 + 拿奖励"自己学会一件事的训练方法。比如让它打游戏,赢了加分、输了扣分,慢慢学会怎么打分高。
Atari 基准:1980 年代街机游戏组成的标准测试集。AI 圈用它比较算法的通用性——同一套代码能不能把 55 个完全不同的游戏都打好。
所以这一节是想说:DreamerV2 走的是"先建脑内模拟器再练习"的路子,第一次在 Atari 上跑赢了"硬刚游戏"的传统派。

之前的人怎么做的,为什么不够好
- DQN / Rainbow / IQN(model-free 派):直接拿真游戏画面练手,2015 年起就是 Atari 之王。问题是贵——要打 2 亿帧才到人类水平,相当于一个游戏让 AI 不眠不休练几十天。
- SimPLe(早期 model-based 派):在像素空间里逐帧预测下一帧画面,再用预测出来的画面练 agent。问题是像素预测太贵,一帧帧画面预测要 GPU 算半天,只能玩 36 个游戏中的部分。
- MuZero(DeepMind 王炸):能在 Atari 上拿到惊人分数,但算力恐怖——单卡训一个游戏要 80 天,论文还没开源。普通研究组看看就行。
- DreamerV1(这篇的前作):只能搞定连续控制(机器人手臂之类),到 Atari 这种离散动作 + 复杂画面就崩。
- 核心难题:要在脑子里建"模拟器",模拟器得够准才能拿来练。Atari 画面突变多(进新房间、敌人消失),用普通的高斯分布建模拟器抓不住这种"跳变"。
所以这一节是想说:之前要么算力贵到爆,要么模拟器不够准,没人能用"脑内模拟"在 Atari 上打赢传统派。
这篇论文的新想法
把脑内模拟器的状态从"连续小数"换成"离散类别变量",第一次让纯潜空间想象在 Atari 上超越传统派。
听起来反直觉——把表达更"精细"的连续数字换成更"粗糙"的类别选项,怎么反而效果好?后面会讲,关键就在 Atari 这种游戏画面就是"跳变型"的。
所以这一节是想说:核心改动是潜状态从高斯分布换成多组 categorical(类别)变量,外加一个叫 KL balancing 的小技巧。
它分几步做的(方法)
把 DreamerV2 当成一个学游戏的小孩,他每天做三件事:白天看几局真游戏录像、晚上躺床上闭眼推演几千遍、第二天再上手玩几把验证。下面四节就是这套作息的拆解:
- 世界模型——把看到的画面压成"摘要快照",方便晚上回忆。
- KL balancing——晚上闭眼推演的画面要尽量对得上白天看到的,一个二八开的小技巧。
- 脑内白日梦——晚上同时跑 2500 条 15 步的推演,挑高分动作。
- 真环境闭环——第二天上手玩几把,收集脑子里没见过的局面。
1. 世界模型:用一个 RSSM 把游戏画面压成"压缩快照"
类比
你看一段 30 秒的游戏录像。要让 AI 记住这段录像,又不想存原始视频(占空间),怎么办?
你把每一帧压成一句"游戏当前状态摘要"——比如"敌人在右下、我在中间、还有 3 条命"。这一句话就是这一帧的压缩快照。
然后下一帧的摘要 = 上一帧摘要 + 这一帧新看到的东西。一连串摘要就能复原整段游戏。
DreamerV2 的世界模型就这么干,但摘要分两半:
- 确定性记忆 h:像 GRU(一种简单 RNN)的隐藏状态,记着"前面发生了什么"。
- 随机潜状态 z:每一步的"瞬间快照",论文用 32 组、每组 32 类的离散变量表示。
RSSM(Recurrent State-Space Model,循环状态空间模型):一个把"画面 + 历史"压缩成紧凑状态、再从状态预测下一步的网络结构。
潜状态(latent state):游戏当前情况的"数字摘要",AI 内部用,外人看不懂。
categorical(类别变量):从有限选项里选一个,比如"红/绿/蓝"。32 组 × 32 类相当于 32 个槽,每个槽从 32 个选项里选一个。
它在干什么
- 看到一帧画面 x,CNN 把它压成一串数字。
- RSSM 根据"上一步的状态 + 上一步的动作 + 这一帧的数字"算出当前的潜状态 z。
- 同时只看历史(不看当前画面)也算出一个预测版的潜状态 ẑ——这个是"prior(先验)",等会儿做白日梦时全靠它。
- 拿 z 去重建当前画面、预测当前奖励、预测"游戏是否结束"。
- 用一个 KL loss 让 prior 尽量接近 posterior——也就是"光看历史的猜测"接近"真看到画面的状态"。
关键术语
prior vs posterior(先验 vs 后验):prior = "光想就能猜的",posterior = "亲眼看到后修正的"。世界模型希望两者越接近越好,因为做白日梦时只能靠 prior。
KL loss / KL 散度:两个概率分布的差距。让 KL 变小 = 让 prior 越来越像 posterior。
straight-through 梯度:训练时遇到"采样某个类别"这种不可导操作的应急办法。前向用真采样,反向当成连续概率传导数。
为什么这步有用
- 离散变量天然表达"跳变"——画面从一个房间切换到另一个房间,对应类别选项也直接换一个,没有"连续过渡"的别扭。
- 32 × 32 离散选项展开是个 1024 维的稀疏二进制向量(只有 32 位是 1),这种稀疏表示对泛化有好处。
- prior 是类别分布,理论上能精确拟合 posterior 混合分布;高斯分布做不到这点。
所以这一节是想说:世界模型用 RSSM 把游戏压成"摘要 + 离散快照",让脑内模拟器既紧凑又能捕捉跳变。
2. KL balancing:教训 prior 比规训 posterior 更重要
类比
你在补习班学英语。两件事可以做:
- A:拿老师写的标准答案当样板,逼自己写得像它(让 posterior 像 prior)。
- B:拿自己写得最好的那篇当样板,逼老师改答案像它(让 prior 像 posterior)。
普通的 KL loss 同时干 A 和 B,各 50%。问题是 prior(老师答案)一开始就乱写,你模仿它越写越烂。
KL balancing 的做法:A 占 20%,B 占 80%——重点训 prior,少规训 posterior。
它在干什么
代码里就两行(论文 Algorithm 2):
kl_loss = 0.8 * KL(stop_grad(posterior), prior) # 训 prior,posterior 不动
+ 0.2 * KL(posterior, stop_grad(prior)) # 训 posterior,prior 不动
stop_grad 是"反向传播时假装这个是常数"的咒语。
为什么这步有用
- prior 学得准,做白日梦时才不会越想越偏。
- posterior 不被一个还没学好的 prior 拽偏,能继续抓住图像里的有用信息。
- 消融实验里,去掉 KL balancing 在 44 个游戏上掉分;clipped record 指标从 0.25 掉到 0.16。
所以这一节是想说:KL balancing 是"二八开"分配 KL loss——让 prior 拼命追 posterior,而不是让 posterior 迁就还没学好的 prior。
3. 在脑内做白日梦:actor-critic 在潜空间里想象 15 步
类比
你下棋时不会真把每一步都摆出来,而是在脑子里推演:"我走这里 → 对方大概会走那里 → 我再走这里…"想个 5-10 步深,挑最有利的那条线。
DreamerV2 也这么干——但不是 5-10 步,是 15 步,而且一次同时推演 2500 条。
它在干什么
- 从世界模型训练时见过的某个潜状态出发(不需要再看真画面)。
- actor 网络根据当前状态选一个动作。
- **transition predictor(prior)**根据状态 + 动作算出下一个潜状态。
- reward predictor说这一步能拿多少奖励、discount predictor说游戏是否结束。
- 重复 15 步,得到一条想象出来的轨迹。
- critic 网络估计"从这个状态出发,未来能拿到多少累计奖励"——也就是状态价值。
- 用 λ-return(一种把 1-步到 15-步预测加权平均的目标)训 critic。
- 用 Reinforce 梯度训 actor——让它倾向于选"被 critic 评分高"的动作。
actor-critic:actor 决定"做什么动作",critic 评判"这个状态多值钱"。两者相互配合:critic 给 actor 反馈,actor 给 critic 提供新数据。
Reinforce 梯度:训练 actor 的经典方法。把"选某个动作的概率"按"这个动作带来多少超额回报"加权调整。无偏但方差大。
λ-return:把"看 1 步""看 2 步"…"看 H 步"的奖励预估按指数权重平均,得到一个稳健的目标值。λ=0.95 表示更看重远期。
target network(目标网络):训 critic 时用的"延迟更新副本",每 100 步同步一次主网络的参数。防止训练时"自己追自己尾巴"震荡。
为什么这步有用
- 不预测画面(只在潜空间走)→ 一张 V100 卡能并行跑 2500 条想象轨迹。
- 200M 真环境帧背后是 468B 条潜空间想象——10000 倍的练习量。
- Atari 上发现 Reinforce > 直通梯度;连续控制(机器人)上反过来。两种梯度都保留,超参 ρ 控制混合比例。
所以这一节是想说:actor-critic 在世界模型的潜空间里同时跑 2500 条想象 × 15 步深,把一帧真数据扩展成上万倍的练习量。
4. 落到真环境:闭环数据收集
类比
你在脑子里推演下棋只是练习,最终还是要上真棋盘走几手——一是验证脑内模拟器对不对,二是收集脑子里没见过的局面。
它在干什么
- 把训好的 actor 放进真 Atari 模拟器跑一局。
- 把这局的画面、动作、奖励、是否结束存进经验数据集。
- 每收集 4 步真环境数据,就用世界模型 + actor-critic 各更新 1 次梯度。
- 数据集是 FIFO(先进先出)队列,最多存 200 万帧。
- 整个训练在单卡 V100 上跑 10 天,到 200M 真环境步。
为什么这步有用
- "想象 + 真实"闭环:真环境数据让世界模型见到新局面,不至于在自己想象里越走越偏。
- actor 在真环境时加 entropy 正则鼓励探索(不要总走同一条路)。
- 这个闭环结构后来被 DreamerV3、TD-MPC 等一票后续工作沿用。
所以这一节是想说:DreamerV2 不是纯做白日梦——每 4 步真练习配套大量脑内推演,闭环让模型不会越练越偏。

关键数字(What works)
数字本身不重要,重要的是它们告诉你什么"设计选择"才是关键。
数字 1:Gamer Median 2.15,超过 Rainbow(1.47)和 IQN(1.29)
- 怎么算的:55 个 Atari 游戏的得分,按"人类专业玩家"得分归一化后取中位数。
- 对比:DQN 0.65、C51 1.09、Rainbow 1.47、IQN 1.29、DreamerV2 2.15。
- 生活语言:DreamerV2 在一半游戏上能打到人类玩家的 2 倍以上分数。这是第一次有"纯潜空间世界模型"agent 在这个标准基准上拿到第一。
数字 2:单卡 V100 跑 10 天到 200M 帧
- 怎么算的:在一张消费级以上的科学计算卡上完整训完一个游戏需要的 wall-clock 时间。
- 对比:MuZero 单卡需 80 天、SimPLe 用了 40 卡天。
- 生活语言:普通研究组(一张 GPU + 10 天)就能复现,这是它能流行的关键。MuZero 虽强但只有 DeepMind 玩得起。
数字 3:去掉离散 latent → clipped record 从 0.25 掉到 0.19
- 怎么算的:消融实验——把 32×32 离散变量换回 DreamerV1 的高斯连续变量。
- 对比:离散在 42 个游戏上赢、8 个游戏上输、5 个平手。
- 生活语言:换离散是这篇 V2 区别于 V1 最重要的改动,能解释相当一部分性能提升。
数字 4:去掉 KL balancing → 0.25 掉到 0.16
- 怎么算的:消融——KL loss 不再做二八分,改回普通 50/50。
- 对比:在 44 个游戏上输、6 个游戏上赢、5 平。
- 生活语言:第二大功臣。和离散 latent 加在一起几乎决定了 V2 的胜负。
数字 5:去掉 image gradient → 0.25 直接崩到 0.01
- 怎么算的:消融——不让"重建画面"的损失反传到表征。
- 对比:51 个游戏崩、3 个游戏涨、1 平。
- 生活语言:世界模型完全靠"画面重建"这个监督信号才学到有用表征。MuZero 不重建画面也行(因为靠 value gradient),但 DreamerV2 没有 image 就是瞎子。
数字 6:468B 想象状态 vs 50M 真观察
- 怎么算的:训练全程在世界模型里采样的潜状态总数除以真环境步数。
- 生活语言:一帧真画面背后做了一万倍量的脑内推演。这就是为什么"算力换性能"在 model-based 这条路上比 model-free 更划算。
所以这一节是想说:决定胜负的是离散潜状态 + KL balancing + 图像重建监督;少了任意一个都崩。
你应该懂的几个新词
World Model(世界模型):agent 脑子里建的一个"环境模拟器",给它当前状态和动作就能预测下一步。
Model-based RL(基于模型的强化学习):先学世界模型再用它练策略;和 model-free(直接用真数据练策略)对立。
Latent dynamics model(潜动力学模型):在压缩后的状态空间(不是像素空间)里做动力学预测。比逐帧预测画面快几个数量级。
RSSM(Recurrent State-Space Model):DreamerV2 用的世界模型架构。状态分确定性 GRU 隐藏态 + 随机潜变量两半。
Categorical latent(类别潜变量):DreamerV2 的招牌——32 组、每组 32 类的离散变量。比高斯连续变量更适合 Atari 这种跳变多的场景。
KL balancing(KL 平衡):把 KL loss 的两个方向按 0.8 / 0.2 拆开训,重点提升 prior 的预测能力。
Imagination horizon(想象长度):一次脑内推演走多少步。DreamerV2 用 H=15。
λ-return(λ 回报):把 1 步到 H 步的回报按指数权重加权平均的稳健目标值。λ=0.95 偏长期。
Reinforce gradient(策略梯度):训 actor 的经典方法。无偏、方差大。Atari 上比直通梯度好用。
Straight-through gradient(直通梯度):让"采样离散变量"这种不可导操作能被反向传播跑过去的应急技巧。前向是真采样,反向当成软概率。
Sticky actions(粘性动作):Atari 评测的一个变体——25% 概率重复上一步动作。让游戏不那么确定,更接近真实分布。这篇用的就是 sticky 设定。
Discount factor γ(折扣因子):未来奖励的衰减率,γ=0.999 = 几乎不衰减、看远期;γ=0.99 = 看近期。Atari 默认 0.999,Montezuma 这种稀疏奖励用 0.99。
所以这一节是想说:上面这 12 个词是看任何 model-based RL 论文都会反复出现的核心词汇。
它有什么搞不定的
DreamerV2 强归强,论文也老实交代了几个翻车场景:
- Video Pinball:唯一明显输给 model-free 的游戏。原因猜测是关键物体(球)在画面上只占 1 像素,画面重建损失根本"看不见它",导致世界模型抓不到核心动力学。
- 稀疏奖励游戏:Montezuma's Revenge 这种"几分钟才有一次奖励"的游戏,要把 γ 从 0.999 降到 0.99 才稳定,且只能勉强追平专门做探索的 ICM 方法。
- 跨任务迁移:每个游戏单独训一个 agent,世界模型不会在游戏之间复用。要做 multi-task 是后续 DreamerV3 / DayDreamer 的事。
- MCTS 这条路:MuZero 的蒙特卡洛树搜索能进一步推高分数,DreamerV2 没用——作者说这是正交的方向,未来可以叠加。
所以这一节是想说:DreamerV2 是"基线打通"的概念证明,迁移、稀疏奖励、规划深度这些方向都是后续工作要补的坑。
它和别的论文是什么关系
- 前传:DreamerV1(Hafner et al. 2019) — 同一作者的连续控制版,潜状态用高斯。V2 = V1 + 离散 latent + KL balancing + 一些训练细节。
- 同期对手:MuZero、SimPLe — Table 3 的对比清楚:MuZero 强但贵且闭源,SimPLe 在像素空间预测不可扩展,DreamerV2 找到了"潜空间 + 离散"的甜点。
- 续作:DreamerV3(2023) — 同一组人做的"通用版"——同一套超参跨 150+ 任务,引入 symlog 变换、free bits 等小改动。是目前 model-based RL 的事实标准。
- 横向关系:和 LLaVA / OpenVLA 对照 — LLaVA 这些 VLM 本质是"理解 + 生成",没有"在脑子里推演 + 拿奖励"的闭环。DreamerV2 这条路通往具身 AI:把世界模型 + actor-critic 套到机器人控制上,就是 DayDreamer、TD-MPC、Cosmos Policy 等后续工作。
- 和 SayCan / VLAs 对照 — SayCan 用 LLM 做"高层规划",但底层动作还得有"世界模型 + 控制器"。DreamerV2 提供的就是这种底层基础设施。
- 认知科学映射 — 这条路其实是 Sutton 1991 年 Dyna 框架的当代版本:人脑就是一个一直在做"反事实想象"的 agent,DreamerV2 把这个想法在深度学习时代实现出来了。
所以这一节是想说:DreamerV2 是 model-based RL 这条线的里程碑——上承 PlaNet/Dreamer,下启 DreamerV3 和具身世界模型这一票后续工作。
我建议这样读这篇
零基础读者不要从头读到尾。建议这样走:
- 看 Figure 1(1 分钟):记住一个事实——DreamerV2 在 Atari 上第一次让 model-based 派打败 model-free 派。
- 看 Figure 2 世界模型图(5 分钟):理解 RSSM 的两条线——确定性 GRU + 离散随机变量、posterior 看图像、prior 不看图像。
- 看 Figure 3 actor-critic 图(3 分钟):理解"想象一段轨迹 → critic 评分 → actor 更新"这个循环。
- 跳到 Section 2.1 末尾"KL balancing"(5 分钟):搞懂那两行 stop_grad 在干嘛,这是这篇画龙点睛的一笔。
- 扫 Table 2 消融实验(3 分钟):知道哪些设计是命根子(离散 latent、KL balancing、image gradient)。
- 跳过 Equation 6 的 Reinforce 推导细节(除非你想自己实现):知道"actor 调整选动作的概率,让高分动作更常被选"就够了。
- 看 Appendix C 改动总结(5 分钟):作者诚实列出"试了什么 work、什么没 work",对你以后调参很有用。
读完这 7 步大约 30-45 分钟,已经能在和别人讨论 model-based RL 时报出 DreamerV2 的核心思路。
所以这一节是想说:精华全在 Figure 2 + KL balancing + 消融表三处,公式细节可以略读。
一些好奇心问答
Q1:为什么离散变量比连续高斯好?
论文给了 4 个猜想:(a) 类别混合还是类别,先验能精确拟合;高斯混合不是高斯,先验追不上。(b) 32 槽 × 32 类展开是 1024 位稀疏二进制向量,对泛化有好处。(c) 直通梯度避免高斯重参数化时的"梯度爆炸/消失"。(d) Atari 画面跳变多(进新房间、敌人消失),离散更适合表达"突变"。作者也承认不知道哪个是真因。
Q2:32 × 32 这两个数怎么来的?
论文没做过广泛的网格搜索。32 组 × 32 类是经验值——展开 1024 维和 V1 用的高斯潜变量维度差不多,方便对比。
Q3:H=15 想象长度够不够?λ=0.95 怎么定的?
跟 V1 一致。H 太长,想象误差累积;太短,看不到长期奖励。λ-return 把不同长度的预测加权平均,让长度选择不那么敏感。
Q4:Reinforce 还是直通梯度?
Atari 上 ρ=1(纯 Reinforce),连续控制上 ρ=0(纯直通)。**为什么 Atari 偏 Reinforce?**论文没给完全解释,猜测是离散动作 + 稀疏奖励让直通的 bias 影响更大。
Q5:单卡 V100 10 天 × 55 个游戏 = 550 卡天,要这么多算力?
是的。但消融做不全也是因为这——做一组完整消融要 60000 卡天,太贵。所以 Table 2 里只挑了 6 项最重要的消融。
Q6:能不能把 DreamerV2 用到机器人?
可以。论文 Appendix A 已经在 Humanoid Walk(21 维连续动作的人形机器人)上跑通了——只需要把 actor 输出从 categorical 改成 truncated normal 即可。后来 DayDreamer 把它直接放到真实物理机器人上,1 小时学会站立。
Q7:和 MuZero 谁强?
各有所长。MuZero 用 MCTS 在棋类和确定性 Atari 上打分更高,但贵且不开源。DreamerV2 算力 1/8、单卡可跑、开源,作者说 MCTS 是正交方向,可以叠加在世界模型之上。
Q8:Sticky actions 是什么?为什么要用?
每步有 25% 概率忽略你给的动作、改重复上一步。这让 Atari 不再是确定性环境,更接近真实场景的分布。Machado et al. 2018 推荐这个评测协议——之前很多 paper 在确定性 Atari 上分数虚高,sticky 是更公平的赛道。
所以这一节是想说:实操问题(设计选择、算力、迁移、和谁打)作者都给了答案或开诚布公说"不知道"。
如果你想再深入
按"前传 → 同期对手 → 续作 → 衍生方向"四类排序:
- 前传:PlaNet(Hafner 2018)+ DreamerV1(Hafner 2019) — 同一系列。PlaNet 提出 RSSM 结构;V1 把它扩展到 actor-critic 拿到连续控制 SOTA。读完再看 V2 能很清楚看到"潜状态从高斯到离散"这一步的演化。
- 同期对手:MuZero(Schrittwieser 2019)+ SimPLe(Kaiser 2019) — Table 3 的全部三家。读这两篇能搞清楚"靠 value gradient 学模型"和"在像素空间预测下一帧"两条路为什么都走不远。
- 续作:DreamerV3(Hafner 2023) — 同一组的"通用版",同一套超参跨 150+ 任务,引入 symlog reward 变换、free bits 等改动。真要用 Dreamer,请直接读 V3。
- 续作:DayDreamer(Wu et al. 2022) — 把 DreamerV2 直接拉到真实机器人上,1 小时学会四足走路。证明"潜空间想象"在物理世界也成立。
- 衍生方向:TD-MPC / DayDreamer / Cosmos Policy — 把"世界模型 + 短期规划"的思路拓展到机器人控制。可以理解为 DreamerV2 在具身 AI 时代的孩子们。
所以这一节是想说:把 PlaNet → DreamerV1 → DreamerV2 → DreamerV3 这条线连起来读,就是过去 5 年潜空间世界模型的全貌。
最后一个画面
想象你在玩一款 Atari 老游戏。每次你眨眼的瞬间——大约 0.3 秒——你脑子里其实模拟了一遍"我下一步该往哪走"。这件事人类天生会做,AI 直到 2021 年才在 55 个 Atari 游戏上学会。
DreamerV2 没用什么花哨技术——就是把高斯换成了离散类别,把 KL loss 拆成了二八分。但这两个简单改动,让"在脑子里推演"这条沉寂多年的路第一次跑赢"硬刚游戏"的传统派。
所以最后一节是想说:DreamerV2 不是单点突破——它是人类朝着"会做白日梦的 AI"这条路上一个里程碑式的胜利。
◼
引用本笔记 / Cite this note
@online{eai_dreamer_v2_2026,
title = {(readable note) Mastering Atari with Discrete World Models},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2021 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/dreamer-v2/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim