回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
World Model & Video Policy · Plate Nº 145

World Models

18 min read · 6473 字 · ⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

让 AI 先在自己脑子里反复"做白日梦"练打游戏,练熟了再去真游戏里上场——居然真能赢。

所以这一节是想说:这篇论文教 agent 先做梦、在梦里练,再回现实场上比赛。


这是个什么场景

先想个跟你有关的画面:你在学打棒球(或羽毛球、乒乓球,都一样)。

投手扔出一个 100 mph 的快球,球离开手只飞 0.4 秒就到你眼前。 可你"眼睛看到 → 大脑想 → 手挥棒"这套流程要 0.2 秒。 那职业击球手是怎么打中的?他们脑子里早就装了一个预测器: "投手抬手的姿势 → 这是外角下坠球 → 球会到这里"——脑子先一步在"梦里"演过,肌肉只是把演练好的动作放出来。

人不是真的"看到再决定",而是脑子里随时在悄悄做白日梦预测下一秒。这篇论文要给 AI agent 装的,就是这种"脑内白日梦机器"。

为什么需要这玩意?因为当时教 AI 玩游戏卡在两件烦事上(用的是强化学习——RL,reinforcement learning,让 agent 通过试错+奖励学怎么得高分):

  • 真游戏跑一局太贵:每一帧都要 3D 引擎渲染、物理计算,像每练一次挥棒都得请人开一次球场。
  • 大脑做大就乱:把"看图的眼睛"和"做决策的脑子"塞进一个大网络一起训,没法搞清楚到底是哪一步动作立了功(这叫信用分配难题)。

作者的目标特别直接:让 agent 大部分时间在"自己脑内的廉价梦境"里练,而不是去真游戏里耗;同时把"看 + 记忆"做得很大,把"做决策"做得超小——这样既快又稳。

所以这一节是想说:人靠脑内预测打棒球,作者想让 agent 也靠脑内梦境训练自己。


World Models — 场景示意:这论文要解决的现实问题
Plate Nº IWorld Models — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:传统 model-free RL(直接在真环境训) 类比:每打一局就要请人开一次球场。租场费高,而且玩家脑子(神经网络)只能用很小一个,因为大脑越大越难告诉它"刚才哪一步错了"。

  • 方案 B:用确定性模型预测下一帧 类比:教练给你的"模拟训练机"只会按一种固定剧本走。但真实世界是有随机的——投手可能突然甩个变速。确定性模型一被识破,agent 就开始钻 BUG:"我只要往左站着,模拟器永远不出球"。

  • 方案 C:PILCO 用高斯过程学动力学 类比:用一种很数学的工具去拟合"输入→下一步"。只在状态简单时管用,输入是高维像素时算不动。

  • 方案 D:把 VAE/自编码器和控制器一起端到端训 做法是先把图压成小向量,再训控制器。没有"预测未来"的部分,agent 只看当下一帧。

  • 结论:缺的是一个会预测未来、还带点随机性的脑内模拟器,并且这个模拟器要便宜到 agent 可以在里面反复训。

所以这一节是想说:之前的人要么真环境硬训太贵,要么模拟器太死板会被钻空子,没人把"概率梦境"用起来。


这篇论文的新想法

把 agent 拆成"看 + 记忆 + 决策"三件套。让"看"和"记忆"先无监督学一个梦境模型,然后让小脑袋(决策)整个训练过程都在梦里跑——最后再把策略搬回真环境。

听起来反直觉——你怎么能"在梦里"学会真本事?关键是这个梦不是定式的,而是带概率分布的随机梦境,一旦你想钻空子,梦的随机性会把你打回原形。

所以这一节是想说:核心创新是用一个"概率梦境"代替真环境,让 agent 的整个 RL 训练都在自己的梦里完成。


它分几步做的(方法)

把 agent 想成一个开车的人:V 是眼睛(看清画面)、M 是大脑里的"老司机直觉"(记得路况、预感下一秒)、C 是手脚(拧方向盘踩油门)。前两个拼起来就是"世界模型",第三个是真正做决策的小肌肉。论文最妙的设计:眼睛和直觉做得很大,手脚做得超小。

1. V 模块:用 VAE 把每帧图压成 32 个数字

类比

像你给朋友发语音描述一张照片:你不会一个像素一个像素念,而是说"赛道、左边一片绿草、远处左转弯"——抽出几十个关键维度就够。VAE 干的就是这事,把一张图压成 32 个数。

它在干什么

  1. 输入 64×64 的彩色画面(比手机壁纸缩略图还小)。
  2. 通过 4 层卷积网络压缩到一个 32 维向量(赛车任务)或 64 维(VizDoom 任务)。
  3. 一个反向的解码器尝试根据这 32 个数把整张图还原回去。
  4. 训练目标 = "原图和还原图差多少" + "压缩出来的向量分布是否接近标准正态"。

等等,先慢一拍 —— VAE 到底是什么?

VAE(Variational Autoencoder,变分自编码器):一种"把图压成向量、又能从向量解压回图"的网络。和普通自编码器的区别:它输出的不是一个固定向量,而是一个概率分布(一个均值 µ 加一个方差 σ)。直觉是:相邻的两张图压出来的向量也会挨得近,所以向量空间是"平滑"的,不是离散坑坑洼洼的。

潜变量 z(latent vector):32 或 64 维的小向量,是一帧图的"压缩摘要",可以理解成"这张图的指纹"。

KL 损失(KL loss):罚分项,逼 z 的分布不能乱跑、要贴近一个标准正态分布。这是让 VAE 的潜空间变"平滑"的关键约束。

为什么这步有用

  • 后面的"梦境"和"决策"都不再处理像素,只处理 32 维向量。计算量降到原来的几百分之一
  • 由于 KL 约束,z 空间分布平滑,未来的 M 模块就算预测略有偏差,落到附近的 z 也能解码成"还算合理"的画面,不会一下子坏掉。
  • V 是纯无监督学的——只用了 10000 段随机乱开的录像,没有任何奖励信号。便宜。

所以这一节是想说:先训一个会"压缩-解压"图像的网络当眼睛,把高维像素降成低维向量。


2. M 模块:用 MDN-RNN 学习"下一秒会发生什么"

类比

像天气预报员预报明天有没有雨。靠谱的预报员不会拍胸脯说"明天下午 3 点 17 分一定下雨",而是说"60% 概率下午下小雨,30% 阴天,10% 突然出太阳"——给的是一片概率云。M 模块就是这种气象员,预报的不是"下一帧确定长这样",而是"下一帧可能落在哪些位置,各占多大概率"。

它在干什么

  1. 输入:当前帧的 z(来自 V)+ 当前动作 a + RNN 上一步的隐状态 h。
  2. 输出:一组高斯分布的参数(5 个高斯混合而成)—— 描述"下一帧 z 的可能取值是哪些、各占多大概率"。
  3. 训练时,给它海量的"动作 a + 当前 z"序列,让它预测真实的下一个 z。

等等,先慢一拍 —— RNN 和 MDN 是什么?

RNN(Recurrent Neural Network,循环神经网络):能记住"过去发生了什么"的网络。普通网络看一帧就忘,RNN 会保留一个隐藏状态 h,把过去的信息浓缩进去。这里用的是 LSTM,一种特别擅长长记忆的 RNN。

MDN(Mixture Density Network,混合密度网络):一种输出层,不输出单点,而是输出"几个高斯分布的混合"。每个高斯有自己的均值和方差,加权混合就是预测的概率云。

隐藏状态 h(hidden state):RNN 的"记忆笔记本"。它把过去看过的所有 z 和动作 a 都浓缩成一个固定长度的向量。

温度 τ(temperature):一个控制"采样有多冒险"的旋钮。τ 越高,从混合高斯里采样到的 z 越乱、世界越不可预测;τ→0 几乎只取均值,世界变得确定但呆板。

为什么这步有用

  • 能产生"梦境":把 M 串起来连续采样 z₁→z₂→z₃……再让 V 解码,就生成了一段虚构的视频。这个梦比真游戏便宜 100 倍。
  • 概率而非确定:因为输出是概率分布,agent 没办法找一个固定漏洞——每次梦境的细节都不一样,钻空子就被随机性打掉。
  • τ 旋钮的妙用:训练时把 τ 调高(梦更乱),agent 就被迫学"鲁棒策略";测试到真环境时反而像降难度。

所以这一节是想说:RNN 学的是"未来 z 的概率云",这个概率性是防止 agent 钻 BUG 的核心。


3. C 模块:故意做小到只有几百个参数的"决策器"

类比

老司机开了 20 年车,"看路 + 经验"那部分(V+M)已经强得离谱,但他踩刹车那一脚根本不需要复杂思考——肌肉记忆里就一句"现在该多左 30 度、油门减半"。C 就是这只脚,故意做得简单到肌肉级,反而最稳。

它在干什么

最简朴的一行公式:

a_t = W_c · [z_t ; h_t] + b_c

人话翻译:把"当前 z(看到了什么)"和"RNN 隐状态 h(记得发生过什么)"拼成一个向量,乘上一张数字表 W_c 加偏置,输出动作 a。一行线性运算结束。

  • 赛车任务:C 只有 867 个参数(V 是 430 万,M 是 42 万)。
  • VizDoom:C 只有 1088 个参数。

关键术语解释

线性控制器(linear controller):决策只通过一个矩阵乘法 + 加偏置完成,没有非线性、没有隐藏层。简单到能用进化算法直接搜参数。

CMA-ES(Covariance Matrix Adaptation Evolution Strategy,协方差矩阵自适应进化策略):一种"进化算法"。每次撒一群参数,评估每个的得分,把得分高的留下来"繁殖"出新一代,反复迭代。适合参数量在几千以内、奖励稀疏的情况。

信用分配问题(credit assignment problem):RL 的老大难——比赛结束你赢了,但具体是 1000 步里的哪一步立了功?很难分辨。模型越大越难分。

为什么这步有用

  • 小到能用进化算法:C 只有几百到一千参数,CMA-ES 从最终累计得分里就能学出来,不需要可微分(不需要算梯度)。
  • 复杂度都丢给了世界模型:V+M 加起来上百万参数,可以放心用反向传播无监督训;C 只负责把已经学好的特征翻译成动作。
  • 训练能爆量并行:进化算法天生适合多机并行,每一代撒 64 个个体,每个跑 16 次 rollout——一台 64 核机器随便跑。

所以这一节是想说:让"看 + 记"无限大、"决策"无限小,巧妙绕开了 RL 的信用分配难题。


4. 在梦里训 → 把策略搬回现实

类比

像围棋手晚上闭眼在脑子里复盘几百盘棋——根本不用找真对手,每一步都是自己脑里想出来的。等到第二天比赛,他直接把昨晚在脑里练熟的招式搬到棋盘上。这一节就是让 agent 学会这件事:先在梦里训,再原地搬到真游戏里上场。

它在干什么(以 VizDoom 任务为例)

  1. 用随机策略在真 VizDoom 跑 10000 局,收集动作 + 帧。
  2. 训 V 把每帧压成 z;训 M 学 P(z_{t+1}, done | a, z, h),多预测一个"是否阵亡"。
  3. 此时脱离真环境:把 M 包装成一个伪 OpenAI Gym 环境——它的 step() 方法不调真游戏,而是从 MDN 采样下一帧 z 和"是否死"。
  4. C 在这个伪环境里用 CMA-ES 训练。整个过程只在 32/64 维的 z 空间运转,根本不渲染图像,超快。
  5. 训练好后,把 C 直接插回真 VizDoom,看分数。

关键术语解释

梦境 / 幻觉环境(hallucinated environment):M 模块自己生成的虚拟游戏。所有"画面"都是采样出来的 z,可以也可以不解码回像素——agent 只需要 z 就够。

done 信号:游戏是否结束(agent 死亡)。M 不仅预测下一帧 z,还预测"下一步会不会死",这样梦境才算一个完整 RL 环境。

sim2real 迁移(simulation to reality transfer):在仿真训好策略,搬到真世界。这里"仿真"是 agent 自己脑内的,比传统 sim2real 更激进。

为什么这步有用

  • VizDoom 实验里 agent 在梦里训完搬回真游戏,分数 1092 ± 556,远超解题门槛 750,也比直接在 OpenAI 排行榜上的最强 model-free 方法(820)高得多。
  • 在梦里训便宜——不用渲染 3D 画面、不用跑游戏引擎物理,每秒能多跑几个数量级的 step。
  • 这是历史上第一次有论文展示"完全脑内训练"的策略能迁移回真环境。后来 Dreamer 系列就是这条路上的巨人。

所以这一节是想说:把 M 包装成 Gym 环境,agent 整个 RL 训练流程在梦里完成,再原地搬回真世界。


World Models — 方法示意:核心 pipeline
Plate Nº IIWorld Models — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你哪些设计选择是关键。

数字 1:CarRacing-v0 取得 906 ± 21 分

  • 怎么算的:100 局赛车,平均累计奖励。
  • 对比:DQN 343,A3C(discrete)652,前最强 OpenAI Leaderboard 838。
  • 生活语言:第一次有人正式"通关" CarRacing-v0(要求 ≥ 900)。而且 V+M+C 加起来比传统 model-free 网络还小。

数字 2:VizDoom 在梦里训 → 真环境 1092 ± 556 步

  • 怎么算的:在自己 RNN 生成的"梦版 Doom"里 CMA-ES 训完,搬回真 VizDoom 测 100 局平均存活时间。
  • 对比:解题门槛 750,OpenAI 排行榜最强 820。
  • 生活语言:完全没在真游戏里训过的 agent,搬回真游戏直接 SOTA。这是这篇论文最像魔法的一刻。

数字 3:去掉 RNN 隐状态 h → 分数从 906 掉到 632

  • 怎么算的:让 C 只看 z(当下一帧),不看 h(过去记忆)。
  • 对比:906(看 h)vs 632(不看 h)。
  • 生活语言:缺了"对未来的预感",赛车开始在弯道发飘。说明 M 给出的 h 不是装饰品,而是"未来概率"的浓缩。

数字 4:温度 τ 从 1.0 调到 1.15 → 真环境分数翻倍

  • 怎么算的:训练梦境时调高 τ(更乱),再回真环境。
  • 对比:τ=1.0 → 868,τ=1.15 → 1092;但 τ=0.10 → 真环境只有 193。
  • 生活语言:太规整的梦让 agent 学会钻空子但拉胯到现实;太乱的梦学不到东西;中间偏热一点最好。这是论文里最反直觉但最有用的发现。

数字 5:C 只有 867 个参数

  • 怎么算的:W_c 矩阵(3 个动作 × ~280 维输入)+ 偏置 b_c。
  • 对比:V 有 430 万参数,M 有 42 万。
  • 生活语言:决策器小到能放进 Excel 表格,但赛跑表现却是 SOTA。把复杂度都"外包"给世界模型,是最反直觉的设计选择。

数字 6:训练 V 和 M 各只要 < 1 小时(单 GPU)

  • 怎么算的:随机数据集 10K 局,VAE 跑 1 epoch、MDN-RNN 跑 20 epoch。
  • 生活语言:在 2018 年这是一台普通游戏卡的水准。整篇论文最大的价值之一是门槛极低,研究生用消费级机器都能复现——后来催生了大量后续工作。

所以这一节是想说:数据告诉我们,赢的关键不是模型大,是"概率梦境 + 高温随机性"这套配方。


你应该懂的几个新词

世界模型(World Model):agent 脑子里学到的"环境会怎么动"的预测器。给定当前状态和动作,预测下一状态。

强化学习(Reinforcement Learning, RL):agent 通过和环境交互、收奖励/惩罚来学策略。和监督学习区别:没有标签,只有"做对/做错"的稀疏反馈。

VAE(Variational Autoencoder):把图压成低维向量、又能解压回图的生成网络。压出来的向量空间分布平滑。

MDN-RNN(Mixture Density Network + RNN):循环网络 + 混合高斯输出。学的是"下一步状态的概率分布",而非确定值。

潜空间 / 潜变量(latent space / latent vector):高维输入被压缩到的低维空间。每张图、每个状态在那里都是一个点。

隐状态 h(hidden state):RNN 浓缩过去信息的向量。h 里其实编码了"对未来的预期"。

温度 τ(temperature):调节生成模型采样冒险程度的旋钮。高 = 多样性大,低 = 单一确定。

CMA-ES(进化策略):基于"撒一群参数→留高分→繁殖"的优化算法,不需要梯度。适合参数少、奖励稀疏的场景。

梦境 / 幻觉环境(dream / hallucinated environment):用 M 模块自己生成的虚拟环境,agent 在里面反复训练而不接触真实环境。

sim2real:在仿真环境训好的策略搬到真实环境上还能用。本论文的"梦 → 真"是其极端版本。

信用分配(credit assignment):奖励来自一长串动作的最后一步,到底是哪一步立了功?大模型很难分清,所以这篇把"决策器"做小。

catastrophic forgetting(灾难性遗忘):神经网络学新任务把旧任务忘光的毛病。论文 Discussion 里也提到 M 模型有这风险。

所以这一节是想说:上面这十几个词以后看任何 RL / 世界模型论文都会反复出现,先把它们和生活类比挂钩。


它有什么搞不定的

  • VAE 不知道什么是"任务相关":VAE 是无监督训的,会认真还原 Doom 墙砖花纹,却没认真还原赛道路面(路面才是开车关键)。换新任务可能要重训。
  • 梦境容量有限:LSTM 那 256~512 个隐藏单元装不下太复杂世界。游戏越复杂,梦越糊;论文承认未来要换更大模型(Transformer / 外置记忆)。
  • 梦容易被钻空子:尽管用了概率 MDN,agent 偶尔还是会发现"在梦里这样动监怪就不放火球"——学到了梦里的 bug 而非真规律。τ 调高能缓解但不能根治。

所以这一节是想说:世界模型既要够准(不然不能迁移),又要够乱(不然被钻空子);这中间的平衡至今仍是难题。


它和别的论文是什么关系

  • 直接续作:Dreamer V1 / V2(同位置就有 dreamer-v1.md / dreamer-v2.md)。Hafner 等人把 World Models 思路升级——把 VAE+MDN-RNN 换成更结构化的 RSSM,并把 C 改成可微分的 actor-critic,用反向传播直接穿过梦境训策略。可以理解成"World Models 的工业化升级版"。
  • 方法学源头:Schmidhuber 1990s 系列。论文反复引用 Schmidhuber "On Learning to Think",本质是把那套"C-M 系统"用现代深度学习重新实现。
  • 对照:Diffusion Policy / IBC(diffusion-policy.md / ibc.md。Diffusion Policy 在动作空间建概率分布;World Models 在状态空间建概率分布。两者都拥抱"概率胜于确定"的思想。
  • 对照:模仿学习路线(gail.md。GAIL 不学世界模型,只学专家行为分布;World Models 不学专家,只学世界。两者代表 RL 学习的两条思路。
  • 影响:具身 AI 全家。后来的 PaLM-E、Cosmos-Policy、OpenVLA 都受"先学一个世界 / 表征模型,再训控制"这条路线影响。Cosmos 把"梦境"从游戏放大到工业仿真级。

所以这一节是想说:World Models 是 2010 年代后期"梦境 + 世界模型"的奠基论文,后续 Dreamer / Cosmos 系列都是它的衍生品。


我建议这样读这篇

  1. 先看 Figure 4(V/M/C 三件套)和 Figure 8(数据流图)(5 分钟):脑子里先建立"眼睛-记忆-肌肉"的解剖图。
  2. 跳到第 4 章 VizDoom 实验(15 分钟):这是最有故事性的部分,"在梦里训完回到真环境"那一段读完会有顿悟。
  3. 回来读第 2 章方法(20 分钟):搞清 V/M/C 各自训什么、怎么训。重点弄懂"为什么 M 要输出概率分布"。
  4. 读第 4.5 节"Cheating the World Model"(10 分钟):这是这篇最有趣的工程教训——agent 怎么钻 BUG,怎么用温度 τ 反钻。
  5. 跳过附录 A.1-A.5 的具体网络结构(除非你要复现):知道 V 是 4 层卷积、M 是 LSTM+5 高斯混合就够了。
  6. 最后看第 7 章 Discussion(5 分钟):作者对未来的展望(包括迭代训练、可微梦境、外置记忆)后来全都被实现了。

读完这 6 步大约 50-70 分钟,能在和别人讨论 RL/世界模型时报出 World Models 的核心思路。

所以这一节是想说:精华全在 VizDoom 那段"梦境训练"的故事,方法部分反而是工程标准操作。


一些好奇心问答

Q1:为什么不直接在真游戏里训?

慢且贵。真 VizDoom 一秒只能跑几十帧,每帧要渲染 3D。M 模块的"梦境"只在 32 维向量空间运转,一秒能跑上千 step。再加上 CMA-ES 一代要评估 1000 多次 rollout,差距是几个数量级。

Q2:为什么决策器 C 故意做这么小?

CMA-ES(进化算法)只能搜几千以内的参数。把 C 做小,等于把"信用分配"问题缩到最小搜索空间——奖励一来,能马上分清是哪个参数立了功。复杂度全留给了 V+M(用反向传播无监督训,没有信用分配难题)。

Q3:MDN-RNN 为什么必须输出概率而不是单点?

如果是单点确定预测,agent 一定会找到"M 的 bug 区域"——某些状态下预测明显失真,agent 在那里能拿无限分但回真世界全错。概率分布 + 温度 τ 让这种 bug 区每次采样都不一样,agent 学到的策略被迫鲁棒。

Q4:为什么 τ=1.15 比 τ=1.0 在真环境表现更好?

直觉是"更乱的梦更接近真实"。τ=1.0 时梦境稍微平滑,agent 找到了一些"现实里不存在的便利";τ=1.15 让那些便利消失,逼 agent 学硬本事。τ=0.1 又走另一极端——梦完全确定,怪物根本不放火球,agent 学到的是 fantasy。

Q5:这模型能跑多大的环境?

论文里只跑了 CarRacing 和 VizDoom 两个相对简单的游戏。LSTM 隐藏状态只有 256/512 维,装不下《我的世界》或《GTA》那种规模。后续 Dreamer V2/V3 用 RSSM 把容量做大,并加了类别分布,才能扩展到 Atari 全集和复杂控制任务。

Q6:V、M、C 三块能一起端到端训吗?

理论上可以(论文脚注说过),但作者发现分开训更稳。一起训会让 V 朝"对 C 有利但还原图变差"的方向跑偏。Dreamer 系列后来用 actor-critic + 可微梦境实现了端到端,但那是更后面的工程。

Q7:CMA-ES 训完 C 要多久?

赛车任务约 1800 代,每代 64 个个体 × 每个 16 次 rollout。一台 64 核机器并行跑大约 1-2 天。比纯 deep RL(如 A3C 跑同任务的天数)省时间,因为奖励稀疏时进化算法更稳。

Q8:那这篇为什么算 founder 级?

因为它第一次干净地把"无监督学世界模型 + 在梦里 RL + 迁移回现实"这个 pipeline 跑通,并且开源代码 + 写了交互式网页版(worldmodels.github.io)。后来 Dreamer、MuZero、Cosmos 等等都是在它的骨架上扩。

所以这一节是想说:实操问题(多大、多久、为什么这么设计)作者基本都给了答案,门槛远比想象低。


如果你想再深入

按"前传 → 续作 → 衍生方向"排序:

  1. 前传:Schmidhuber "On Learning to Think" (2015) — 本论文反复引用,给了 C-M 系统的元理论。读完会发现这篇 2018 论文是 1990 年代思想的现代实现。
  2. 续作:Dreamer V1 (2020) — 用 RSSM 取代 VAE+MDN-RNN,并把 C 改成 actor-critic,用反向传播直接穿过梦境训策略。本仓库里有 dreamer-v1.md
  3. 续作:Dreamer V2 (2021) / V3 (2023) — 把分布换成类别离散,扩展到 Atari 全集。本仓库 dreamer-v2.md
  4. 衍生:MuZero (2019) — 不学解码图像、只学"未来奖励 / 价值"的隐式世界模型。在围棋 / Atari 都达到 SOTA。
  5. 衍生:Cosmos-Policy (2025) — 把 World Models 思路放大到工业仿真级,物理保真度高得多,本仓库 cosmos-policy.md

所以这一节是想说:把 World Models + Dreamer V1 + Dreamer V2 这三篇连起来读,就能看到"在梦里学策略"这条路十年间的完整演化。


最后一个画面

VizDoom 实验里有这样一幕:agent 在自己梦里发现了一个 bug——只要它做某种特定动作组合,怪物 RNN 就再也不放火球。它在梦里满分通关。

但作者把这个钻空子的策略搬回真 VizDoom,agent 一秒就被火球烧死。

把温度 τ 从 1.0 调到 1.15 后,梦变得更乱了——那些 bug 在不同的随机种子下出现的位置不一样,agent 没法稳定钻空子,被迫学真本事。再把它搬回真世界,存活时间从几百步飙到 1092 步。

这一刻,"梦境训练"第一次被证明能产出真本事——而决定它是真本事还是钓鱼幻觉的,居然是一个叫"温度"的小旋钮。

所以最后一节是想说:World Models 不只跑通了梦境训练,还顺手发现了"概率与温度"这个让所有后续生成式世界模型都受用的关键设计。

引用本笔记 / Cite this note
BibTeX
@online{eai_world_models_ha_2026,
  title       = {(readable note) World Models},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2018 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/world-models-ha/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim