World Model & Video Policy · Plate Nº 145

World Models

18 min read · 6473 字 · ⭐⭐⭐ · auto 摘要

#RL #world-model

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天，公式全部翻译成人话。

一句话讲什么（TL;DR）

让 AI 先在自己脑子里反复"做白日梦"练打游戏，练熟了再去真游戏里上场——居然真能赢。

所以这一节是想说：这篇论文教 agent 先做梦、在梦里练，再回现实场上比赛。

这是个什么场景

先想个跟你有关的画面：你在学打棒球（或羽毛球、乒乓球，都一样）。

投手扔出一个 100 mph 的快球，球离开手只飞 0.4 秒就到你眼前。可你"眼睛看到 → 大脑想 → 手挥棒"这套流程要 0.2 秒。那职业击球手是怎么打中的？他们脑子里早就装了一个预测器： "投手抬手的姿势 → 这是外角下坠球 → 球会到这里"——脑子先一步在"梦里"演过，肌肉只是把演练好的动作放出来。

人不是真的"看到再决定"，而是脑子里随时在悄悄做白日梦预测下一秒。这篇论文要给 AI agent 装的，就是这种"脑内白日梦机器"。

为什么需要这玩意？因为当时教 AI 玩游戏卡在两件烦事上（用的是强化学习——RL，reinforcement learning，让 agent 通过试错+奖励学怎么得高分）：

真游戏跑一局太贵：每一帧都要 3D 引擎渲染、物理计算，像每练一次挥棒都得请人开一次球场。
大脑做大就乱：把"看图的眼睛"和"做决策的脑子"塞进一个大网络一起训，没法搞清楚到底是哪一步动作立了功（这叫信用分配难题）。

作者的目标特别直接：让 agent 大部分时间在"自己脑内的廉价梦境"里练，而不是去真游戏里耗；同时把"看 + 记忆"做得很大，把"做决策"做得超小——这样既快又稳。

所以这一节是想说：人靠脑内预测打棒球，作者想让 agent 也靠脑内梦境训练自己。

Plate Nº IWorld Models — 场景示意：这论文要解决的现实问题

之前的人怎么做的，为什么不够好

方案 A：传统 model-free RL（直接在真环境训） 类比：每打一局就要请人开一次球场。租场费高，而且玩家脑子（神经网络）只能用很小一个，因为大脑越大越难告诉它"刚才哪一步错了"。
方案 B：用确定性模型预测下一帧 类比：教练给你的"模拟训练机"只会按一种固定剧本走。但真实世界是有随机的——投手可能突然甩个变速。确定性模型一被识破，agent 就开始钻 BUG："我只要往左站着，模拟器永远不出球"。
方案 C：PILCO 用高斯过程学动力学 类比：用一种很数学的工具去拟合"输入→下一步"。只在状态简单时管用，输入是高维像素时算不动。
方案 D：把 VAE/自编码器和控制器一起端到端训 做法是先把图压成小向量，再训控制器。没有"预测未来"的部分，agent 只看当下一帧。
结论：缺的是一个会预测未来、还带点随机性的脑内模拟器，并且这个模拟器要便宜到 agent 可以在里面反复训。

所以这一节是想说：之前的人要么真环境硬训太贵，要么模拟器太死板会被钻空子，没人把"概率梦境"用起来。

这篇论文的新想法

把 agent 拆成"看 + 记忆 + 决策"三件套。让"看"和"记忆"先无监督学一个梦境模型，然后让小脑袋（决策）整个训练过程都在梦里跑——最后再把策略搬回真环境。

听起来反直觉——你怎么能"在梦里"学会真本事？关键是这个梦不是定式的，而是带概率分布的随机梦境，一旦你想钻空子，梦的随机性会把你打回原形。

所以这一节是想说：核心创新是用一个"概率梦境"代替真环境，让 agent 的整个 RL 训练都在自己的梦里完成。

它分几步做的（方法）

把 agent 想成一个开车的人：V 是眼睛（看清画面）、M 是大脑里的"老司机直觉"（记得路况、预感下一秒）、C 是手脚（拧方向盘踩油门）。前两个拼起来就是"世界模型"，第三个是真正做决策的小肌肉。论文最妙的设计：眼睛和直觉做得很大，手脚做得超小。

1. V 模块：用 VAE 把每帧图压成 32 个数字

类比

像你给朋友发语音描述一张照片：你不会一个像素一个像素念，而是说"赛道、左边一片绿草、远处左转弯"——抽出几十个关键维度就够。VAE 干的就是这事，把一张图压成 32 个数。

它在干什么

输入 64×64 的彩色画面（比手机壁纸缩略图还小）。
通过 4 层卷积网络压缩到一个 32 维向量（赛车任务）或 64 维（VizDoom 任务）。
一个反向的解码器尝试根据这 32 个数把整张图还原回去。
训练目标 = "原图和还原图差多少" + "压缩出来的向量分布是否接近标准正态"。

等等，先慢一拍 —— VAE 到底是什么？

VAE（Variational Autoencoder，变分自编码器）：一种"把图压成向量、又能从向量解压回图"的网络。和普通自编码器的区别：它输出的不是一个固定向量，而是一个概率分布（一个均值 µ 加一个方差 σ）。直觉是：相邻的两张图压出来的向量也会挨得近，所以向量空间是"平滑"的，不是离散坑坑洼洼的。

潜变量 z（latent vector）：32 或 64 维的小向量，是一帧图的"压缩摘要"，可以理解成"这张图的指纹"。

KL 损失（KL loss）：罚分项，逼 z 的分布不能乱跑、要贴近一个标准正态分布。这是让 VAE 的潜空间变"平滑"的关键约束。

为什么这步有用

后面的"梦境"和"决策"都不再处理像素，只处理 32 维向量。计算量降到原来的几百分之一。
由于 KL 约束，z 空间分布平滑，未来的 M 模块就算预测略有偏差，落到附近的 z 也能解码成"还算合理"的画面，不会一下子坏掉。
V 是纯无监督学的——只用了 10000 段随机乱开的录像，没有任何奖励信号。便宜。

所以这一节是想说：先训一个会"压缩-解压"图像的网络当眼睛，把高维像素降成低维向量。

2. M 模块：用 MDN-RNN 学习"下一秒会发生什么"

类比

像天气预报员预报明天有没有雨。靠谱的预报员不会拍胸脯说"明天下午 3 点 17 分一定下雨"，而是说"60% 概率下午下小雨，30% 阴天，10% 突然出太阳"——给的是一片概率云。M 模块就是这种气象员，预报的不是"下一帧确定长这样"，而是"下一帧可能落在哪些位置，各占多大概率"。

它在干什么

输入：当前帧的 z（来自 V）+ 当前动作 a + RNN 上一步的隐状态 h。
输出：一组高斯分布的参数（5 个高斯混合而成）—— 描述"下一帧 z 的可能取值是哪些、各占多大概率"。
训练时，给它海量的"动作 a + 当前 z"序列，让它预测真实的下一个 z。

等等，先慢一拍 —— RNN 和 MDN 是什么？

RNN（Recurrent Neural Network，循环神经网络）：能记住"过去发生了什么"的网络。普通网络看一帧就忘，RNN 会保留一个隐藏状态 h，把过去的信息浓缩进去。这里用的是 LSTM，一种特别擅长长记忆的 RNN。

MDN（Mixture Density Network，混合密度网络）：一种输出层，不输出单点，而是输出"几个高斯分布的混合"。每个高斯有自己的均值和方差，加权混合就是预测的概率云。

隐藏状态 h（hidden state）：RNN 的"记忆笔记本"。它把过去看过的所有 z 和动作 a 都浓缩成一个固定长度的向量。

温度 τ（temperature）：一个控制"采样有多冒险"的旋钮。τ 越高，从混合高斯里采样到的 z 越乱、世界越不可预测；τ→0 几乎只取均值，世界变得确定但呆板。

为什么这步有用

能产生"梦境"：把 M 串起来连续采样 z₁→z₂→z₃……再让 V 解码，就生成了一段虚构的视频。这个梦比真游戏便宜 100 倍。
概率而非确定：因为输出是概率分布，agent 没办法找一个固定漏洞——每次梦境的细节都不一样，钻空子就被随机性打掉。
τ 旋钮的妙用：训练时把 τ 调高（梦更乱），agent 就被迫学"鲁棒策略"；测试到真环境时反而像降难度。

所以这一节是想说：RNN 学的是"未来 z 的概率云"，这个概率性是防止 agent 钻 BUG 的核心。

3. C 模块：故意做小到只有几百个参数的"决策器"

类比

老司机开了 20 年车，"看路 + 经验"那部分（V+M）已经强得离谱，但他踩刹车那一脚根本不需要复杂思考——肌肉记忆里就一句"现在该多左 30 度、油门减半"。C 就是这只脚，故意做得简单到肌肉级，反而最稳。

它在干什么

最简朴的一行公式：

a_t = W_c · [z_t ; h_t] + b_c

人话翻译：把"当前 z（看到了什么）"和"RNN 隐状态 h（记得发生过什么）"拼成一个向量，乘上一张数字表 W_c 加偏置，输出动作 a。一行线性运算结束。

赛车任务：C 只有 867 个参数（V 是 430 万，M 是 42 万）。
VizDoom：C 只有 1088 个参数。

关键术语解释

线性控制器（linear controller）：决策只通过一个矩阵乘法 + 加偏置完成，没有非线性、没有隐藏层。简单到能用进化算法直接搜参数。

CMA-ES（Covariance Matrix Adaptation Evolution Strategy，协方差矩阵自适应进化策略）：一种"进化算法"。每次撒一群参数，评估每个的得分，把得分高的留下来"繁殖"出新一代，反复迭代。适合参数量在几千以内、奖励稀疏的情况。

信用分配问题（credit assignment problem）：RL 的老大难——比赛结束你赢了，但具体是 1000 步里的哪一步立了功？很难分辨。模型越大越难分。

为什么这步有用

小到能用进化算法：C 只有几百到一千参数，CMA-ES 从最终累计得分里就能学出来，不需要可微分（不需要算梯度）。
复杂度都丢给了世界模型：V+M 加起来上百万参数，可以放心用反向传播无监督训；C 只负责把已经学好的特征翻译成动作。
训练能爆量并行：进化算法天生适合多机并行，每一代撒 64 个个体，每个跑 16 次 rollout——一台 64 核机器随便跑。

所以这一节是想说：让"看 + 记"无限大、"决策"无限小，巧妙绕开了 RL 的信用分配难题。

4. 在梦里训 → 把策略搬回现实

类比

像围棋手晚上闭眼在脑子里复盘几百盘棋——根本不用找真对手，每一步都是自己脑里想出来的。等到第二天比赛，他直接把昨晚在脑里练熟的招式搬到棋盘上。这一节就是让 agent 学会这件事：先在梦里训，再原地搬到真游戏里上场。

它在干什么（以 VizDoom 任务为例）

用随机策略在真 VizDoom 跑 10000 局，收集动作 + 帧。
训 V 把每帧压成 z；训 M 学 P(z_{t+1}, done | a, z, h)，多预测一个"是否阵亡"。
此时脱离真环境：把 M 包装成一个伪 OpenAI Gym 环境——它的 step() 方法不调真游戏，而是从 MDN 采样下一帧 z 和"是否死"。
C 在这个伪环境里用 CMA-ES 训练。整个过程只在 32/64 维的 z 空间运转，根本不渲染图像，超快。
训练好后，把 C 直接插回真 VizDoom，看分数。

关键术语解释

梦境 / 幻觉环境（hallucinated environment）：M 模块自己生成的虚拟游戏。所有"画面"都是采样出来的 z，可以也可以不解码回像素——agent 只需要 z 就够。

done 信号：游戏是否结束（agent 死亡）。M 不仅预测下一帧 z，还预测"下一步会不会死"，这样梦境才算一个完整 RL 环境。

sim2real 迁移（simulation to reality transfer）：在仿真训好策略，搬到真世界。这里"仿真"是 agent 自己脑内的，比传统 sim2real 更激进。

为什么这步有用

VizDoom 实验里 agent 在梦里训完搬回真游戏，分数 1092 ± 556，远超解题门槛 750，也比直接在 OpenAI 排行榜上的最强 model-free 方法（820）高得多。
在梦里训便宜——不用渲染 3D 画面、不用跑游戏引擎物理，每秒能多跑几个数量级的 step。
这是历史上第一次有论文展示"完全脑内训练"的策略能迁移回真环境。后来 Dreamer 系列就是这条路上的巨人。

所以这一节是想说：把 M 包装成 Gym 环境，agent 整个 RL 训练流程在梦里完成，再原地搬回真世界。

Plate Nº IIWorld Models — 方法示意：核心 pipeline

关键数字（What works）

数字本身不重要，重要的是它们告诉你哪些设计选择是关键。

数字 1：CarRacing-v0 取得 906 ± 21 分

怎么算的：100 局赛车，平均累计奖励。
对比：DQN 343，A3C（discrete）652，前最强 OpenAI Leaderboard 838。
生活语言：第一次有人正式"通关" CarRacing-v0（要求 ≥ 900）。而且 V+M+C 加起来比传统 model-free 网络还小。

数字 2：VizDoom 在梦里训 → 真环境 1092 ± 556 步

怎么算的：在自己 RNN 生成的"梦版 Doom"里 CMA-ES 训完，搬回真 VizDoom 测 100 局平均存活时间。
对比：解题门槛 750，OpenAI 排行榜最强 820。
生活语言：完全没在真游戏里训过的 agent，搬回真游戏直接 SOTA。这是这篇论文最像魔法的一刻。

数字 3：去掉 RNN 隐状态 h → 分数从 906 掉到 632

怎么算的：让 C 只看 z（当下一帧），不看 h（过去记忆）。
对比：906（看 h）vs 632（不看 h）。
生活语言：缺了"对未来的预感"，赛车开始在弯道发飘。说明 M 给出的 h 不是装饰品，而是"未来概率"的浓缩。

数字 4：温度 τ 从 1.0 调到 1.15 → 真环境分数翻倍

怎么算的：训练梦境时调高 τ（更乱），再回真环境。
对比：τ=1.0 → 868，τ=1.15 → 1092；但 τ=0.10 → 真环境只有 193。
生活语言：太规整的梦让 agent 学会钻空子但拉胯到现实；太乱的梦学不到东西；中间偏热一点最好。这是论文里最反直觉但最有用的发现。

数字 5：C 只有 867 个参数

怎么算的：W_c 矩阵（3 个动作 × ~280 维输入）+ 偏置 b_c。
对比：V 有 430 万参数，M 有 42 万。
生活语言：决策器小到能放进 Excel 表格，但赛跑表现却是 SOTA。把复杂度都"外包"给世界模型，是最反直觉的设计选择。

数字 6：训练 V 和 M 各只要 < 1 小时（单 GPU）

怎么算的：随机数据集 10K 局，VAE 跑 1 epoch、MDN-RNN 跑 20 epoch。
生活语言：在 2018 年这是一台普通游戏卡的水准。整篇论文最大的价值之一是门槛极低，研究生用消费级机器都能复现——后来催生了大量后续工作。

所以这一节是想说：数据告诉我们，赢的关键不是模型大，是"概率梦境 + 高温随机性"这套配方。

你应该懂的几个新词

世界模型（World Model）：agent 脑子里学到的"环境会怎么动"的预测器。给定当前状态和动作，预测下一状态。

强化学习（Reinforcement Learning, RL）：agent 通过和环境交互、收奖励/惩罚来学策略。和监督学习区别：没有标签，只有"做对/做错"的稀疏反馈。

VAE（Variational Autoencoder）：把图压成低维向量、又能解压回图的生成网络。压出来的向量空间分布平滑。

MDN-RNN（Mixture Density Network + RNN）：循环网络 + 混合高斯输出。学的是"下一步状态的概率分布"，而非确定值。

潜空间 / 潜变量（latent space / latent vector）：高维输入被压缩到的低维空间。每张图、每个状态在那里都是一个点。

隐状态 h（hidden state）：RNN 浓缩过去信息的向量。h 里其实编码了"对未来的预期"。

温度 τ（temperature）：调节生成模型采样冒险程度的旋钮。高 = 多样性大，低 = 单一确定。

CMA-ES（进化策略）：基于"撒一群参数→留高分→繁殖"的优化算法，不需要梯度。适合参数少、奖励稀疏的场景。

梦境 / 幻觉环境（dream / hallucinated environment）：用 M 模块自己生成的虚拟环境，agent 在里面反复训练而不接触真实环境。

sim2real：在仿真环境训好的策略搬到真实环境上还能用。本论文的"梦 → 真"是其极端版本。

信用分配（credit assignment）：奖励来自一长串动作的最后一步，到底是哪一步立了功？大模型很难分清，所以这篇把"决策器"做小。

catastrophic forgetting（灾难性遗忘）：神经网络学新任务把旧任务忘光的毛病。论文 Discussion 里也提到 M 模型有这风险。

所以这一节是想说：上面这十几个词以后看任何 RL / 世界模型论文都会反复出现，先把它们和生活类比挂钩。

它有什么搞不定的

VAE 不知道什么是"任务相关"：VAE 是无监督训的，会认真还原 Doom 墙砖花纹，却没认真还原赛道路面（路面才是开车关键）。换新任务可能要重训。
梦境容量有限：LSTM 那 256~512 个隐藏单元装不下太复杂世界。游戏越复杂，梦越糊；论文承认未来要换更大模型（Transformer / 外置记忆）。
梦容易被钻空子：尽管用了概率 MDN，agent 偶尔还是会发现"在梦里这样动监怪就不放火球"——学到了梦里的 bug 而非真规律。τ 调高能缓解但不能根治。

所以这一节是想说：世界模型既要够准（不然不能迁移），又要够乱（不然被钻空子）；这中间的平衡至今仍是难题。

它和别的论文是什么关系

直接续作：Dreamer V1 / V2（同位置就有 dreamer-v1.md / dreamer-v2.md）。Hafner 等人把 World Models 思路升级——把 VAE+MDN-RNN 换成更结构化的 RSSM，并把 C 改成可微分的 actor-critic，用反向传播直接穿过梦境训策略。可以理解成"World Models 的工业化升级版"。
方法学源头：Schmidhuber 1990s 系列。论文反复引用 Schmidhuber "On Learning to Think"，本质是把那套"C-M 系统"用现代深度学习重新实现。
对照：Diffusion Policy / IBC（diffusion-policy.md / ibc.md）。Diffusion Policy 在动作空间建概率分布；World Models 在状态空间建概率分布。两者都拥抱"概率胜于确定"的思想。
对照：模仿学习路线（gail.md）。GAIL 不学世界模型，只学专家行为分布；World Models 不学专家，只学世界。两者代表 RL 学习的两条思路。
影响：具身 AI 全家。后来的 PaLM-E、Cosmos-Policy、OpenVLA 都受"先学一个世界 / 表征模型，再训控制"这条路线影响。Cosmos 把"梦境"从游戏放大到工业仿真级。

所以这一节是想说：World Models 是 2010 年代后期"梦境 + 世界模型"的奠基论文，后续 Dreamer / Cosmos 系列都是它的衍生品。

我建议这样读这篇

先看 Figure 4（V/M/C 三件套）和 Figure 8（数据流图）（5 分钟）：脑子里先建立"眼睛-记忆-肌肉"的解剖图。
跳到第 4 章 VizDoom 实验（15 分钟）：这是最有故事性的部分，"在梦里训完回到真环境"那一段读完会有顿悟。
回来读第 2 章方法（20 分钟）：搞清 V/M/C 各自训什么、怎么训。重点弄懂"为什么 M 要输出概率分布"。
读第 4.5 节"Cheating the World Model"（10 分钟）：这是这篇最有趣的工程教训——agent 怎么钻 BUG，怎么用温度 τ 反钻。
跳过附录 A.1-A.5 的具体网络结构（除非你要复现）：知道 V 是 4 层卷积、M 是 LSTM+5 高斯混合就够了。
最后看第 7 章 Discussion（5 分钟）：作者对未来的展望（包括迭代训练、可微梦境、外置记忆）后来全都被实现了。

读完这 6 步大约 50-70 分钟，能在和别人讨论 RL/世界模型时报出 World Models 的核心思路。

所以这一节是想说：精华全在 VizDoom 那段"梦境训练"的故事，方法部分反而是工程标准操作。

一些好奇心问答

Q1：为什么不直接在真游戏里训？

慢且贵。真 VizDoom 一秒只能跑几十帧，每帧要渲染 3D。M 模块的"梦境"只在 32 维向量空间运转，一秒能跑上千 step。再加上 CMA-ES 一代要评估 1000 多次 rollout，差距是几个数量级。

Q2：为什么决策器 C 故意做这么小？

CMA-ES（进化算法）只能搜几千以内的参数。把 C 做小，等于把"信用分配"问题缩到最小搜索空间——奖励一来，能马上分清是哪个参数立了功。复杂度全留给了 V+M（用反向传播无监督训，没有信用分配难题）。

Q3：MDN-RNN 为什么必须输出概率而不是单点？

如果是单点确定预测，agent 一定会找到"M 的 bug 区域"——某些状态下预测明显失真，agent 在那里能拿无限分但回真世界全错。概率分布 + 温度 τ 让这种 bug 区每次采样都不一样，agent 学到的策略被迫鲁棒。

Q4：为什么 τ=1.15 比 τ=1.0 在真环境表现更好？

直觉是"更乱的梦更接近真实"。τ=1.0 时梦境稍微平滑，agent 找到了一些"现实里不存在的便利"；τ=1.15 让那些便利消失，逼 agent 学硬本事。τ=0.1 又走另一极端——梦完全确定，怪物根本不放火球，agent 学到的是 fantasy。

Q5：这模型能跑多大的环境？

论文里只跑了 CarRacing 和 VizDoom 两个相对简单的游戏。LSTM 隐藏状态只有 256/512 维，装不下《我的世界》或《GTA》那种规模。后续 Dreamer V2/V3 用 RSSM 把容量做大，并加了类别分布，才能扩展到 Atari 全集和复杂控制任务。

Q6：V、M、C 三块能一起端到端训吗？

理论上可以（论文脚注说过），但作者发现分开训更稳。一起训会让 V 朝"对 C 有利但还原图变差"的方向跑偏。Dreamer 系列后来用 actor-critic + 可微梦境实现了端到端，但那是更后面的工程。

Q7：CMA-ES 训完 C 要多久？

赛车任务约 1800 代，每代 64 个个体 × 每个 16 次 rollout。一台 64 核机器并行跑大约 1-2 天。比纯 deep RL（如 A3C 跑同任务的天数）省时间，因为奖励稀疏时进化算法更稳。

Q8：那这篇为什么算 founder 级？

因为它第一次干净地把"无监督学世界模型 + 在梦里 RL + 迁移回现实"这个 pipeline 跑通，并且开源代码 + 写了交互式网页版（worldmodels.github.io）。后来 Dreamer、MuZero、Cosmos 等等都是在它的骨架上扩。

所以这一节是想说：实操问题（多大、多久、为什么这么设计）作者基本都给了答案，门槛远比想象低。

如果你想再深入

按"前传 → 续作 → 衍生方向"排序：

前传：Schmidhuber "On Learning to Think" (2015) — 本论文反复引用，给了 C-M 系统的元理论。读完会发现这篇 2018 论文是 1990 年代思想的现代实现。
续作：Dreamer V1 (2020) — 用 RSSM 取代 VAE+MDN-RNN，并把 C 改成 actor-critic，用反向传播直接穿过梦境训策略。本仓库里有 dreamer-v1.md。
续作：Dreamer V2 (2021) / V3 (2023) — 把分布换成类别离散，扩展到 Atari 全集。本仓库 dreamer-v2.md。
衍生：MuZero (2019) — 不学解码图像、只学"未来奖励 / 价值"的隐式世界模型。在围棋 / Atari 都达到 SOTA。
衍生：Cosmos-Policy (2025) — 把 World Models 思路放大到工业仿真级，物理保真度高得多，本仓库 cosmos-policy.md。

所以这一节是想说：把 World Models + Dreamer V1 + Dreamer V2 这三篇连起来读，就能看到"在梦里学策略"这条路十年间的完整演化。

最后一个画面

VizDoom 实验里有这样一幕：agent 在自己梦里发现了一个 bug——只要它做某种特定动作组合，怪物 RNN 就再也不放火球。它在梦里满分通关。

但作者把这个钻空子的策略搬回真 VizDoom，agent 一秒就被火球烧死。

把温度 τ 从 1.0 调到 1.15 后，梦变得更乱了——那些 bug 在不同的随机种子下出现的位置不一样，agent 没法稳定钻空子，被迫学真本事。再把它搬回真世界，存活时间从几百步飙到 1092 步。

这一刻，"梦境训练"第一次被证明能产出真本事——而决定它是真本事还是钓鱼幻觉的，居然是一个叫"温度"的小旋钮。

所以最后一节是想说：World Models 不只跑通了梦境训练，还顺手发现了"概率与温度"这个让所有后续生成式世界模型都受用的关键设计。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_world_models_ha_2026,
  title       = {(readable note) World Models},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2018 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/world-models-ha/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)