World Models
这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。
一句话讲什么(TL;DR)
让 AI 先在自己脑子里反复"做白日梦"练打游戏,练熟了再去真游戏里上场——居然真能赢。
所以这一节是想说:这篇论文教 agent 先做梦、在梦里练,再回现实场上比赛。
这是个什么场景
先想个跟你有关的画面:你在学打棒球(或羽毛球、乒乓球,都一样)。
投手扔出一个 100 mph 的快球,球离开手只飞 0.4 秒就到你眼前。 可你"眼睛看到 → 大脑想 → 手挥棒"这套流程要 0.2 秒。 那职业击球手是怎么打中的?他们脑子里早就装了一个预测器: "投手抬手的姿势 → 这是外角下坠球 → 球会到这里"——脑子先一步在"梦里"演过,肌肉只是把演练好的动作放出来。
人不是真的"看到再决定",而是脑子里随时在悄悄做白日梦预测下一秒。这篇论文要给 AI agent 装的,就是这种"脑内白日梦机器"。
为什么需要这玩意?因为当时教 AI 玩游戏卡在两件烦事上(用的是强化学习——RL,reinforcement learning,让 agent 通过试错+奖励学怎么得高分):
- 真游戏跑一局太贵:每一帧都要 3D 引擎渲染、物理计算,像每练一次挥棒都得请人开一次球场。
- 大脑做大就乱:把"看图的眼睛"和"做决策的脑子"塞进一个大网络一起训,没法搞清楚到底是哪一步动作立了功(这叫信用分配难题)。
作者的目标特别直接:让 agent 大部分时间在"自己脑内的廉价梦境"里练,而不是去真游戏里耗;同时把"看 + 记忆"做得很大,把"做决策"做得超小——这样既快又稳。
所以这一节是想说:人靠脑内预测打棒球,作者想让 agent 也靠脑内梦境训练自己。

之前的人怎么做的,为什么不够好
方案 A:传统 model-free RL(直接在真环境训) 类比:每打一局就要请人开一次球场。租场费高,而且玩家脑子(神经网络)只能用很小一个,因为大脑越大越难告诉它"刚才哪一步错了"。
方案 B:用确定性模型预测下一帧 类比:教练给你的"模拟训练机"只会按一种固定剧本走。但真实世界是有随机的——投手可能突然甩个变速。确定性模型一被识破,agent 就开始钻 BUG:"我只要往左站着,模拟器永远不出球"。
方案 C:PILCO 用高斯过程学动力学 类比:用一种很数学的工具去拟合"输入→下一步"。只在状态简单时管用,输入是高维像素时算不动。
方案 D:把 VAE/自编码器和控制器一起端到端训 做法是先把图压成小向量,再训控制器。没有"预测未来"的部分,agent 只看当下一帧。
结论:缺的是一个会预测未来、还带点随机性的脑内模拟器,并且这个模拟器要便宜到 agent 可以在里面反复训。
所以这一节是想说:之前的人要么真环境硬训太贵,要么模拟器太死板会被钻空子,没人把"概率梦境"用起来。
这篇论文的新想法
把 agent 拆成"看 + 记忆 + 决策"三件套。让"看"和"记忆"先无监督学一个梦境模型,然后让小脑袋(决策)整个训练过程都在梦里跑——最后再把策略搬回真环境。
听起来反直觉——你怎么能"在梦里"学会真本事?关键是这个梦不是定式的,而是带概率分布的随机梦境,一旦你想钻空子,梦的随机性会把你打回原形。
所以这一节是想说:核心创新是用一个"概率梦境"代替真环境,让 agent 的整个 RL 训练都在自己的梦里完成。
它分几步做的(方法)
把 agent 想成一个开车的人:V 是眼睛(看清画面)、M 是大脑里的"老司机直觉"(记得路况、预感下一秒)、C 是手脚(拧方向盘踩油门)。前两个拼起来就是"世界模型",第三个是真正做决策的小肌肉。论文最妙的设计:眼睛和直觉做得很大,手脚做得超小。
1. V 模块:用 VAE 把每帧图压成 32 个数字
类比
像你给朋友发语音描述一张照片:你不会一个像素一个像素念,而是说"赛道、左边一片绿草、远处左转弯"——抽出几十个关键维度就够。VAE 干的就是这事,把一张图压成 32 个数。
它在干什么
- 输入 64×64 的彩色画面(比手机壁纸缩略图还小)。
- 通过 4 层卷积网络压缩到一个 32 维向量(赛车任务)或 64 维(VizDoom 任务)。
- 一个反向的解码器尝试根据这 32 个数把整张图还原回去。
- 训练目标 = "原图和还原图差多少" + "压缩出来的向量分布是否接近标准正态"。
等等,先慢一拍 —— VAE 到底是什么?
VAE(Variational Autoencoder,变分自编码器):一种"把图压成向量、又能从向量解压回图"的网络。和普通自编码器的区别:它输出的不是一个固定向量,而是一个概率分布(一个均值 µ 加一个方差 σ)。直觉是:相邻的两张图压出来的向量也会挨得近,所以向量空间是"平滑"的,不是离散坑坑洼洼的。
潜变量 z(latent vector):32 或 64 维的小向量,是一帧图的"压缩摘要",可以理解成"这张图的指纹"。
KL 损失(KL loss):罚分项,逼 z 的分布不能乱跑、要贴近一个标准正态分布。这是让 VAE 的潜空间变"平滑"的关键约束。
为什么这步有用
- 后面的"梦境"和"决策"都不再处理像素,只处理 32 维向量。计算量降到原来的几百分之一。
- 由于 KL 约束,z 空间分布平滑,未来的 M 模块就算预测略有偏差,落到附近的 z 也能解码成"还算合理"的画面,不会一下子坏掉。
- V 是纯无监督学的——只用了 10000 段随机乱开的录像,没有任何奖励信号。便宜。
所以这一节是想说:先训一个会"压缩-解压"图像的网络当眼睛,把高维像素降成低维向量。
2. M 模块:用 MDN-RNN 学习"下一秒会发生什么"
类比
像天气预报员预报明天有没有雨。靠谱的预报员不会拍胸脯说"明天下午 3 点 17 分一定下雨",而是说"60% 概率下午下小雨,30% 阴天,10% 突然出太阳"——给的是一片概率云。M 模块就是这种气象员,预报的不是"下一帧确定长这样",而是"下一帧可能落在哪些位置,各占多大概率"。
它在干什么
- 输入:当前帧的 z(来自 V)+ 当前动作 a + RNN 上一步的隐状态 h。
- 输出:一组高斯分布的参数(5 个高斯混合而成)—— 描述"下一帧 z 的可能取值是哪些、各占多大概率"。
- 训练时,给它海量的"动作 a + 当前 z"序列,让它预测真实的下一个 z。
等等,先慢一拍 —— RNN 和 MDN 是什么?
RNN(Recurrent Neural Network,循环神经网络):能记住"过去发生了什么"的网络。普通网络看一帧就忘,RNN 会保留一个隐藏状态 h,把过去的信息浓缩进去。这里用的是 LSTM,一种特别擅长长记忆的 RNN。
MDN(Mixture Density Network,混合密度网络):一种输出层,不输出单点,而是输出"几个高斯分布的混合"。每个高斯有自己的均值和方差,加权混合就是预测的概率云。
隐藏状态 h(hidden state):RNN 的"记忆笔记本"。它把过去看过的所有 z 和动作 a 都浓缩成一个固定长度的向量。
温度 τ(temperature):一个控制"采样有多冒险"的旋钮。τ 越高,从混合高斯里采样到的 z 越乱、世界越不可预测;τ→0 几乎只取均值,世界变得确定但呆板。
为什么这步有用
- 能产生"梦境":把 M 串起来连续采样 z₁→z₂→z₃……再让 V 解码,就生成了一段虚构的视频。这个梦比真游戏便宜 100 倍。
- 概率而非确定:因为输出是概率分布,agent 没办法找一个固定漏洞——每次梦境的细节都不一样,钻空子就被随机性打掉。
- τ 旋钮的妙用:训练时把 τ 调高(梦更乱),agent 就被迫学"鲁棒策略";测试到真环境时反而像降难度。
所以这一节是想说:RNN 学的是"未来 z 的概率云",这个概率性是防止 agent 钻 BUG 的核心。
3. C 模块:故意做小到只有几百个参数的"决策器"
类比
老司机开了 20 年车,"看路 + 经验"那部分(V+M)已经强得离谱,但他踩刹车那一脚根本不需要复杂思考——肌肉记忆里就一句"现在该多左 30 度、油门减半"。C 就是这只脚,故意做得简单到肌肉级,反而最稳。
它在干什么
最简朴的一行公式:
a_t = W_c · [z_t ; h_t] + b_c
人话翻译:把"当前 z(看到了什么)"和"RNN 隐状态 h(记得发生过什么)"拼成一个向量,乘上一张数字表 W_c 加偏置,输出动作 a。一行线性运算结束。
- 赛车任务:C 只有 867 个参数(V 是 430 万,M 是 42 万)。
- VizDoom:C 只有 1088 个参数。
关键术语解释
线性控制器(linear controller):决策只通过一个矩阵乘法 + 加偏置完成,没有非线性、没有隐藏层。简单到能用进化算法直接搜参数。
CMA-ES(Covariance Matrix Adaptation Evolution Strategy,协方差矩阵自适应进化策略):一种"进化算法"。每次撒一群参数,评估每个的得分,把得分高的留下来"繁殖"出新一代,反复迭代。适合参数量在几千以内、奖励稀疏的情况。
信用分配问题(credit assignment problem):RL 的老大难——比赛结束你赢了,但具体是 1000 步里的哪一步立了功?很难分辨。模型越大越难分。
为什么这步有用
- 小到能用进化算法:C 只有几百到一千参数,CMA-ES 从最终累计得分里就能学出来,不需要可微分(不需要算梯度)。
- 复杂度都丢给了世界模型:V+M 加起来上百万参数,可以放心用反向传播无监督训;C 只负责把已经学好的特征翻译成动作。
- 训练能爆量并行:进化算法天生适合多机并行,每一代撒 64 个个体,每个跑 16 次 rollout——一台 64 核机器随便跑。
所以这一节是想说:让"看 + 记"无限大、"决策"无限小,巧妙绕开了 RL 的信用分配难题。
4. 在梦里训 → 把策略搬回现实
类比
像围棋手晚上闭眼在脑子里复盘几百盘棋——根本不用找真对手,每一步都是自己脑里想出来的。等到第二天比赛,他直接把昨晚在脑里练熟的招式搬到棋盘上。这一节就是让 agent 学会这件事:先在梦里训,再原地搬到真游戏里上场。
它在干什么(以 VizDoom 任务为例)
- 用随机策略在真 VizDoom 跑 10000 局,收集动作 + 帧。
- 训 V 把每帧压成 z;训 M 学 P(z_{t+1}, done | a, z, h),多预测一个"是否阵亡"。
- 此时脱离真环境:把 M 包装成一个伪 OpenAI Gym 环境——它的 step() 方法不调真游戏,而是从 MDN 采样下一帧 z 和"是否死"。
- C 在这个伪环境里用 CMA-ES 训练。整个过程只在 32/64 维的 z 空间运转,根本不渲染图像,超快。
- 训练好后,把 C 直接插回真 VizDoom,看分数。
关键术语解释
梦境 / 幻觉环境(hallucinated environment):M 模块自己生成的虚拟游戏。所有"画面"都是采样出来的 z,可以也可以不解码回像素——agent 只需要 z 就够。
done 信号:游戏是否结束(agent 死亡)。M 不仅预测下一帧 z,还预测"下一步会不会死",这样梦境才算一个完整 RL 环境。
sim2real 迁移(simulation to reality transfer):在仿真训好策略,搬到真世界。这里"仿真"是 agent 自己脑内的,比传统 sim2real 更激进。
为什么这步有用
- VizDoom 实验里 agent 在梦里训完搬回真游戏,分数 1092 ± 556,远超解题门槛 750,也比直接在 OpenAI 排行榜上的最强 model-free 方法(820)高得多。
- 在梦里训便宜——不用渲染 3D 画面、不用跑游戏引擎物理,每秒能多跑几个数量级的 step。
- 这是历史上第一次有论文展示"完全脑内训练"的策略能迁移回真环境。后来 Dreamer 系列就是这条路上的巨人。
所以这一节是想说:把 M 包装成 Gym 环境,agent 整个 RL 训练流程在梦里完成,再原地搬回真世界。

关键数字(What works)
数字本身不重要,重要的是它们告诉你哪些设计选择是关键。
数字 1:CarRacing-v0 取得 906 ± 21 分
- 怎么算的:100 局赛车,平均累计奖励。
- 对比:DQN 343,A3C(discrete)652,前最强 OpenAI Leaderboard 838。
- 生活语言:第一次有人正式"通关" CarRacing-v0(要求 ≥ 900)。而且 V+M+C 加起来比传统 model-free 网络还小。
数字 2:VizDoom 在梦里训 → 真环境 1092 ± 556 步
- 怎么算的:在自己 RNN 生成的"梦版 Doom"里 CMA-ES 训完,搬回真 VizDoom 测 100 局平均存活时间。
- 对比:解题门槛 750,OpenAI 排行榜最强 820。
- 生活语言:完全没在真游戏里训过的 agent,搬回真游戏直接 SOTA。这是这篇论文最像魔法的一刻。
数字 3:去掉 RNN 隐状态 h → 分数从 906 掉到 632
- 怎么算的:让 C 只看 z(当下一帧),不看 h(过去记忆)。
- 对比:906(看 h)vs 632(不看 h)。
- 生活语言:缺了"对未来的预感",赛车开始在弯道发飘。说明 M 给出的 h 不是装饰品,而是"未来概率"的浓缩。
数字 4:温度 τ 从 1.0 调到 1.15 → 真环境分数翻倍
- 怎么算的:训练梦境时调高 τ(更乱),再回真环境。
- 对比:τ=1.0 → 868,τ=1.15 → 1092;但 τ=0.10 → 真环境只有 193。
- 生活语言:太规整的梦让 agent 学会钻空子但拉胯到现实;太乱的梦学不到东西;中间偏热一点最好。这是论文里最反直觉但最有用的发现。
数字 5:C 只有 867 个参数
- 怎么算的:W_c 矩阵(3 个动作 × ~280 维输入)+ 偏置 b_c。
- 对比:V 有 430 万参数,M 有 42 万。
- 生活语言:决策器小到能放进 Excel 表格,但赛跑表现却是 SOTA。把复杂度都"外包"给世界模型,是最反直觉的设计选择。
数字 6:训练 V 和 M 各只要 < 1 小时(单 GPU)
- 怎么算的:随机数据集 10K 局,VAE 跑 1 epoch、MDN-RNN 跑 20 epoch。
- 生活语言:在 2018 年这是一台普通游戏卡的水准。整篇论文最大的价值之一是门槛极低,研究生用消费级机器都能复现——后来催生了大量后续工作。
所以这一节是想说:数据告诉我们,赢的关键不是模型大,是"概率梦境 + 高温随机性"这套配方。
你应该懂的几个新词
世界模型(World Model):agent 脑子里学到的"环境会怎么动"的预测器。给定当前状态和动作,预测下一状态。
强化学习(Reinforcement Learning, RL):agent 通过和环境交互、收奖励/惩罚来学策略。和监督学习区别:没有标签,只有"做对/做错"的稀疏反馈。
VAE(Variational Autoencoder):把图压成低维向量、又能解压回图的生成网络。压出来的向量空间分布平滑。
MDN-RNN(Mixture Density Network + RNN):循环网络 + 混合高斯输出。学的是"下一步状态的概率分布",而非确定值。
潜空间 / 潜变量(latent space / latent vector):高维输入被压缩到的低维空间。每张图、每个状态在那里都是一个点。
隐状态 h(hidden state):RNN 浓缩过去信息的向量。h 里其实编码了"对未来的预期"。
温度 τ(temperature):调节生成模型采样冒险程度的旋钮。高 = 多样性大,低 = 单一确定。
CMA-ES(进化策略):基于"撒一群参数→留高分→繁殖"的优化算法,不需要梯度。适合参数少、奖励稀疏的场景。
梦境 / 幻觉环境(dream / hallucinated environment):用 M 模块自己生成的虚拟环境,agent 在里面反复训练而不接触真实环境。
sim2real:在仿真环境训好的策略搬到真实环境上还能用。本论文的"梦 → 真"是其极端版本。
信用分配(credit assignment):奖励来自一长串动作的最后一步,到底是哪一步立了功?大模型很难分清,所以这篇把"决策器"做小。
catastrophic forgetting(灾难性遗忘):神经网络学新任务把旧任务忘光的毛病。论文 Discussion 里也提到 M 模型有这风险。
所以这一节是想说:上面这十几个词以后看任何 RL / 世界模型论文都会反复出现,先把它们和生活类比挂钩。
它有什么搞不定的
- VAE 不知道什么是"任务相关":VAE 是无监督训的,会认真还原 Doom 墙砖花纹,却没认真还原赛道路面(路面才是开车关键)。换新任务可能要重训。
- 梦境容量有限:LSTM 那 256~512 个隐藏单元装不下太复杂世界。游戏越复杂,梦越糊;论文承认未来要换更大模型(Transformer / 外置记忆)。
- 梦容易被钻空子:尽管用了概率 MDN,agent 偶尔还是会发现"在梦里这样动监怪就不放火球"——学到了梦里的 bug 而非真规律。τ 调高能缓解但不能根治。
所以这一节是想说:世界模型既要够准(不然不能迁移),又要够乱(不然被钻空子);这中间的平衡至今仍是难题。
它和别的论文是什么关系
- 直接续作:Dreamer V1 / V2(同位置就有 dreamer-v1.md / dreamer-v2.md)。Hafner 等人把 World Models 思路升级——把 VAE+MDN-RNN 换成更结构化的 RSSM,并把 C 改成可微分的 actor-critic,用反向传播直接穿过梦境训策略。可以理解成"World Models 的工业化升级版"。
- 方法学源头:Schmidhuber 1990s 系列。论文反复引用 Schmidhuber "On Learning to Think",本质是把那套"C-M 系统"用现代深度学习重新实现。
- 对照:Diffusion Policy / IBC(diffusion-policy.md / ibc.md)。Diffusion Policy 在动作空间建概率分布;World Models 在状态空间建概率分布。两者都拥抱"概率胜于确定"的思想。
- 对照:模仿学习路线(gail.md)。GAIL 不学世界模型,只学专家行为分布;World Models 不学专家,只学世界。两者代表 RL 学习的两条思路。
- 影响:具身 AI 全家。后来的 PaLM-E、Cosmos-Policy、OpenVLA 都受"先学一个世界 / 表征模型,再训控制"这条路线影响。Cosmos 把"梦境"从游戏放大到工业仿真级。
所以这一节是想说:World Models 是 2010 年代后期"梦境 + 世界模型"的奠基论文,后续 Dreamer / Cosmos 系列都是它的衍生品。
我建议这样读这篇
- 先看 Figure 4(V/M/C 三件套)和 Figure 8(数据流图)(5 分钟):脑子里先建立"眼睛-记忆-肌肉"的解剖图。
- 跳到第 4 章 VizDoom 实验(15 分钟):这是最有故事性的部分,"在梦里训完回到真环境"那一段读完会有顿悟。
- 回来读第 2 章方法(20 分钟):搞清 V/M/C 各自训什么、怎么训。重点弄懂"为什么 M 要输出概率分布"。
- 读第 4.5 节"Cheating the World Model"(10 分钟):这是这篇最有趣的工程教训——agent 怎么钻 BUG,怎么用温度 τ 反钻。
- 跳过附录 A.1-A.5 的具体网络结构(除非你要复现):知道 V 是 4 层卷积、M 是 LSTM+5 高斯混合就够了。
- 最后看第 7 章 Discussion(5 分钟):作者对未来的展望(包括迭代训练、可微梦境、外置记忆)后来全都被实现了。
读完这 6 步大约 50-70 分钟,能在和别人讨论 RL/世界模型时报出 World Models 的核心思路。
所以这一节是想说:精华全在 VizDoom 那段"梦境训练"的故事,方法部分反而是工程标准操作。
一些好奇心问答
Q1:为什么不直接在真游戏里训?
慢且贵。真 VizDoom 一秒只能跑几十帧,每帧要渲染 3D。M 模块的"梦境"只在 32 维向量空间运转,一秒能跑上千 step。再加上 CMA-ES 一代要评估 1000 多次 rollout,差距是几个数量级。
Q2:为什么决策器 C 故意做这么小?
CMA-ES(进化算法)只能搜几千以内的参数。把 C 做小,等于把"信用分配"问题缩到最小搜索空间——奖励一来,能马上分清是哪个参数立了功。复杂度全留给了 V+M(用反向传播无监督训,没有信用分配难题)。
Q3:MDN-RNN 为什么必须输出概率而不是单点?
如果是单点确定预测,agent 一定会找到"M 的 bug 区域"——某些状态下预测明显失真,agent 在那里能拿无限分但回真世界全错。概率分布 + 温度 τ 让这种 bug 区每次采样都不一样,agent 学到的策略被迫鲁棒。
Q4:为什么 τ=1.15 比 τ=1.0 在真环境表现更好?
直觉是"更乱的梦更接近真实"。τ=1.0 时梦境稍微平滑,agent 找到了一些"现实里不存在的便利";τ=1.15 让那些便利消失,逼 agent 学硬本事。τ=0.1 又走另一极端——梦完全确定,怪物根本不放火球,agent 学到的是 fantasy。
Q5:这模型能跑多大的环境?
论文里只跑了 CarRacing 和 VizDoom 两个相对简单的游戏。LSTM 隐藏状态只有 256/512 维,装不下《我的世界》或《GTA》那种规模。后续 Dreamer V2/V3 用 RSSM 把容量做大,并加了类别分布,才能扩展到 Atari 全集和复杂控制任务。
Q6:V、M、C 三块能一起端到端训吗?
理论上可以(论文脚注说过),但作者发现分开训更稳。一起训会让 V 朝"对 C 有利但还原图变差"的方向跑偏。Dreamer 系列后来用 actor-critic + 可微梦境实现了端到端,但那是更后面的工程。
Q7:CMA-ES 训完 C 要多久?
赛车任务约 1800 代,每代 64 个个体 × 每个 16 次 rollout。一台 64 核机器并行跑大约 1-2 天。比纯 deep RL(如 A3C 跑同任务的天数)省时间,因为奖励稀疏时进化算法更稳。
Q8:那这篇为什么算 founder 级?
因为它第一次干净地把"无监督学世界模型 + 在梦里 RL + 迁移回现实"这个 pipeline 跑通,并且开源代码 + 写了交互式网页版(worldmodels.github.io)。后来 Dreamer、MuZero、Cosmos 等等都是在它的骨架上扩。
所以这一节是想说:实操问题(多大、多久、为什么这么设计)作者基本都给了答案,门槛远比想象低。
如果你想再深入
按"前传 → 续作 → 衍生方向"排序:
- 前传:Schmidhuber "On Learning to Think" (2015) — 本论文反复引用,给了 C-M 系统的元理论。读完会发现这篇 2018 论文是 1990 年代思想的现代实现。
- 续作:Dreamer V1 (2020) — 用 RSSM 取代 VAE+MDN-RNN,并把 C 改成 actor-critic,用反向传播直接穿过梦境训策略。本仓库里有 dreamer-v1.md。
- 续作:Dreamer V2 (2021) / V3 (2023) — 把分布换成类别离散,扩展到 Atari 全集。本仓库 dreamer-v2.md。
- 衍生:MuZero (2019) — 不学解码图像、只学"未来奖励 / 价值"的隐式世界模型。在围棋 / Atari 都达到 SOTA。
- 衍生:Cosmos-Policy (2025) — 把 World Models 思路放大到工业仿真级,物理保真度高得多,本仓库 cosmos-policy.md。
所以这一节是想说:把 World Models + Dreamer V1 + Dreamer V2 这三篇连起来读,就能看到"在梦里学策略"这条路十年间的完整演化。
最后一个画面
VizDoom 实验里有这样一幕:agent 在自己梦里发现了一个 bug——只要它做某种特定动作组合,怪物 RNN 就再也不放火球。它在梦里满分通关。
但作者把这个钻空子的策略搬回真 VizDoom,agent 一秒就被火球烧死。
把温度 τ 从 1.0 调到 1.15 后,梦变得更乱了——那些 bug 在不同的随机种子下出现的位置不一样,agent 没法稳定钻空子,被迫学真本事。再把它搬回真世界,存活时间从几百步飙到 1092 步。
这一刻,"梦境训练"第一次被证明能产出真本事——而决定它是真本事还是钓鱼幻觉的,居然是一个叫"温度"的小旋钮。
所以最后一节是想说:World Models 不只跑通了梦境训练,还顺手发现了"概率与温度"这个让所有后续生成式世界模型都受用的关键设计。
◼
引用本笔记 / Cite this note
@online{eai_world_models_ha_2026,
title = {(readable note) World Models},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2018 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/world-models-ha/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim