World Model & Video Policy · Plate Nº 156

UniSim

7 min read · 2530 字 · ⭐⭐⭐⭐ · 短摘要

#diffusion #vision #world-model #VLM #sim2real

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

看过海量视频后，你给它一个动作（说一句话 / 推一下机械臂 / 挪一下镜头），它就生成接下来世界长什么样的视频——像一台会脑补现实的"游戏机"。

这是个什么场景

你伸手去拿桌上的杯子前，脑子里其实已经"预演"过一遍：手伸过去 → 指头碰到杯壁 → 杯子被拿起来。如果中途感觉"不对，会撞到旁边的水壶"，你会临时改路线。这个在脑子里放小电影、不用真做就能预见后果的能力，就是 UniSim 想给机器人装上的本事。

更具体一点：给它一张当前画面 + 一个动作（比如"机械臂往左移 10cm"、"打开抽屉"、或者一句话"把苹果放进碗里"），它播一段视频告诉你"做完之后世界长什么样"。麻烦的地方是教材太杂——人类做饭的第一视角视频、机械臂抓东西的演示、汽车开在路上的录像，每种数据写"动作"的格式都不一样。UniSim 要把这一锅杂烩塞进同一个模型，让它学出一个通用的"现实世界引擎"。

之前的人怎么做的 — 3-5 bullet

专用仿真器：MuJoCo、Isaac Sim、CARLA 这类物理引擎，靠人工建模 3D 资产 + 物理参数。逼真但场景有限，搬到真实世界有 sim-to-real gap。
基于像素的 world model（早期）：World Models（Ha & Schmidhuber 2018）、Dreamer 系列在低维任务（雅达利游戏、DM Control）上学一个"环境压缩 + 预测"的模型，但分辨率低、场景单一。
Video prediction 模型：FitVid、MCVD 等学过条件视频生成，但条件信号通常只能是"过去几帧"，没法接收语言/动作这种异构控制信号。
大规模视频生成模型：Phenaki、Imagen Video 能从文本生成长视频，但是"放电影"模式——你没法在中途插一个动作改变剧情。
特定领域 world model：GAIA-1（自动驾驶）、UniPi（决策即视频生成）已经在试"动作条件的视频生成"，UniSim 把这条路推到通用尺度。

这篇论文的关键想法

过去的仿真器像"乐高积木"——你得手工搭好每块物理规则，搭得辛苦又不像真世界。UniSim 换了个思路：不搭，直接让模型从海量真实视频里自己看会"世界怎么动"。

技术上，把"仿真器"重新定义成一个条件视频扩散模型（conditional video diffusion model）：输入 = 当前观测（一张图或一小段视频）+ 一个动作（可以是文字、机械臂控制信号、相机位姿等不同格式），输出 = 接下来的视频帧。

关键工程哲学是数据统一：不管样本来自机器人演示、人类第一视角视频、还是网络视频，都把"动作"翻译成同一种条件嵌入（conditioning embedding，把动作打包成模型能认的一串数字）灌进同一个接口。这样不同来源的数据能互相补——网络视频教模型"水会流"这种常识，机械臂数据教模型"夹爪闭合就能抓起东西"这种因果。

仿真器训好后，下游应用直接接上来：让策略在里面 rollout（反复"试跑"）、给视觉语言模型造反事实训练数据、把它当强化学习里"真实世界的廉价副本"。

它怎么做的（方法）— 3-4 段

统一接口的扩散模型。像翻译公司只配一个总接待，谁来都得先翻译成英语再进会议室。UniSim 的"总接待"是骨架的视频扩散模型（架构类似 Imagen Video / Stable Video Diffusion）。文本指令用 T5/CLIP 编码、机械臂关节角和末端位姿走 MLP 投影、相机外参（自动驾驶/导航的位姿变化）也照样接进来——最后所有条件都统一成一串 token，丢进 cross-attention（交叉注意力，让生成过程"看见"这些条件）。

等等，先慢一拍——这里面的"扩散模型"是什么？简单说就是先教模型怎么把一张清晰图慢慢加噪点变成雪花屏，再反过来训它从雪花屏一步步去噪还原图像。生成时从随机雪花出发，模型逐步擦干净就拿到新图。

多源数据混训。像一个学生同时翻三本不同教材：机器人操作数据（Bridge、RT-1 系列）、人类第一视角视频（Ego4D 之类）、模拟器数据，可能还有网络视频。每条样本带一个"我来自哪本教材"的标签，让模型知道这次的动作信号是哪种格式。具体配比和数据集列表需读原文。

长程一致性。像接力跑——单步预测的视频模型滚两步就画面崩坏。UniSim 用 autoregressive（自回归，把上一轮输出当下一轮输入）的接力法，分块滚动生成长视频，这样能模拟"机械臂连续做几个动作"的多步交互。

下游应用接入。仿真器训好不能只是好看，得能干活。论文给了几条路：(a) 当离线强化学习的 simulator，让策略在仿真轨迹上学；(b) 用它生成的反事实视频去训 VLM（视觉语言模型）做长任务规划；(c) sim-to-real 闭环——在 UniSim 里训完的策略直接放真实机器人上跑。

实验在做什么

主要从三类问题验证："仿真够不够真"、"仿真器能不能教出真策略"、"仿真器能不能让 VLM 学到东西"。

视频生成质量上比对了 FVD（Fréchet Video Distance，衡量生成视频和真实视频分布的距离）等指标，对照组包括传统 video prediction 模型和不做多源融合的消融版本。具体数字需读原文。

机器人策略实验里，论文展示了在 UniSim 里训出的策略迁移到真实机器人上的成功率，验证 sim-to-real gap 是不是被缩小了。VLM 训练实验里，用 UniSim 生成的"看不见的反事实"去微调 VLM，看 long-horizon 任务规划准确率有没有涨。

你应该懂的几个新词 — 4-6 个

World model（世界模型）：能根据当前状态 + 动作预测下一个状态的内部模型。你下棋时脑子里"如果我走这步，对手会走那步"的推演，就是一个世界模型。
Diffusion model（扩散模型）：一类生成模型，先把数据加噪到纯噪声，再训一个网络学习"逆向去噪"，生成时从随机噪声出发逐步去噪还原图像。
Action-conditioned video generation（动作条件视频生成）：和无条件视频生成区别在于——你不仅给模型一段过去的视频，还给一个"动作"信号告诉它接下来发生什么。
Sim-to-real gap：在仿真器里训得很好的策略，到真实世界就翻车的现象。原因通常是仿真器的物理/视觉/动力学和现实有偏差。
Cross-attention conditioning：把外部条件（文本、动作向量等）作为 key/value 接到生成模型的注意力层里，让生成过程"看见"这些条件。
Autoregressive rollout：让模型一步步往前预测——把上一轮的输出作为下一轮的输入，循环生成长序列。

它和其他论文什么关系

上游：继承 Imagen Video / Stable Video Diffusion 的视频扩散架构、Ha & Schmidhuber 的 world model 思想、UniPi（视频生成即决策）的"用生成模型当 simulator"的范式。
同代：和 GAIA-1（自动驾驶 world model）、Genie（DeepMind 2024，可玩的潜在动作 world model）、1X World Model 等共同探索"用生成模型做交互式仿真器"。GAIA-1 限定自动驾驶域，Genie 学潜在动作不依赖标注，UniSim 主打多源真实数据 + 多种显式动作格式。
下游：之后的 RT-2-X、Open X-Embodiment 都在大规模真实机器人数据上做类似的统一化工作，UniSim 在"用视频做仿真器"这条线上是关键节点。
对照：和 RoboCat / RT-1 这种"直接学 policy"的路线不同，UniSim 是先学环境再用环境训 policy 的两步走。

我建议这样读 — 3-4 步

先看 demo 视频。这种工作的精髓是"看起来真不真"，文字描述完全传达不出。去项目主页看几段 rollout 视频，对它的能力有直觉。
读 intro + method 第一节。重点抓"统一接口怎么设计"——不同数据源的动作怎么变成同一种条件 token，这是整个工作能 scale 的关键。
跳到下游应用章节。看它用 UniSim 训出的 policy 在真实机器人上的成功率，这才是判断"仿真到底好不好用"的硬标准。
回头补技术细节（可选）。如果你打算自己复现或者改一个领域版本，再回去看具体的扩散架构、数据配比、训练细节。

为什么值得读

UniSim 是"用大模型把现实世界压缩成可交互仿真器"这条路线的代表作。如果你关心 embodied AI、世界模型、或者 sim-to-real，它定义了 2024 年这个方向的基本框架——条件视频扩散 + 多源真实数据混训。即使后续工作（Genie、各种 robot world model）在某些维度做得更好，UniSim 提出的"用同一个模型吃下异构动作格式"的设计哲学仍是基线。

对零基础学习者来说，读它的最大收获不是技术细节，而是理解"为什么把仿真器做成生成模型而不是物理引擎"——这背后是一个范式选择：与其手工建模物理规则，不如让模型从海量视频里自己学规律。这种思路也会延伸到机器人之外的领域（比如分子模拟、流体仿真）。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_unisim_2026,
  title       = {(readable note) UniSim},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/unisim/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)