回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
World Model & Video Policy · Plate Nº 156

UniSim

7 min read · 2530 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

看过海量视频后,你给它一个动作(说一句话 / 推一下机械臂 / 挪一下镜头),它就生成接下来世界长什么样的视频——像一台会脑补现实的"游戏机"。

这是个什么场景

你伸手去拿桌上的杯子前,脑子里其实已经"预演"过一遍:手伸过去 → 指头碰到杯壁 → 杯子被拿起来。如果中途感觉"不对,会撞到旁边的水壶",你会临时改路线。这个在脑子里放小电影、不用真做就能预见后果的能力,就是 UniSim 想给机器人装上的本事。

更具体一点:给它一张当前画面 + 一个动作(比如"机械臂往左移 10cm"、"打开抽屉"、或者一句话"把苹果放进碗里"),它播一段视频告诉你"做完之后世界长什么样"。麻烦的地方是教材太杂——人类做饭的第一视角视频、机械臂抓东西的演示、汽车开在路上的录像,每种数据写"动作"的格式都不一样。UniSim 要把这一锅杂烩塞进同一个模型,让它学出一个通用的"现实世界引擎"。

UniSim — 场景示意:这论文要解决的现实问题
Plate Nº IUniSim — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 专用仿真器:MuJoCo、Isaac Sim、CARLA 这类物理引擎,靠人工建模 3D 资产 + 物理参数。逼真但场景有限,搬到真实世界有 sim-to-real gap。
  • 基于像素的 world model(早期):World Models(Ha & Schmidhuber 2018)、Dreamer 系列在低维任务(雅达利游戏、DM Control)上学一个"环境压缩 + 预测"的模型,但分辨率低、场景单一。
  • Video prediction 模型:FitVid、MCVD 等学过条件视频生成,但条件信号通常只能是"过去几帧",没法接收语言/动作这种异构控制信号。
  • 大规模视频生成模型:Phenaki、Imagen Video 能从文本生成长视频,但是"放电影"模式——你没法在中途插一个动作改变剧情。
  • 特定领域 world model:GAIA-1(自动驾驶)、UniPi(决策即视频生成)已经在试"动作条件的视频生成",UniSim 把这条路推到通用尺度。

这篇论文的关键想法

过去的仿真器像"乐高积木"——你得手工搭好每块物理规则,搭得辛苦又不像真世界。UniSim 换了个思路:不搭,直接让模型从海量真实视频里自己看会"世界怎么动"。

技术上,把"仿真器"重新定义成一个条件视频扩散模型(conditional video diffusion model):输入 = 当前观测(一张图或一小段视频)+ 一个动作(可以是文字、机械臂控制信号、相机位姿等不同格式),输出 = 接下来的视频帧。

关键工程哲学是数据统一:不管样本来自机器人演示、人类第一视角视频、还是网络视频,都把"动作"翻译成同一种条件嵌入(conditioning embedding,把动作打包成模型能认的一串数字)灌进同一个接口。这样不同来源的数据能互相补——网络视频教模型"水会流"这种常识,机械臂数据教模型"夹爪闭合就能抓起东西"这种因果。

仿真器训好后,下游应用直接接上来:让策略在里面 rollout(反复"试跑")、给视觉语言模型造反事实训练数据、把它当强化学习里"真实世界的廉价副本"。

UniSim — 方法示意:核心 pipeline
Plate Nº IIUniSim — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

统一接口的扩散模型。像翻译公司只配一个总接待,谁来都得先翻译成英语再进会议室。UniSim 的"总接待"是骨架的视频扩散模型(架构类似 Imagen Video / Stable Video Diffusion)。文本指令用 T5/CLIP 编码、机械臂关节角和末端位姿走 MLP 投影、相机外参(自动驾驶/导航的位姿变化)也照样接进来——最后所有条件都统一成一串 token,丢进 cross-attention(交叉注意力,让生成过程"看见"这些条件)。

等等,先慢一拍——这里面的"扩散模型"是什么?简单说就是先教模型怎么把一张清晰图慢慢加噪点变成雪花屏,再反过来训它从雪花屏一步步去噪还原图像。生成时从随机雪花出发,模型逐步擦干净就拿到新图。

多源数据混训。像一个学生同时翻三本不同教材:机器人操作数据(Bridge、RT-1 系列)、人类第一视角视频(Ego4D 之类)、模拟器数据,可能还有网络视频。每条样本带一个"我来自哪本教材"的标签,让模型知道这次的动作信号是哪种格式。具体配比和数据集列表需读原文。

长程一致性。像接力跑——单步预测的视频模型滚两步就画面崩坏。UniSim 用 autoregressive(自回归,把上一轮输出当下一轮输入)的接力法,分块滚动生成长视频,这样能模拟"机械臂连续做几个动作"的多步交互。

下游应用接入。仿真器训好不能只是好看,得能干活。论文给了几条路:(a) 当离线强化学习的 simulator,让策略在仿真轨迹上学;(b) 用它生成的反事实视频去训 VLM(视觉语言模型)做长任务规划;(c) sim-to-real 闭环——在 UniSim 里训完的策略直接放真实机器人上跑。

实验在做什么

主要从三类问题验证:"仿真够不够真"、"仿真器能不能教出真策略"、"仿真器能不能让 VLM 学到东西"。

视频生成质量上比对了 FVD(Fréchet Video Distance,衡量生成视频和真实视频分布的距离)等指标,对照组包括传统 video prediction 模型和不做多源融合的消融版本。具体数字需读原文。

机器人策略实验里,论文展示了在 UniSim 里训出的策略迁移到真实机器人上的成功率,验证 sim-to-real gap 是不是被缩小了。VLM 训练实验里,用 UniSim 生成的"看不见的反事实"去微调 VLM,看 long-horizon 任务规划准确率有没有涨。

你应该懂的几个新词 — 4-6 个

  • World model(世界模型):能根据当前状态 + 动作预测下一个状态的内部模型。你下棋时脑子里"如果我走这步,对手会走那步"的推演,就是一个世界模型。
  • Diffusion model(扩散模型):一类生成模型,先把数据加噪到纯噪声,再训一个网络学习"逆向去噪",生成时从随机噪声出发逐步去噪还原图像。
  • Action-conditioned video generation(动作条件视频生成):和无条件视频生成区别在于——你不仅给模型一段过去的视频,还给一个"动作"信号告诉它接下来发生什么。
  • Sim-to-real gap:在仿真器里训得很好的策略,到真实世界就翻车的现象。原因通常是仿真器的物理/视觉/动力学和现实有偏差。
  • Cross-attention conditioning:把外部条件(文本、动作向量等)作为 key/value 接到生成模型的注意力层里,让生成过程"看见"这些条件。
  • Autoregressive rollout:让模型一步步往前预测——把上一轮的输出作为下一轮的输入,循环生成长序列。

它和其他论文什么关系

  • 上游:继承 Imagen Video / Stable Video Diffusion 的视频扩散架构、Ha & Schmidhuber 的 world model 思想、UniPi(视频生成即决策)的"用生成模型当 simulator"的范式。
  • 同代:和 GAIA-1(自动驾驶 world model)、Genie(DeepMind 2024,可玩的潜在动作 world model)、1X World Model 等共同探索"用生成模型做交互式仿真器"。GAIA-1 限定自动驾驶域,Genie 学潜在动作不依赖标注,UniSim 主打多源真实数据 + 多种显式动作格式。
  • 下游:之后的 RT-2-X、Open X-Embodiment 都在大规模真实机器人数据上做类似的统一化工作,UniSim 在"用视频做仿真器"这条线上是关键节点。
  • 对照:和 RoboCat / RT-1 这种"直接学 policy"的路线不同,UniSim 是先学环境再用环境训 policy 的两步走。

我建议这样读 — 3-4 步

  1. 先看 demo 视频。这种工作的精髓是"看起来真不真",文字描述完全传达不出。去项目主页看几段 rollout 视频,对它的能力有直觉。
  2. 读 intro + method 第一节。重点抓"统一接口怎么设计"——不同数据源的动作怎么变成同一种条件 token,这是整个工作能 scale 的关键。
  3. 跳到下游应用章节。看它用 UniSim 训出的 policy 在真实机器人上的成功率,这才是判断"仿真到底好不好用"的硬标准。
  4. 回头补技术细节(可选)。如果你打算自己复现或者改一个领域版本,再回去看具体的扩散架构、数据配比、训练细节。

为什么值得读

UniSim 是"用大模型把现实世界压缩成可交互仿真器"这条路线的代表作。如果你关心 embodied AI、世界模型、或者 sim-to-real,它定义了 2024 年这个方向的基本框架——条件视频扩散 + 多源真实数据混训。即使后续工作(Genie、各种 robot world model)在某些维度做得更好,UniSim 提出的"用同一个模型吃下异构动作格式"的设计哲学仍是基线。

对零基础学习者来说,读它的最大收获不是技术细节,而是理解"为什么把仿真器做成生成模型而不是物理引擎"——这背后是一个范式选择:与其手工建模物理规则,不如让模型从海量视频里自己学规律。这种思路也会延伸到机器人之外的领域(比如分子模拟、流体仿真)。

引用本笔记 / Cite this note
BibTeX
@online{eai_unisim_2026,
  title       = {(readable note) UniSim},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/unisim/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim