UniSim
本笔记基于摘要 + 公开资料,未读全文。
一句话讲什么(TL;DR)
看过海量视频后,你给它一个动作(说一句话 / 推一下机械臂 / 挪一下镜头),它就生成接下来世界长什么样的视频——像一台会脑补现实的"游戏机"。
这是个什么场景
你伸手去拿桌上的杯子前,脑子里其实已经"预演"过一遍:手伸过去 → 指头碰到杯壁 → 杯子被拿起来。如果中途感觉"不对,会撞到旁边的水壶",你会临时改路线。这个在脑子里放小电影、不用真做就能预见后果的能力,就是 UniSim 想给机器人装上的本事。
更具体一点:给它一张当前画面 + 一个动作(比如"机械臂往左移 10cm"、"打开抽屉"、或者一句话"把苹果放进碗里"),它播一段视频告诉你"做完之后世界长什么样"。麻烦的地方是教材太杂——人类做饭的第一视角视频、机械臂抓东西的演示、汽车开在路上的录像,每种数据写"动作"的格式都不一样。UniSim 要把这一锅杂烩塞进同一个模型,让它学出一个通用的"现实世界引擎"。

之前的人怎么做的 — 3-5 bullet
- 专用仿真器:MuJoCo、Isaac Sim、CARLA 这类物理引擎,靠人工建模 3D 资产 + 物理参数。逼真但场景有限,搬到真实世界有 sim-to-real gap。
- 基于像素的 world model(早期):World Models(Ha & Schmidhuber 2018)、Dreamer 系列在低维任务(雅达利游戏、DM Control)上学一个"环境压缩 + 预测"的模型,但分辨率低、场景单一。
- Video prediction 模型:FitVid、MCVD 等学过条件视频生成,但条件信号通常只能是"过去几帧",没法接收语言/动作这种异构控制信号。
- 大规模视频生成模型:Phenaki、Imagen Video 能从文本生成长视频,但是"放电影"模式——你没法在中途插一个动作改变剧情。
- 特定领域 world model:GAIA-1(自动驾驶)、UniPi(决策即视频生成)已经在试"动作条件的视频生成",UniSim 把这条路推到通用尺度。
这篇论文的关键想法
过去的仿真器像"乐高积木"——你得手工搭好每块物理规则,搭得辛苦又不像真世界。UniSim 换了个思路:不搭,直接让模型从海量真实视频里自己看会"世界怎么动"。
技术上,把"仿真器"重新定义成一个条件视频扩散模型(conditional video diffusion model):输入 = 当前观测(一张图或一小段视频)+ 一个动作(可以是文字、机械臂控制信号、相机位姿等不同格式),输出 = 接下来的视频帧。
关键工程哲学是数据统一:不管样本来自机器人演示、人类第一视角视频、还是网络视频,都把"动作"翻译成同一种条件嵌入(conditioning embedding,把动作打包成模型能认的一串数字)灌进同一个接口。这样不同来源的数据能互相补——网络视频教模型"水会流"这种常识,机械臂数据教模型"夹爪闭合就能抓起东西"这种因果。
仿真器训好后,下游应用直接接上来:让策略在里面 rollout(反复"试跑")、给视觉语言模型造反事实训练数据、把它当强化学习里"真实世界的廉价副本"。

它怎么做的(方法)— 3-4 段
统一接口的扩散模型。像翻译公司只配一个总接待,谁来都得先翻译成英语再进会议室。UniSim 的"总接待"是骨架的视频扩散模型(架构类似 Imagen Video / Stable Video Diffusion)。文本指令用 T5/CLIP 编码、机械臂关节角和末端位姿走 MLP 投影、相机外参(自动驾驶/导航的位姿变化)也照样接进来——最后所有条件都统一成一串 token,丢进 cross-attention(交叉注意力,让生成过程"看见"这些条件)。
等等,先慢一拍——这里面的"扩散模型"是什么?简单说就是先教模型怎么把一张清晰图慢慢加噪点变成雪花屏,再反过来训它从雪花屏一步步去噪还原图像。生成时从随机雪花出发,模型逐步擦干净就拿到新图。
多源数据混训。像一个学生同时翻三本不同教材:机器人操作数据(Bridge、RT-1 系列)、人类第一视角视频(Ego4D 之类)、模拟器数据,可能还有网络视频。每条样本带一个"我来自哪本教材"的标签,让模型知道这次的动作信号是哪种格式。具体配比和数据集列表需读原文。
长程一致性。像接力跑——单步预测的视频模型滚两步就画面崩坏。UniSim 用 autoregressive(自回归,把上一轮输出当下一轮输入)的接力法,分块滚动生成长视频,这样能模拟"机械臂连续做几个动作"的多步交互。
下游应用接入。仿真器训好不能只是好看,得能干活。论文给了几条路:(a) 当离线强化学习的 simulator,让策略在仿真轨迹上学;(b) 用它生成的反事实视频去训 VLM(视觉语言模型)做长任务规划;(c) sim-to-real 闭环——在 UniSim 里训完的策略直接放真实机器人上跑。
实验在做什么
主要从三类问题验证:"仿真够不够真"、"仿真器能不能教出真策略"、"仿真器能不能让 VLM 学到东西"。
视频生成质量上比对了 FVD(Fréchet Video Distance,衡量生成视频和真实视频分布的距离)等指标,对照组包括传统 video prediction 模型和不做多源融合的消融版本。具体数字需读原文。
机器人策略实验里,论文展示了在 UniSim 里训出的策略迁移到真实机器人上的成功率,验证 sim-to-real gap 是不是被缩小了。VLM 训练实验里,用 UniSim 生成的"看不见的反事实"去微调 VLM,看 long-horizon 任务规划准确率有没有涨。
你应该懂的几个新词 — 4-6 个
- World model(世界模型):能根据当前状态 + 动作预测下一个状态的内部模型。你下棋时脑子里"如果我走这步,对手会走那步"的推演,就是一个世界模型。
- Diffusion model(扩散模型):一类生成模型,先把数据加噪到纯噪声,再训一个网络学习"逆向去噪",生成时从随机噪声出发逐步去噪还原图像。
- Action-conditioned video generation(动作条件视频生成):和无条件视频生成区别在于——你不仅给模型一段过去的视频,还给一个"动作"信号告诉它接下来发生什么。
- Sim-to-real gap:在仿真器里训得很好的策略,到真实世界就翻车的现象。原因通常是仿真器的物理/视觉/动力学和现实有偏差。
- Cross-attention conditioning:把外部条件(文本、动作向量等)作为 key/value 接到生成模型的注意力层里,让生成过程"看见"这些条件。
- Autoregressive rollout:让模型一步步往前预测——把上一轮的输出作为下一轮的输入,循环生成长序列。
它和其他论文什么关系
- 上游:继承 Imagen Video / Stable Video Diffusion 的视频扩散架构、Ha & Schmidhuber 的 world model 思想、UniPi(视频生成即决策)的"用生成模型当 simulator"的范式。
- 同代:和 GAIA-1(自动驾驶 world model)、Genie(DeepMind 2024,可玩的潜在动作 world model)、1X World Model 等共同探索"用生成模型做交互式仿真器"。GAIA-1 限定自动驾驶域,Genie 学潜在动作不依赖标注,UniSim 主打多源真实数据 + 多种显式动作格式。
- 下游:之后的 RT-2-X、Open X-Embodiment 都在大规模真实机器人数据上做类似的统一化工作,UniSim 在"用视频做仿真器"这条线上是关键节点。
- 对照:和 RoboCat / RT-1 这种"直接学 policy"的路线不同,UniSim 是先学环境再用环境训 policy 的两步走。
我建议这样读 — 3-4 步
- 先看 demo 视频。这种工作的精髓是"看起来真不真",文字描述完全传达不出。去项目主页看几段 rollout 视频,对它的能力有直觉。
- 读 intro + method 第一节。重点抓"统一接口怎么设计"——不同数据源的动作怎么变成同一种条件 token,这是整个工作能 scale 的关键。
- 跳到下游应用章节。看它用 UniSim 训出的 policy 在真实机器人上的成功率,这才是判断"仿真到底好不好用"的硬标准。
- 回头补技术细节(可选)。如果你打算自己复现或者改一个领域版本,再回去看具体的扩散架构、数据配比、训练细节。
为什么值得读
UniSim 是"用大模型把现实世界压缩成可交互仿真器"这条路线的代表作。如果你关心 embodied AI、世界模型、或者 sim-to-real,它定义了 2024 年这个方向的基本框架——条件视频扩散 + 多源真实数据混训。即使后续工作(Genie、各种 robot world model)在某些维度做得更好,UniSim 提出的"用同一个模型吃下异构动作格式"的设计哲学仍是基线。
对零基础学习者来说,读它的最大收获不是技术细节,而是理解"为什么把仿真器做成生成模型而不是物理引擎"——这背后是一个范式选择:与其手工建模物理规则,不如让模型从海量视频里自己学规律。这种思路也会延伸到机器人之外的领域(比如分子模拟、流体仿真)。
◼
引用本笔记 / Cite this note
@online{eai_unisim_2026,
title = {(readable note) UniSim},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2024 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/unisim/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim