回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
World Model & Video Policy · Plate Nº 151

1X World Model Challenge

7 min read · 2600 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

1X 教人形机器人 Neo "脑补下一秒画面":拿现成视频 AI 当底子,喂自家机器人录像微调,再做成公开赛让大家来卷。

这是个什么场景

你打台球,瞄准前那一瞬间,脑子里其实闪过一段"小电影":母球撞过去 → 红球往左口袋滚 → 母球反弹回来。手还没出杆,画面已经在你脑子里放完了。

这种"动手前先脑补未来一秒画面"的能力,就是这篇论文想给机器人装上的东西,学名叫世界模型(world model)。区别是——

  • 你能脑补,是因为大脑里塞满了对物理世界的常识:球会滚、墙会反弹、手不会穿过桌子。
  • 机器人没这种常识。过去的笨办法是:要么搭个仿真器(simulator),一行代码一行代码写"重力是 9.8、摩擦系数是 0.3";要么干脆扔进真实世界用**强化学习(RL,让机器人通过试错拿奖励学动作)**撞几百万次,撞坏一堆零件再说。

1X 选了第三条路——。先借一个已经看过海量人类视频的 AI(Wan-2.2,相当于在 YouTube 上"长大"的视频生成模型),它脑子里已经有"杯子会被手抓住、液体会洒、门会开合"的常识;再让它去自家机器人 Neo 的工作现场"实习"几个月,把通用常识调教成"Neo 第一视角下的物理感"。

1X World Model Challenge — 场景示意:这论文要解决的现实问题
Plate Nº I1X World Model Challenge — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • Dreamer 系列(V1/V2/V3):用 RNN/Transformer 在低维 latent 空间预测未来,配合 RL 学控制。优点是闭环训练快,缺点是 latent 不是像素,人无法直观验证模型"想得对不对"
  • PaLM-E / RT-2 等 VLA:直接训"看图 + 指令 → 动作",跳过显式世界模型;缺点是机器人无法"想象未替代的未来",没有规划能力。
  • NVIDIA Cosmos / GAIA / DriveDreamer 等驾驶世界模型:在自动驾驶域已经做了类似事,证明"视频基模 + 领域微调"可行;但人形机器人室内操作场景远比驾驶分布复杂(手部精细动作、物体交互、室内光照)。
  • 学界世界模型(如 Genie、SORA-style):训练成本极高,且没有机器人本体动作信号配对,只能"看视频生视频",不能"给动作生未来"。

1X 这次的位置:把驾驶域已经验证过的"视频基模 + 域微调"路径,搬到人形机器人上,并配上动作条件(action-conditioned)输入

这篇论文的关键想法

三个判断叠在一起:

  1. 基础模型时代,世界模型不必从零训。Wan-2.2 这种几十亿参数的视频生成模型,已经把"物体不会穿墙、光照连续、手有五指"这些常识塞进权重里了。重新训太贵也没必要。
  2. 机器人世界模型的稀缺资源是"动作-视频"配对数据,不是视频本身。1X 自己有 Neo 在工厂、家庭场景的大量真实操作录像,每一帧都对应着关节命令——这是别人买不到的。
  3. 公开 challenge 比内部刷点更能推进领域。把数据、评测协议、基线模型一起放出来,让外部团队来卷,能在一年内把指标刷出比内部研究快得多的进展曲线。

合起来:做一个"动作条件 + 视频基模微调"的人形机器人世界模型,并把它做成公开赛

1X World Model Challenge — 方法示意:核心 pipeline
Plate Nº II1X World Model Challenge — 方法示意:核心 pipeline

它怎么做的(方法)

底座选型——挑一台能用的二手发动机。要造车,自己从零冶炼钢铁太贵;不如找一台靠谱的二手发动机改一改。1X 挑中的"发动机"是 Wan-2.2(阿里通义万相系列的视频生成模型),属于 DiT(Diffusion Transformer,用 Transformer 当扩散模型骨干的架构) 家族,原生支持文本生视频、首帧生视频。选它的好处:开源、参数规模适中(不用千卡也能微调)、对真人手部和室内场景的画面质量过关。具体参数版本需读原文确认。

动作条件接入——给电视遥控器加个新按钮。原版 Wan-2.2 接受的"指令"只有两种:一段文字、一张首帧图。但机器人需要的是"我现在抬手 30 度,下一秒画面会怎样"——也就是把动作也当成指令喂进去。

等等,先慢一拍——"动作条件"是什么? 简单说:把机器人 26 个关节的角度、两只夹爪的开合状态,每一时刻打成一串数字(向量)。这串数字就是"我下一步要做什么"的指令。

技术上是用一个小神经网络(encoder)把这串数字翻译成 AI 听得懂的 "token",然后塞进 Wan-2.2 原本接收文字的那个口子里。具体塞法(哪几层、是不是用 ControlNet)需读原文。

微调数据与策略——抄作业要抄对人的。基模在公网视频上"自学"过了,但 YouTube 视频里没有"Neo 的手长这样、Neo 的关节怎么动"。1X 拿 Neo 在工厂、家庭场景采集的"第一/三人称视频 + 同步动作"配对数据,做监督微调(supervised fine-tuning,给标准答案让模型对照学)。预训练阶段模型学的是"任何视频的下一帧大概长啥样",微调阶段收紧到"给定 Neo 这一串动作,下一帧应该长啥样"。可能用了 LoRA、动作 dropout 之类的省钱技巧——具体哪种需读原文。

Challenge 协议——办一场公开擂台赛。光自己练没意思,1X 顺手把这事做成擂台:放出训练数据、留一份测试集自己藏着、规定评分指标(像素相似度、动作可控性、长视频前后一致性等)、挂个榜单。外部团队交模型上来,1X 在自己的机器上跑分排名。具体指标定义需读原文。

实验在做什么

按公开资料,实验大概在三个层面验证:

  1. 像素级预测质量:给定一段开头帧 + 未来动作序列,模型要预测后续 N 秒视频。比对真实视频用 PSNR/SSIM/FVD 等。这是基础项,验证"长得像不像"。
  2. 物理一致性:检查生成视频里有没有"穿模、物体凭空消失、手指数变化"等违反物理常识的情况。这是世界模型最难的部分,常用人工评分 + 自动检测器组合。
  3. 动作可控性:给同一开头帧,喂不同动作,模型生成的视频应当真的随动作变化——而不是无视动作产生默认行为。验证方式可能是设计配对动作(左转 vs 右转)看输出差异。

具体数字(PSNR 多少、刷到第几名、训练用了多少卡多少天)需读原文。

你应该懂的几个新词 — 4-6 个

  • 世界模型(world model):能根据当前状态 + 动作预测未来状态/观测的模型。可以是 latent 也可以是像素。1X 这个是像素级的。
  • 视频基础模型(video foundation model):在大规模通用视频上预训练的大模型,如 Sora、Wan-2.2、Cosmos。它们学到的是"视频是什么样"的通用先验。
  • 动作条件生成(action-conditioned generation):生成模型的条件输入除了文本/图像,还包括动作序列。让"想象的未来"由动作而不是文字决定。
  • DiT(Diffusion Transformer):用 Transformer 替换 U-Net 当扩散模型骨干的架构。Sora、Wan、Cosmos 都属于这一家。
  • LoRA(Low-Rank Adaptation):大模型微调技术,只训练插入的低秩矩阵,省显存。视频基模微调常用。
  • FVD(Fréchet Video Distance):评测生成视频质量的常用指标,类似 FID 但用于视频。

它和其他论文什么关系

  • 上游:Wan-2.2(底座)、DiT(架构家族)、Cosmos / GAIA(驾驶域同思路前作)、Sora(视觉先验类比)。
  • 平行:Genie、UniSim、DriveDreamer——都是"用大视频模型做世界模拟器"路线,但场景/数据不同。
  • 下游:当世界模型可用,下一步就是把它当 simulator 用——在里面 rollout 训 RL 策略、做 model-based planning(如 Dreamer 路线),或者拿来做数据增强(生成 imagined trajectories 喂 imitation learning)。
  • 对比路线:纯 VLA(pi0、OpenVLA、RT-2)跳过显式世界模型,端到端训"看图 + 指令 → 动作"。1X 这条路线是另一种押注:先建好"想象力",再在其上学控制

谁会赢,目前业界没有定论。

我建议这样读 — 3-4 步

  1. 先看 1X 的官方博客和 challenge 主页,理解动机、数据、评测协议。比直接读 arXiv 摘要信息密度高。
  2. 回去读 Wan-2.2 技术报告,特别是条件注入机制、训练 recipe。这是底座,不懂底座读不懂微调改了什么。
  3. 再看 NVIDIA Cosmos 或 GAIA-1 论文一篇,建立"视频基模做世界模型"这条路线的对照——你会发现 1X 的工作主要是"在新域上重做一遍",方法论不一定原创,但工程贡献和数据贡献很大。
  4. 最后回到 1X 论文(如果发出来全文),重点读:动作条件接入方式、微调数据规模、评测指标、定量结果。前面的铺垫读完,这部分会很快。

为什么值得读

  • 行业信号:2025 年是人形机器人公司大规模发声的一年,1X、Figure、Tesla 都在押注,1X 这一篇是其中少数把工作开源 + 公开评测的。读它能感受到"公司怎么用研究发声"的形态。
  • 路线代表性:它是"VLA vs 世界模型 + 规划"这条分叉里世界模型一侧的标杆之一。即使你最后选 VLA 路线,也需要知道对面在做什么。
  • 工程实用:如果你要做 video-conditioned 任务,这篇论文(特别是它怎么把动作条件接进去、怎么微调)会是非常具体的参考。
  • Challenge 本身:可以下载数据自己玩。对零基础学习者来说,有公开数据 + 公开榜单的赛题比纯论文友好得多——你能直接跑起来,看 loss 下降,比读 10 遍摘要都有用。

引用本笔记 / Cite this note
BibTeX
@online{eai_1x_world_model_2025_2026,
  title       = {(readable note) 1X World Model Challenge},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/1x-world-model-2025/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim