World Model & Video Policy · Plate Nº 151

1X World Model Challenge

7 min read · 2600 字 · ⭐⭐⭐ · 短摘要

#diffusion #transformer #language #RL #imitation #world-model

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

1X 教人形机器人 Neo "脑补下一秒画面"：拿现成视频 AI 当底子，喂自家机器人录像微调，再做成公开赛让大家来卷。

这是个什么场景

你打台球，瞄准前那一瞬间，脑子里其实闪过一段"小电影"：母球撞过去 → 红球往左口袋滚 → 母球反弹回来。手还没出杆，画面已经在你脑子里放完了。

这种"动手前先脑补未来一秒画面"的能力，就是这篇论文想给机器人装上的东西，学名叫世界模型（world model）。区别是——

你能脑补，是因为大脑里塞满了对物理世界的常识：球会滚、墙会反弹、手不会穿过桌子。
机器人没这种常识。过去的笨办法是：要么搭个仿真器（simulator），一行代码一行代码写"重力是 9.8、摩擦系数是 0.3"；要么干脆扔进真实世界用**强化学习（RL，让机器人通过试错拿奖励学动作）**撞几百万次，撞坏一堆零件再说。

1X 选了第三条路——借。先借一个已经看过海量人类视频的 AI（Wan-2.2，相当于在 YouTube 上"长大"的视频生成模型），它脑子里已经有"杯子会被手抓住、液体会洒、门会开合"的常识；再让它去自家机器人 Neo 的工作现场"实习"几个月，把通用常识调教成"Neo 第一视角下的物理感"。

Plate Nº I1X World Model Challenge — 场景示意：这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

Dreamer 系列（V1/V2/V3）：用 RNN/Transformer 在低维 latent 空间预测未来，配合 RL 学控制。优点是闭环训练快，缺点是 latent 不是像素，人无法直观验证模型"想得对不对"。
PaLM-E / RT-2 等 VLA：直接训"看图 + 指令 → 动作"，跳过显式世界模型；缺点是机器人无法"想象未替代的未来"，没有规划能力。
NVIDIA Cosmos / GAIA / DriveDreamer 等驾驶世界模型：在自动驾驶域已经做了类似事，证明"视频基模 + 领域微调"可行；但人形机器人室内操作场景远比驾驶分布复杂（手部精细动作、物体交互、室内光照）。
学界世界模型（如 Genie、SORA-style）：训练成本极高，且没有机器人本体动作信号配对，只能"看视频生视频"，不能"给动作生未来"。

1X 这次的位置：把驾驶域已经验证过的"视频基模 + 域微调"路径，搬到人形机器人上，并配上动作条件（action-conditioned）输入。

这篇论文的关键想法

三个判断叠在一起：

基础模型时代，世界模型不必从零训。Wan-2.2 这种几十亿参数的视频生成模型，已经把"物体不会穿墙、光照连续、手有五指"这些常识塞进权重里了。重新训太贵也没必要。
机器人世界模型的稀缺资源是"动作-视频"配对数据，不是视频本身。1X 自己有 Neo 在工厂、家庭场景的大量真实操作录像，每一帧都对应着关节命令——这是别人买不到的。
公开 challenge 比内部刷点更能推进领域。把数据、评测协议、基线模型一起放出来，让外部团队来卷，能在一年内把指标刷出比内部研究快得多的进展曲线。

合起来：做一个"动作条件 + 视频基模微调"的人形机器人世界模型，并把它做成公开赛。

Plate Nº II1X World Model Challenge — 方法示意：核心 pipeline

它怎么做的（方法）

底座选型——挑一台能用的二手发动机。要造车，自己从零冶炼钢铁太贵；不如找一台靠谱的二手发动机改一改。1X 挑中的"发动机"是 Wan-2.2（阿里通义万相系列的视频生成模型），属于 DiT（Diffusion Transformer，用 Transformer 当扩散模型骨干的架构） 家族，原生支持文本生视频、首帧生视频。选它的好处：开源、参数规模适中（不用千卡也能微调）、对真人手部和室内场景的画面质量过关。具体参数版本需读原文确认。

动作条件接入——给电视遥控器加个新按钮。原版 Wan-2.2 接受的"指令"只有两种：一段文字、一张首帧图。但机器人需要的是"我现在抬手 30 度，下一秒画面会怎样"——也就是把动作也当成指令喂进去。

等等，先慢一拍——"动作条件"是什么？简单说：把机器人 26 个关节的角度、两只夹爪的开合状态，每一时刻打成一串数字（向量）。这串数字就是"我下一步要做什么"的指令。

技术上是用一个小神经网络（encoder）把这串数字翻译成 AI 听得懂的 "token"，然后塞进 Wan-2.2 原本接收文字的那个口子里。具体塞法（哪几层、是不是用 ControlNet）需读原文。

微调数据与策略——抄作业要抄对人的。基模在公网视频上"自学"过了，但 YouTube 视频里没有"Neo 的手长这样、Neo 的关节怎么动"。1X 拿 Neo 在工厂、家庭场景采集的"第一/三人称视频 + 同步动作"配对数据，做监督微调（supervised fine-tuning，给标准答案让模型对照学）。预训练阶段模型学的是"任何视频的下一帧大概长啥样"，微调阶段收紧到"给定 Neo 这一串动作，下一帧应该长啥样"。可能用了 LoRA、动作 dropout 之类的省钱技巧——具体哪种需读原文。

Challenge 协议——办一场公开擂台赛。光自己练没意思，1X 顺手把这事做成擂台：放出训练数据、留一份测试集自己藏着、规定评分指标（像素相似度、动作可控性、长视频前后一致性等）、挂个榜单。外部团队交模型上来，1X 在自己的机器上跑分排名。具体指标定义需读原文。

实验在做什么

按公开资料，实验大概在三个层面验证：

像素级预测质量：给定一段开头帧 + 未来动作序列，模型要预测后续 N 秒视频。比对真实视频用 PSNR/SSIM/FVD 等。这是基础项，验证"长得像不像"。
物理一致性：检查生成视频里有没有"穿模、物体凭空消失、手指数变化"等违反物理常识的情况。这是世界模型最难的部分，常用人工评分 + 自动检测器组合。
动作可控性：给同一开头帧，喂不同动作，模型生成的视频应当真的随动作变化——而不是无视动作产生默认行为。验证方式可能是设计配对动作（左转 vs 右转）看输出差异。

具体数字（PSNR 多少、刷到第几名、训练用了多少卡多少天）需读原文。

你应该懂的几个新词 — 4-6 个

世界模型（world model）：能根据当前状态 + 动作预测未来状态/观测的模型。可以是 latent 也可以是像素。1X 这个是像素级的。
视频基础模型（video foundation model）：在大规模通用视频上预训练的大模型，如 Sora、Wan-2.2、Cosmos。它们学到的是"视频是什么样"的通用先验。
动作条件生成（action-conditioned generation）：生成模型的条件输入除了文本/图像，还包括动作序列。让"想象的未来"由动作而不是文字决定。
DiT（Diffusion Transformer）：用 Transformer 替换 U-Net 当扩散模型骨干的架构。Sora、Wan、Cosmos 都属于这一家。
LoRA（Low-Rank Adaptation）：大模型微调技术，只训练插入的低秩矩阵，省显存。视频基模微调常用。
FVD（Fréchet Video Distance）：评测生成视频质量的常用指标，类似 FID 但用于视频。

它和其他论文什么关系

上游：Wan-2.2（底座）、DiT（架构家族）、Cosmos / GAIA（驾驶域同思路前作）、Sora（视觉先验类比）。
平行：Genie、UniSim、DriveDreamer——都是"用大视频模型做世界模拟器"路线，但场景/数据不同。
下游：当世界模型可用，下一步就是把它当 simulator 用——在里面 rollout 训 RL 策略、做 model-based planning（如 Dreamer 路线），或者拿来做数据增强（生成 imagined trajectories 喂 imitation learning）。
对比路线：纯 VLA（pi0、OpenVLA、RT-2）跳过显式世界模型，端到端训"看图 + 指令 → 动作"。1X 这条路线是另一种押注：先建好"想象力"，再在其上学控制。

谁会赢，目前业界没有定论。

我建议这样读 — 3-4 步

先看 1X 的官方博客和 challenge 主页，理解动机、数据、评测协议。比直接读 arXiv 摘要信息密度高。
回去读 Wan-2.2 技术报告，特别是条件注入机制、训练 recipe。这是底座，不懂底座读不懂微调改了什么。
再看 NVIDIA Cosmos 或 GAIA-1 论文一篇，建立"视频基模做世界模型"这条路线的对照——你会发现 1X 的工作主要是"在新域上重做一遍"，方法论不一定原创，但工程贡献和数据贡献很大。
最后回到 1X 论文（如果发出来全文），重点读：动作条件接入方式、微调数据规模、评测指标、定量结果。前面的铺垫读完，这部分会很快。

为什么值得读

行业信号：2025 年是人形机器人公司大规模发声的一年，1X、Figure、Tesla 都在押注，1X 这一篇是其中少数把工作开源 + 公开评测的。读它能感受到"公司怎么用研究发声"的形态。
路线代表性：它是"VLA vs 世界模型 + 规划"这条分叉里世界模型一侧的标杆之一。即使你最后选 VLA 路线，也需要知道对面在做什么。
工程实用：如果你要做 video-conditioned 任务，这篇论文（特别是它怎么把动作条件接进去、怎么微调）会是非常具体的参考。
Challenge 本身：可以下载数据自己玩。对零基础学习者来说，有公开数据 + 公开榜单的赛题比纯论文友好得多——你能直接跑起来，看 loss 下降，比读 10 遍摘要都有用。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_1x_world_model_2025_2026,
  title       = {(readable note) 1X World Model Challenge},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/1x-world-model-2025/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)