Filed under · embodied AI · 2026 · 156 papers

156 篇讲机器人怎么学会看、想、做事的论文 — 用能读懂的版本。

这站把 156 篇顶会论文（CoRL、NeurIPS、MobiCom、SIGCOMM、ICML、ICLR、CVPR）翻译成入门读者也能跟下来的语言——任何术语第一次出现都给一句话定义和一个生活类比，方法分步骤拆解，关键数字配生活语境。

A robotic hand reaching toward floating eyes, text fragments, and arrows — abstract editorial illustration of embodied AI — Plate Nº 0— A robotic hand reaching for vision, language, and action.

→ 从这里开始 · 30 天路径 · FAQ · 公式速查

156 / 156papers noted

0 / 156你已读

11topics

551,187total 字

26小时阅读

2011–2025year span

最新 ↘ what's new

Issue Nº VII

One hundred small things

第七期 · 100 件 enrichment 的总账 · 从 13 篇精读到完整阅读环境

World Model & Video Policy

UniSim

看过海量视频后，你给它一个动作（说一句话 / 推一下机械臂 / 挪一下镜头），它就生成接下来世界长什么样的视频——像一台会脑补现实的"游戏机…

World Model & Video Policy

Navigation World Models

让机器人"走"之前先在脑子里放一段未来几秒的画面，看会不会撞墙，再决定真的怎么走。

World Model & Video Policy

Genie

Genie 看一堆游戏录屏，自己猜出每帧之间"按了什么键"，再用这个"按键"画出下一帧——把死视频变成能玩的小游戏。

World Model & Video Policy

GAIA-1

GAIA-1 是个会做梦的开车模拟器：给它一段街景视频的开头加一句"我现在打方向盘"，它能接着画出后面几秒街上看到的画面。

VLM Foundation 视觉-语言基座

22 papers

按演进顺序：祖师爷 → 现代经典 → 前沿延伸

№ 01 auto VLM Foundation

LLaVA: Visual Instruction Tuning

入门 17min · 6046字

给一个只会打字聊天的 AI 装上眼睛——你随手拍张照片发过去，它能看着图陪你说话。

№ 02 auto VLM Foundation

3DShape2VecSet: 3D Shape Representation for Diffusion Models

硬核 18min · 6224字

把一只 3D 柯基拆成 512 张小卡片；电脑学会卡片的规律，就能凭空造出新的 3D 模型。

№ 124 auto VLM Foundation

Learning Transferable Visual Models From Natural Language Supervision

进阶 18min · 6293字

教 AI 同时认图和认字，把 4 亿对网上图文塞进同一张坐标。之后你说"一只猫"，它就能从新图里挑出猫——不用为新任务再训一遍。

№ 125 auto VLM Foundation

Flamingo: a Visual Language Model for Few-Shot Learning

硬核 18min · 6302字

教一个会聊天的 AI 也学会看图，给它看两三个示范，它就能照着做新题。

№ 126 auto VLM Foundation

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

硬核 8min · 2678字

BLIP-2 不动两个大模型——一个负责看图、一个负责说话——只在中间训练一个小"翻译"，就让 AI 学会了看图说话。

№ 127 auto VLM Foundation

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

进阶 17min · 5849字

一句话：让一个模型同时学会看图和写字，再让它帮自己把网上烂配文重写干净，回头再用干净数据训一遍——多个任务全线变强。三个关键贡献： MED（Multimodal mixture of Encoder-Decoder）：一个模型三种身份切换——纯编码器、看图的文本编码器、看图的文

№ 128 auto VLM Foundation

DeepSeek-VL: Towards Real-World Vision-Language Understanding

进阶 8min · 2729字

DeepSeek 在 2024 年开源的"会看图"小模型，主打能看清发票、PPT、论文截图里的小字，不只会答考试题。

№ 129 auto VLM Foundation

EVA-CLIP: Improved Training Techniques for CLIP at Scale

进阶 8min · 2824字

不改 CLIP 架构，只改训练流程：用一个已经"懂图"的视觉模型起步 + 训练时只看半张图——更少数据反而训出更强的看图模型。

№ 130 auto VLM Foundation

FILIP: Fine-grained Interactive Language-Image Pre-Training

进阶 8min · 2695字

以前是"整张图配整句话"，FILIP 让图的每一小块和句子的每个词互相找最像的伙伴，模型就能学会"狗在左下角"这种细节。

№ 131 auto VLM Foundation

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

进阶 6min · 2232字

一个看图模型，你跟它说"圈猫""描述这张图""找红车"它都能用同一个脑子做，回答全是一段文字。

№ 132 auto VLM Foundation

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

硬核 6min · 2239字

让"看图的脑子"也长到 6B 参数，和"会说话的脑子"一样大，AI 看图说话才不偏科，而且开源就能用。

№ 133 auto VLM Foundation

Improved Baselines with Visual Instruction Tuning

入门 6min · 2181字

给会聊天的 AI 配一副"看图眼镜"。把眼镜从一片镜片换成两片，再多给它看点带字的图片，看图答题就刷榜了。

№ 134 auto VLM Foundation

OBELICS

进阶 6min · 2181字

HuggingFace 把网上 1.41 亿个"图文穿插"的网页洗干净打包开源，让大家也能像 DeepMind 那样训出会看图读长文的模型。

№ 135 auto VLM Foundation

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

进阶 6min · 2132字

给会聊天的 AI 戴副眼镜：一次学会看图、念中英文招牌、用框指出物体、还能多轮聊天。这就是阿里 2023 年开源的 Qwen-VL。

№ 136 auto VLM Foundation

Sigmoid Loss for Language Image Pre-Training

进阶 6min · 2180字

教模型"图配文字"，CLIP 要全班一起排名打分，SigLIP 改成一对一判断"是不是一对"。算得快、省内存、小批也能学。

№ 137 auto VLM Foundation

What matters when building vision-language models?

进阶 6min · 2201字

做"看图说话 AI"时大家凭感觉选零件，这篇把每个选择拆开做对照实验，整理成一份避坑清单，再训了个 8B 模型当样板。

№ 138 auto VLM Foundation

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

硬核 8min · 2863字

把模型、数据、推理三件事一起加大，让免费开源的看图模型第一次在大学考试里追上顶级闭源模型。

№ 139 auto VLM Foundation

The Llama 3 Herd of Models

硬核 6min · 1959字

Meta 把训练 Llama 3 大模型的全套"菜谱"公开了——用了什么料、多少张卡、跑多久、考多少分。

№ 140 auto VLM Foundation

LLaVA-NeXT-Interleave

进阶 7min · 2328字

教 AI 像刷图文并茂的小红书：图和字按顺序穿着读，多图、视频、3D 都用这一招，不用各训一个模型。

№ 141 auto VLM Foundation

LLaVA-OneVision: Easy Visual Task Transfer

进阶 6min · 1987字

一套配方教会一个模型同时看懂单张图、几张图、和视频，开源圈第一次在视频上接近 GPT-4V。

№ 142 auto VLM Foundation

Long-CLIP: Unlocking the Long-Text Capability of CLIP

进阶 7min · 2395字

给只能读 77 字短纸条的 CLIP 做两个小手术，让它能读 248 字的长纸条，但又没忘掉原来认识的那些短词。

№ 143 auto VLM Foundation

Pixtral 12B

进阶 6min · 2068字

Mistral 开源的"会看图聊天的助手"——从一开始就同时学看图和说话，图想多大就多大，能免费拿去做产品。

High-Level Planning 高层任务规划

11 papers

按演进顺序：祖师爷 → 现代经典 → 前沿延伸

№ 03 auto High-Level Planning

SayCan: Do As I Can, Not As I Say

入门 14min · 4946字

让"见多识广但出不了门的 AI"出主意，让机器人自己摸口袋说"这事我现在能做"，两边都点头才动手。

№ 75 auto High-Level Planning

Code as Policies: Language Model Programs for Embodied Control

进阶 15min · 5094字

你说一句"把方块叠进碗里"，AI 当场写几行 Python 代码，机器人立刻照着跑。不用提前教它新动作。

№ 76 auto High-Level Planning

Inner Monologue: Embodied Reasoning through Planning with Language Models

进阶 16min · 5505字

让机器人边干活边在心里念叨：看到啥、做成没、人改主意没，全翻成文字塞回 AI，它就能边做边改计划。

№ 77 auto High-Level Planning

LLM+P: Empowering LLMs with Optimal Planning

进阶 6min · 1995字

让 LLM 只当翻译——把你说的话翻译成机器格式，真正的规划交给老牌算法去算。LLM 管说话，算法管动脑子。

№ 78 auto High-Level Planning

PaLM-E: An Embodied Multimodal Language Model

硬核 20min · 6964字

教 ChatGPT 长出眼睛和手脚：你说一句话 + 让它瞄一眼现场，它直接列出机器人该做的几步。

№ 79 auto High-Level Planning

ProgPrompt

入门 6min · 2154字

让大模型像写代码一样做计划：你说"把苹果放冰箱"，它直接吐出一串 Python 调用，机器人照着一行行跑就行。

№ 80 auto High-Level Planning

ChatGPT for Robotics

入门 6min · 2194字

教 ChatGPT 当机器人的"代写助理"：先告诉它机器人会做哪些事，再让它把人话翻成代码，人盯着改。

№ 81 auto High-Level Planning

GenSim

进阶 6min · 2114字

让 ChatGPT 当"出题老师"，自动给机器人编一堆练习关卡，连标准答案也一起写好。

№ 82 auto High-Level Planning

RoboFlamingo

硬核 6min · 2089字

拿一个已经会看图说话的现成大模型当大脑，后面接一只"小手"，就教会机械臂干活——不用从头训。

№ 83 auto High-Level Planning

Tree-Planner

进阶 7min · 2402字

让大模型一次写好十份菜谱，把重复步骤合成一棵树，做菜时照树走，错了就换条岔路，不用反复打电话问。

№ 84 auto High-Level Planning

VoxPoser

硬核 6min · 2090字

VoxPoser 让大模型给机器人画两张 3D 地图：红色地方要去，灰色地方要躲，机器人照着地图走出动作，全程不训练新模型。

III

End-to-End VLA 端到端视觉-语言-动作

16 papers

按演进顺序：祖师爷 → 现代经典 → 前沿延伸

№ 04 auto End-to-End VLA

OpenVLA: An Open-Source Vision-Language-Action Model

进阶 15min · 5383字

把一个会"看图说话"的 AI 改一改，让它学会"看一眼桌面就动手摆东西"，再把全部训练配方开源送出去。

№ 109 auto End-to-End VLA

RT-1: Robotics Transformer for Real-World Control at Scale

进阶 19min · 6767字

让机器人看完 13 万段人类亲手示范，就能听一句中文，在真办公室里把可乐罐拿出来放进抽屉。

№ 110 auto End-to-End VLA

3D Diffusion Policy (DP3)

进阶 6min · 2157字

教机器人擦桌子，不给它看照片，改给它看带深度的 3D 点云。结果只用 10 段录像就够学会一个新任务。

№ 111 auto End-to-End VLA

Octo: An Open-Source Generalist Robot Policy

进阶 6min · 2256字

第一个真正开源的通用机器人"大脑"：先看 80 万段机器人录像学基础动作，你下载回来微调几小时，就能让自家机器人学新活。

№ 112 auto End-to-End VLA

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

硬核 20min · 6897字

把机器人动作翻译成一句话，让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字，就能动手。

№ 113 auto End-to-End VLA

RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches

进阶 17min · 6022字

教机器人做新动作，光说话不够、给一张完成图也不够。这篇论文说：在画面上画一条"手该走的路"——机器人立刻照着做。

№ 114 auto End-to-End VLA

3D-VLA

硬核 6min · 2220字

让机器人除了看平面照片，还能"摸到"立体形状；动手前先在脑里画一张"做完后的样子"，再照着画面去动。

№ 115 auto End-to-End VLA

DexVLA

硬核 7min · 2527字

让一个只会"看图说话"的大脑别动，给它配一只 10 亿参数的"专业的手"。脑负责理解，手负责干活，互不干扰。

№ 116 auto End-to-End VLA

GR-2: Generative Video-Language-Action Model

硬核 8min · 2625字

让机器人先刷 3800 万段网络视频攒常识，再练动手；它干活时脑子里会"预演"下一秒的画面。

№ 117 auto End-to-End VLA

OpenHelix

进阶 7min · 2535字

机器人版的"大脑加小脑"分工：大脑慢慢听懂你说的话，小脑飞快动手干活。代码全部开源，对标 Figure 公司不公开的 Helix。

№ 118 auto End-to-End VLA

OpenVLA-OFT

进阶 6min · 2105字

原版机器人模型一个字一个字念动作，慢还一抖一抖。OpenVLA-OFT 拧开三个开关——一口气说、一段段说、说连续数字——又快又稳。

№ 119 auto End-to-End VLA

RDT-1B: Diffusion Foundation Model for Bimanual Manipulation

硬核 7min · 2388字

清华团队给双臂机器人配的"大脑"：10 亿参数，听一句话就能让两只机械臂配合着倒水、叠衣服。

№ 120 auto End-to-End VLA

RoboMamba

进阶 6min · 1977字

机器人脑子原本用 Transformer 拼出来，反应慢、显存吃紧。RoboMamba 换成 Mamba（一种"流水线式"架构），让机器人想得更快、更省。

№ 121 auto End-to-End VLA

SpatialVLA

硬核 6min · 2096字

教机器人两件事：用普通摄像头也能看出远近；常用动作存成肌肉记忆，不用每次重新算。

№ 122 auto End-to-End VLA

TinyVLA

进阶 7min · 2382字

把会听话的机器人大脑瘦身到 1.4B，动作生成换成"先乱后凿"的扩散模型，不靠云端也能实时干活。

№ 123 auto End-to-End VLA

TraceVLA: Visual Trace Prompting

进阶 6min · 2136字

机器人的手刚走过哪里？TraceVLA 把这条路径直接画在它看到的照片上，让它看见自己的足迹，再决定下一步往哪动。

Diffusion Policy 扩散策略与流匹配

11 papers

按演进顺序：祖师爷 → 现代经典 → 前沿延伸

№ 38 auto Diffusion Policy

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

进阶 19min · 6554字

让机器人像调电视雪花一样产生动作：从满屏乱码开始，擦几下，下一步该怎么动就擦出来了。

№ 39 auto Diffusion Policy

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

进阶 15min · 5167字

让机器人改看 3D 立体形状（点云）而不是 2D 照片来学动作，10 条示范就够，72 个任务平均比原版强 24.2%。

№ 40 auto Diffusion Policy

Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation

进阶 18min · 6177字

机器人选下一步动作本来要慢慢搅 100 下才出一步，这篇教它一下就跳到答案——快约十倍，连笔记本都跑得动。

№ 41 auto Diffusion Policy

EquiBot: SIM(3)-Equivariant Diffusion Policy

硬核 7min · 2409字

教机器人几次就够了。挪位置、转方向、换大小都不用重学，因为这件事直接焊在网络结构里。

№ 42 auto Diffusion Policy

DiT-Policy

硬核 7min · 2385字

把画图领域火起来的新骨架（DiT）搬到机器人身上，再把每个零件挨个拆开看，到底哪个让它真变好。

№ 43 auto Diffusion Policy

Diffusion Policy Policy Optimization (DPPO)

硬核 7min · 2447字

先模仿老师傅、再自己练。DPPO 把"自己练"那步拆成很多小动作，让常规 RL 也能调教扩散策略。

№ 44 auto Diffusion Policy

Affordance-based Robot Manipulation with Flow Matching

进阶 7min · 2567字

教机器人做事时，先让它看懂物体能怎么用，再用一种"画直线"式的方法直接生成动作——比扩散模型更快更稳。

№ 45 auto Diffusion Policy

FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching

硬核 8min · 2634字

让机器人不再"在脑子里画 100 张草稿才动手"，而是看一眼立体世界就一步给出动作 — 又快又稳，真机能跑得动。

№ 46 auto Diffusion Policy

FAST: Efficient Action Tokenization for VLA

硬核 7min · 2492字

机器人动作又长又啰嗦塞不进 AI 模型，FAST 学 MP3 压音乐的办法，把一长串动作压成几十个"词"，AI 像说话一样把它念出来。

№ 47 auto Diffusion Policy

pi_0: Vision-Language-Action Flow Model

硬核 7min · 2618字

让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑"，再加一个会画连续动作的"流匹配"小头。

№ 48 auto Diffusion Policy

pi_0.5: VLA with Open-World Generalization

硬核 7min · 2353字

让机器人第一次走进一个陌生人家，也能听懂"收拾下厨房"然后自己一步步把活干完。

Imitation Learning 模仿学习与遥操作

15 papers

按演进顺序：祖师爷 → 现代经典 → 前沿延伸

№ 49 auto Imitation Learning

A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning

硬核 21min · 7322字

光看老师开车的录像不够 — 学生一走偏就越错越离谱。DAgger 让学生自己先开几圈，把走偏的地方拿去问老师答案，再训，反复几轮就稳了。

№ 50 auto Imitation Learning

Generative Adversarial Imitation Learning

硬核 18min · 6398字

让 AI 看大厨做菜的录像，再找个"挑刺老师"分辨它做得像不像，靠这种较劲学会做事，不用猜大厨心里的打分标准。

№ 51 auto Imitation Learning

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)

进阶 7min · 2601字

几千美元搭一套双臂遥控器（ALOHA）让人录 50 次示范，机器人就学会一段一段动（ACT），能完成穿扎带这种细活。

№ 52 auto Imitation Learning

AnyTeleop

进阶 7min · 2280字

用一台普通摄像头拍你的手，机械手就跟着模仿你的动作；换什么型号的机械手都不用重写代码。

№ 53 auto Imitation Learning

Behavior Transformers: Cloning k Modes with One Stone

进阶 7min · 2385字

看一堆人做同一件事却各有各的做法，BeT 让 AI 先认出"有几种主流流派"，再在每个流派里微调——而不是把所有动作平均成一个四不像。

№ 54 auto Imitation Learning

Implicit Behavioral Cloning

硬核 18min · 6215字

别让模型直接报"动作是这个"，而是让它给一堆候选动作打分、挑最低分那个——机器人的手就突然变巧了。

№ 55 auto Imitation Learning

RoboCat

硬核 7min · 2370字

一个 AI 大脑同时指挥好几种不同的机械臂干活，干完还会把成功的录像收回来当作下一轮的教材，越练越强。

№ 56 auto Imitation Learning

ALOHA 2

入门 7min · 2546字

ALOHA 2 不是新算法，而是把"教机器人用双手干活"的那台设备升级了一遍：更顺手、更耐用、图纸全开源，方便大家一起攒训练数据。

№ 57 auto Imitation Learning

DexCap

进阶 7min · 2481字

人戴上"会记录动作的手套"自己干活，把手的轨迹录下来教机器人——机器人完全不必在现场。

№ 58 auto Imitation Learning

HumanPlus

硬核 6min · 2152字

HumanPlus 让机器人当场跟着人做动作，做几十次后机器人自己也会了——把人当成机器人的"示范老师"。

№ 59 auto Imitation Learning

Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)

硬核 7min · 2572字

让人形机器人用"自己眼睛"的视角看世界（而不是死记房间地图）。换间屋子也照样干活，不用重学。

№ 60 auto Imitation Learning

Mobile ALOHA

进阶 6min · 2235字

给桌面机器人加了一辆小车，让人手把手带它做家务（炒虾、擦桌、洗碗），每招只示范 50 次就能学会。

№ 61 auto Imitation Learning

SmolVLA

进阶 6min · 2004字

Hugging Face 推出的小型机器人模型：把"看到 + 听到 + 动手"塞进一张游戏显卡能训的小脑袋，让没数据中心的人也能在家玩具身 AI。

№ 62 auto Imitation Learning

Universal Manipulation Interface

进阶 8min · 2724字

人手拿一个"带摄像头的夹子"在厨房自己做事，录下来就能教机器人，全程不用机器人在场。

№ 63 auto Imitation Learning

Behavior Generation with Latent Actions (VQ-BeT)

硬核 7min · 2379字

机器人本来要画一条平滑曲线动作，VQ-BeT 让它改成"先选一个动作词、再小修一点"——就像挑表情包再加文字，比硬画曲线更不容易出怪招。

World Model & Video Policy 世界模型与视频策略

14 papers

按演进顺序：祖师爷 → 现代经典 → 前沿延伸

№ 07 auto World Model & Video Policy

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control

硬核 17min · 5888字

把一个会"脑补下一秒视频"的大模型，再练一遍，就能让它指挥机械臂做家务。

№ 144 auto World Model & Video Policy

Dream to Control: Learning Behaviors by Latent Imagination

硬核 18min · 6449字

教 AI 在脑子里反复"做白日梦"演练动作，不用真去摔跤，就能学会跑步、翻跟头这种复杂动作。

№ 145 auto World Model & Video Policy

World Models

进阶 18min · 6473字

让 AI 先在自己脑子里反复"做白日梦"练打游戏，练熟了再去真游戏里上场——居然真能赢。

№ 146 auto World Model & Video Policy

DayDreamer

进阶 9min · 2994字

让一只四足机器人不靠仿真，在真实世界里 1 小时就学会走路——靠的是边走边在脑子里"做梦"演练。

№ 147 auto World Model & Video Policy

Mastering Atari with Discrete World Models

硬核 17min · 6048字

让 AI 闭眼"做白日梦"练打老游戏，第一次只靠脑子里想象就打到人类水平。

№ 148 auto World Model & Video Policy

Dreamer V3: Mastering Diverse Domains through World Models

硬核 7min · 2507字

同一套设置，让一个 AI 自己玩 150 多种游戏都不用改参数，还第一次靠自己挖到《我的世界》里的钻石。

№ 149 auto World Model & Video Policy

Transformers are Sample-Efficient World Models

硬核 7min · 2446字

把游戏画面切成一格格"积木"，让 AI 像写句子一样接龙下一帧，然后让它在脑子里"自己跟自己玩"练强化学习——只玩两小时就接近人类水平。

№ 150 auto World Model & Video Policy

TWM: Transformer-based World Models

硬核 6min · 2258字

agent 在脑子里"做梦"练本事。这篇把梦的引擎从 RNN 换成 Transformer，记得更长，做得更准。

№ 151 auto World Model & Video Policy

1X World Model Challenge

进阶 7min · 2600字

1X 教人形机器人 Neo "脑补下一秒画面"：拿现成视频 AI 当底子，喂自家机器人录像微调，再做成公开赛让大家来卷。

№ 152 auto World Model & Video Policy

Cosmos World Foundation Model Platform

硬核 7min · 2284字

NVIDIA 用 2000 万小时真实视频，训了一个能"猜下一秒物理世界长啥样"的大模型，给机器人和无人车当通用底座。

№ 153 auto World Model & Video Policy

GAIA-1

硬核 7min · 2288字

GAIA-1 是个会做梦的开车模拟器：给它一段街景视频的开头加一句"我现在打方向盘"，它能接着画出后面几秒街上看到的画面。

№ 154 auto World Model & Video Policy

Genie: Generative Interactive Environments

硬核 6min · 2186字

Genie 看一堆游戏录屏，自己猜出每帧之间"按了什么键"，再用这个"按键"画出下一帧——把死视频变成能玩的小游戏。

№ 155 auto World Model & Video Policy

Navigation World Models

硬核 7min · 2468字

让机器人"走"之前先在脑子里放一段未来几秒的画面，看会不会撞墙，再决定真的怎么走。

№ 156 auto World Model & Video Policy

UniSim

硬核 7min · 2530字

看过海量视频后，你给它一个动作（说一句话 / 推一下机械臂 / 挪一下镜头），它就生成接下来世界长什么样的视频——像一台会脑补现实的"游戏机"。

VII

Multimodal Ecology 多模态交互与数据生态

13 papers

按演进顺序：祖师爷 → 现代经典 → 前沿延伸

№ 05 auto Multimodal Ecology

VLAS: VLA Model With Speech Instructions

进阶 16min · 5570字

机器人直接听原声干活：光凭你的嗓音就认出"是你在说话"，再去拿你那只专属的杯子。

№ 06 auto Multimodal Ecology

MLA: Multisensory Language-Action Model

硬核 16min · 5636字

让机器人不只用眼睛看，还会用"手感"和"空间感"，并且提前猜下一秒发生什么再动手。

№ 64 auto Multimodal Ecology

ImageBind: One Embedding Space To Bind Them All

进阶 17min · 6102字

把图片当翻译官，六种感官（图、文、声、深度、热、动作）就能互相听懂彼此说话。

№ 65 auto Multimodal Ecology

Connecting Touch and Vision via Cross-Modal Prediction

进阶 19min · 6810字

教 AI"看一眼就猜出摸起来什么感觉、摸一下就猜出在摸哪儿"，让视觉和触觉互相翻译。

№ 66 auto Multimodal Ecology

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

进阶 17min · 5896字

一句话：给一个"只识字"的聪明大脑配几副翻译眼镜——看图、看视频、听声、感运动，统统先翻成"假文字"再喂进去，大脑本身一个字都不重学。三件让人眼前一亮的事：不动 LLM 主干：LLaMA-2-70B 全程冻结，只训前面那个小投影层（projection layer），训练成本

№ 67 auto Multimodal Ecology

AudioPaLM

硬核 7min · 2284字

以前要三个工人接力——听写、翻译、配音——才能把你说的中文变成英文语音。AudioPaLM 让一个模型一口气干完，连你的音色都不丢。

№ 68 auto Multimodal Ecology

FROMAGe: Grounding LLMs to Images

进阶 6min · 2225字

把一个会说话的大模型整个冻住不动，只在它前后各加一层薄薄的"翻译片"，就让它能看图、找图、还能图文混着聊天。

№ 69 auto Multimodal Ecology

OneLLM

进阶 7min · 2291字

OneLLM 用一套通用「翻译机」，让大语言模型同时听懂图像、声音、点云等八种信号——加新信号只要少量训练，不用从头再做。

№ 70 auto Multimodal Ecology

X-VLM: Multi-Grained Vision Language Pre-Training

硬核 7min · 2377字

教 AI 看图，不只学"整张图配整句话"，还学"图里某个物体配某个词"——这样问图里某个细节也答得准。

№ 71 auto Multimodal Ecology

Tactile Beyond Pixels (Sparsh-X)

硬核 7min · 2491字

让机器人的手指不止"看"接触画面，还能听响声、感力度、察打滑——四路信号一起学，摸东西才像人。

№ 72 auto Multimodal Ecology

Sparsh: Self-supervised Touch Representations

硬核 8min · 2885字

以前每个触觉任务都得从零教机器人。Sparsh 先让模型自己看大量触觉画面学一遍，再做具体任务只要少量例子就够。类比：跟小孩先摸过几千次东西、再去学"握紧水杯"是一个道理。技术路线和 NLP 里 BERT、视觉里 DINO 一致——先大量自学，再小量微调，只是搬到了触觉这个长期

№ 73 auto Multimodal Ecology

Tactile-VLA

硬核 8min · 2702字

让机器人除了会看会听，还学会"摸"——能感到扣子"咔哒"卡入那一下，干插拔、拧螺丝这种细活不再蛮干。

№ 74 auto Multimodal Ecology

TLA: Tactile-Language-Action

硬核 7min · 2334字

让机器人像你闭眼摸钥匙那样——靠"一段持续的触感"加上一句话指令，自己决定下一步该怎么用手。

VIII

RF Perception & Mapping 射频感知与空间建图

16 papers

按演进顺序：祖师爷 → 现代经典 → 前沿延伸

№ 08 auto RF Perception & Mapping

CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches

硬核 19min · 6567字

给机器人装一颗几百块的小雷达，哪怕屋里又黑又有烟，它也能一边走一边画出准的 3D 地图，比用相机还清楚。

№ 09 auto RF Perception & Mapping

mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment

硬核 18min · 6251字

教一种"看不见脸"的小盒子雷达，没学过的新动作也能猜个八九不离十——比如老人半夜在黑卧室摔倒，它能感知到。

№ 10 auto RF Perception & Mapping

mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation

硬核 16min · 5693字

不直接问"东西在哪儿"，而是先猜"它的皮朝哪边翘"——雷达就能隔着纸箱看出里面是什么形状。

№ 85 auto RF Perception & Mapping

See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar

进阶 17min · 6108字

机器人在浓烟里也能画出清晰的房间地图——靠一颗几十块的小雷达加一个会"脑补"的神经网络。具体两招：训练时让贵的激光雷达（lidar）和便宜的雷达坐同一辆车，把 lidar 的清晰图当作业答案喂给神经网络（cGAN），教雷达学会脑补。学完老师下车，雷达单飞。认门/墙/玻璃/电

№ 86 auto RF Perception & Mapping

Can WiFi Estimate Person Pose?

进阶 18min · 6303字

想象你家路由器除了上网，还能告诉你"屋里那个人正在做啥姿势"——胳膊抬到哪、腿怎么弯，全画给你看。

№ 87 auto RF Perception & Mapping

3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning

进阶 7min · 2599字

用 AI 教小雷达"看清"物体长啥样：从糊糊的电波信号里还原出完整 3D 形状，烟雾灰尘暗光里也能用。

№ 88 auto RF Perception & Mapping

milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion

进阶 6min · 2179字

把便宜的毫米波雷达和身上的"动作感应器"（IMU）用神经网络拼起来，让机器在黑暗、烟雾里也能算出自己走到了哪。

№ 89 auto RF Perception & Mapping

High Resolution Point Clouds from mmWave Radar

进阶 8min · 2660字

便宜雷达拍出来的画面很糊。RadarHD 用神经网络当翻译，把糊画面改成像激光雷达那样清晰的点云图，烟雾、黑暗里都能用。

№ 90 auto RF Perception & Mapping

RadarSLAM: Radar based Large-Scale SLAM in All Weathers

硬核 7min · 2561字

让一台"会转圈的雷达"在大雾大雪天里也能给车画地图、记住自己走过哪。

№ 91 auto RF Perception & Mapping

Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm

硬核 33min · 11437字

一个 Wi-Fi 小盒子隔着墙照过去，就能画出屋里人的骨架动画——摄像头当老师，电波当学生，学一遍就会了。更具体一点：输入：一个商用雷达（Walabot Developer，几百美元）发出去的电波被人体反射回来后形成的 3D 强度场。输出：屋内每个人的 15 关节点骨架，每

№ 92 auto RF Perception & Mapping

RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals

进阶 7min · 2615字

漆黑屋子里相机看不见，但雷达回波能"听"出人形。RFMask 让模型把雷达信号直接画成每个人的精细剪影——头、肩、胳膊都画出来。

№ 93 auto RF Perception & Mapping

RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory

硬核 7min · 2475字

用雷达回声画出人的姿势：直接学容易乱猜，先把"回声"和"姿势"两边的特征对齐，再画关节，换房间也更稳。

№ 94 auto RF Perception & Mapping

Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on

硬核 7min · 2389字

在肩膀、胸口、手腕各贴一片简化雷达，每片只能看到身体一小块，算法把这些局部信号拼成完整的 3D 人体形状。

№ 95 auto RF Perception & Mapping

Diffusion Model is a Good Pose Estimator from 3D RF-Vision

硬核 8min · 2894字

毫米波雷达拍出的人像隔了层毛玻璃。这篇论文让 AI 从噪点里一笔笔擦出人体骨架，比一次猜准稳得多。CVPR 2024 收录。

№ 96 auto RF Perception & Mapping

Enabling Visual Recognition at Radio Frequency (PanoRadar)

硬核 8min · 2696字

PanoRadar 把便宜的小雷达装到一个转台上边转边扫，再让神经网络把模糊回声拼成 3D 地图，让雷达像眼睛一样"看见"房间。

№ 97 auto RF Perception & Mapping

Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion

硬核 7min · 2485字

毫米波信号能穿过纸箱、布帘，Wave-Former 把弹回来的模糊回声拼成藏在背后的杯子、瓶子的完整 3D 形状。

Auditory & Acoustic 听觉智能与声学空间交互

15 papers

按演进顺序：祖师爷 → 现代经典 → 前沿延伸

№ 11 auto Auditory & Acoustic

Proactive Hearing Assistants that Isolate Egocentric Conversations

进阶 17min · 5847字

戴上这副耳机，它自己听出"现在你在跟谁聊天"，把同伴的声音放大、其他人压下去，你一个按钮都不用按。

№ 12 auto Auditory & Acoustic

NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators

进阶 16min · 5527字

在咖啡馆听不清对面说话？让助听器自己降噪，不连手机、不连云。

№ 13 auto Auditory & Acoustic

Creating speech zones with self-distributing acoustic swarms

进阶 19min · 6653字

七个像骰子那么大的小机器人，自己爬上桌散成一圈，桌上几个人同时讲话，它能分清谁说了啥。

№ 14 auto Auditory & Acoustic

Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation

进阶 20min · 6834字

两人同时讲话的混音，喂给一个网络，它能把每个人的声音分别还原。比老方法（看频谱图）更准、更快、更小。

№ 15 auto Auditory & Acoustic

SoundStream: An End-to-End Neural Audio Codec

硬核 18min · 6276字

让 AI 自己学怎么把声音"打包又拆开"，3 kbps 的小包听起来反而比传统方案 12 kbps 还清楚。

№ 16 auto Auditory & Acoustic

AudioLM

硬核 9min · 2976字

把声音切成两种"音频字"——一种管说啥、一种管音色，模型像写句子一样续写，给 3 秒就能接出像本人的语音。

№ 17 auto Auditory & Acoustic

Conformer

进阶 6min · 2209字

让 AI 听人说话时既能听清每个字的咬字，又能联系整段话的意思——一个会同时"听细节"和"听大意"的耳朵。

№ 18 auto Auditory & Acoustic

Dual-path RNN

硬核 7min · 2615字

DPRNN 把超长录音切成小块，让 RNN 先在块里跑、再跨块跑，交替几轮就能把两个人同时说话拆开。

№ 19 auto Auditory & Acoustic

EnCodec

硬核 8min · 2701字

EnCodec 把声音压成一串很小的数字再还原回来；既比老办法省流量，又因为是数字，AI 可以像写字一样"写"出声音。

№ 20 auto Auditory & Acoustic

Meta-StyleSpeech

进阶 7min · 2329字

给模型听几秒陌生人说话的录音，它就能用这个人的声音念任意一句话。不用重新训练、不用收集几小时数据——几秒就够。

№ 21 auto Auditory & Acoustic

MusicLM

硬核 7min · 2524字

对着模型说一句"缓慢爵士钢琴配鼓刷"，它就生成几分钟真实音乐——先定骨架（结构），再填细节（音色）。

№ 22 auto Auditory & Acoustic

Robust Speech Recognition via Large-Scale Weak Supervision

进阶 21min · 7515字

Whisper 把网上 68 万小时音频和字幕一锅烩，喂进普通 Transformer，开箱就能听各种口音、噪声和长录音，还顺手翻译——靠数据杂取胜。

№ 23 auto Auditory & Acoustic

SeamlessM4T

硬核 7min · 2443字

*一个模型搞定 100 种语言的"听懂、翻译、说出来"，省掉以前三四个 App 接力的麻烦。它一口气会做 5 件事，名字像缩写但其实只是"输入 → 输出"的简写： ASR（Automatic Speech Recognition，语音识别）：听写成同语言文字 S2T（Speec

№ 24 auto Auditory & Acoustic

Stable Audio

硬核 7min · 2376字

打几个字描述你想要的声音，AI 就能做出几十秒到一两分钟的高音质音乐或音效，长度还能精确到秒。

№ 25 auto Auditory & Acoustic

Universal Source Separation with Weakly Labelled Data

硬核 7min · 2366字

给电脑一段嘈杂录音，告诉它"我只要狗叫"，它就把狗叫从混音里抠出来。一个模型覆盖 527 类日常声音。

Datasets & Benchmarks 数据集与评测基准

12 papers

按演进顺序：祖师爷 → 现代经典 → 前沿延伸

№ 26 auto Datasets & Benchmarks

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

入门 17min · 5943字

给那些号称"会举一反三"的机器人算法办一场 50 道动手题的统一考试，看它们是不是真的会。

№ 27 auto Datasets & Benchmarks

RLBench: The Robot Learning Benchmark & Learning Environment

入门 22min · 7554字

给机器人手臂出了一套 100 道题的"统考卷"，从此大家都做同一套题，第一次能公平比谁更厉害。

№ 28 auto Datasets & Benchmarks

robosuite: A Modular Simulation Framework and Benchmark for Robot Learning

入门 21min · 7448字

robosuite 是机器人 AI 的"标准考场"——同一台仿真机械臂、同一组题目，让全球研究者公平地比谁的算法更聪明。

№ 29 auto Datasets & Benchmarks

BridgeData V2

入门 7min · 2371字

BridgeData V2 是一份公开的"机器人干活录像库"——6 万段机械臂在 24 个真实场景里的演示视频，大家训机器人时把它当共同起跑线。

№ 30 auto Datasets & Benchmarks

CALVIN

进阶 7min · 2327字

CALVIN 是一把"机器人听话考试"的尺子：人说一段话，机器人要在桌上一步接一步把活干完，34 个小任务统一打分。

№ 31 auto Datasets & Benchmarks

LIBERO

进阶 7min · 2326字

教机器人学新技能时别忘旧技能。LIBERO 是这事的标准考卷，4 套题分别考空间、物体、目标和综合。

№ 32 auto Datasets & Benchmarks

RH20T

进阶 6min · 2079字

机器人数据集，除拍视频外还录了"手感"和"声音"：拧瓶盖多大力、咔哒卡到位。147 项任务、11 万段。

№ 33 auto Datasets & Benchmarks

What Matters in Learning from Offline Human Demonstrations for Robot Manipulation

进阶 6min · 2071字

这篇不发明新算法，而是把"机器人看录像学操作"里每个变量挨个换一遍，告诉你哪些真有用、哪些是白忙。

№ 34 auto Datasets & Benchmarks

DROID

进阶 7min · 2308字

全球 18 家实验室一起拍机器人干活的视频，凑出 7.6 万段、564 个真实场景，让机器人不再只会"自家桌子上那点活"。

№ 35 auto Datasets & Benchmarks

Open X-Embodiment

进阶 8min · 2646字

22 家实验室把各种机器人的"练手视频"凑成一个大数据集，再训一个通吃模型，发现喂多种机器人比单喂一种学得更好。

№ 36 auto Datasets & Benchmarks

RoboCasa

进阶 6min · 2198字

想造个会做饭的家用机器人？RoboCasa 给你 120 个虚拟厨房、100 个小动作、十万次练习录像，让它先在游戏里练会，再上岗。

№ 37 auto Datasets & Benchmarks

SimplerEnv

硬核 7min · 2280字

不用搬真机器人，在电脑里就能给 VLA（视觉-语言-动作模型）打分，分数和真机几乎一样准。

Simulation & Sim2Real 仿真与真实迁移

11 papers

按演进顺序：祖师爷 → 现代经典 → 前沿延伸

№ 98 auto Simulation & Sim2Real

Habitat: A Platform for Embodied AI Research

入门 17min · 6056字

给家用机器人造一个跑得飞快的"VR 房子"，让它在里面绕路撞墙练几千万步，再上岗去你家。

№ 99 auto Simulation & Sim2Real

Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning

进阶 15min · 5362字

一句话：把"算物理"和"训神经网络"塞进同一张显卡，机器人学走路从"几千台 CPU 跑一晚"压成"一张卡跑几分钟"。类比：以前训机器人像切菜、炒菜、装盘分三个房间，端来端去比真做菜还累；Isaac Gym 把厨房合并，菜不动、工具换着上。效果对照：OpenAI 训魔方机械手用

№ 100 auto Simulation & Sim2Real

DexMV

硬核 6min · 2271字

让机械手学拧瓶盖、倒水太难，DexMV 让算法看人手视频学，把人的动作"翻译"成仿真里机械手能照着练的示范。

№ 101 auto Simulation & Sim2Real

Habitat 2.0

进阶 6min · 2156字

上一代 Habitat 只能在虚拟房子里走路看；2.0 让小机器人能真的开冰箱、把杯子从厨房拿到客厅做家务。

№ 102 auto Simulation & Sim2Real

ManiSkill

进阶 6min · 2042字

ManiSkill 是教机器人开抽屉、开柜门这种家具的统一考场—— 专测它练完几十个柜子之后，能不能上手没见过的第 101 个。

№ 103 auto Simulation & Sim2Real

ProcTHOR

进阶 6min · 2071字

过去训练 AI 在屋里走来走去，得人工一间一间搭样板房，慢且少。ProcTHOR 让电脑按规则批量造 1 万套房，AI 见多了，换个没去过的房子也能找到东西。

№ 104 auto Simulation & Sim2Real

SAPIEN: A SimulAted Part-based Interactive ENvironment

进阶 18min · 6256字

给机器人造了一个虚拟宜家展厅，2,346 件家具每个抽屉、每扇门、每个瓶盖都能真的拉开、推开、拧开。

№ 105 auto Simulation & Sim2Real

BEHAVIOR-1K

硬核 6min · 1983字

斯坦福搭的"机器人家务考场"：1000 道家务题、50 间样板房、9000 多件物品，让所有人用同一把尺子比"机器人到底会不会做家务"。

№ 106 auto Simulation & Sim2Real

Habitat 3.0

进阶 7min · 2405字

在虚拟的家里加一个会走会动的"假人"，让机器人练习扫地搬东西时，得学会一边干活一边躲人、配合人。

№ 107 auto Simulation & Sim2Real

Isaac Lab

进阶 6min · 1944字

机器人在电脑里"练功"的虚拟训练场。以前练得飞快但看不清画面，画面漂亮又练得慢；Isaac Lab 把这两件事捏到了一起。

№ 108 auto Simulation & Sim2Real

MuJoCo Playground

进阶 5min · 1892字

一个 pip install 就能装好的开源仿真平台，让机器人先在电脑里把走路、抓东西练熟，再几乎原样搬到真机上跑。