Compare — Embodied AI Reading

I VLM Foundation 视觉-语言基座

era	year	title	venue	tldr
祖师爷	2023	LLaVA: Visual Instruction Tuning	NeurIPS	给一个只会打字聊天的 AI 装上眼睛——你随手拍张照片发过去，它能看着图陪你说话。
经典	2023	3DShape2VecSet: 3D Shape Representation for Diffusion Models	SIGGRAPH	把一只 3D 柯基拆成 512 张小卡片；电脑学会卡片的规律，就能凭空造出新的 3D 模型。
祖师爷	2021	Learning Transferable Visual Models From Natural Language Supervision	ICML	教 AI 同时认图和认字，把 4 亿对网上图文塞进同一张坐标。之后你说"一只猫"，它就能从新图里挑出猫——不用为新任务再训一遍。
祖师爷	2022	Flamingo: a Visual Language Model for Few-Shot Learning	NeurIPS	教一个会聊天的 AI 也学会看图，给它看两三个示范，它就能照着做新题。
经典	2022	BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation	ICML	一句话：让一个模型同时学会看图和写字，再让它帮自己把网上烂配文重写干净，回头再用干净数据训一遍——多个任务全线变强。三个关键贡献： MED（Multimodal mixture of Encoder-Decoder）：一个模型三种身份切换——纯编码器、看图的文本编码器、看图的文
经典	2022	FILIP: Fine-grained Interactive Language-Image Pre-Training	ICLR	以前是"整张图配整句话"，FILIP 让图的每一小块和句子的每个词互相找最像的伙伴，模型就能学会"狗在左下角"这种细节。
经典	2023	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models	ICML	BLIP-2 不动两个大模型——一个负责看图、一个负责说话——只在中间训练一个小"翻译"，就让 AI 学会了看图说话。
经典	2023	EVA-CLIP: Improved Training Techniques for CLIP at Scale	arXiv	不改 CLIP 架构，只改训练流程：用一个已经"懂图"的视觉模型起步 + 训练时只看半张图——更少数据反而训出更强的看图模型。
经典	2023	OBELICS	NeurIPS	HuggingFace 把网上 1.41 亿个"图文穿插"的网页洗干净打包开源，让大家也能像 DeepMind 那样训出会看图读长文的模型。
经典	2023	Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond	arXiv	给会聊天的 AI 戴副眼镜：一次学会看图、念中英文招牌、用框指出物体、还能多轮聊天。这就是阿里 2023 年开源的 Qwen-VL。
经典	2023	Sigmoid Loss for Language Image Pre-Training	ICCV	教模型"图配文字"，CLIP 要全班一起排名打分，SigLIP 改成一对一判断"是不是一对"。算得快、省内存、小批也能学。
经典	2024	DeepSeek-VL: Towards Real-World Vision-Language Understanding	arXiv	DeepSeek 在 2024 年开源的"会看图"小模型，主打能看清发票、PPT、论文截图里的小字，不只会答考试题。
经典	2024	Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks	CVPR	一个看图模型，你跟它说"圈猫""描述这张图""找红车"它都能用同一个脑子做，回答全是一段文字。
经典	2024	InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	CVPR	让"看图的脑子"也长到 6B 参数，和"会说话的脑子"一样大，AI 看图说话才不偏科，而且开源就能用。
经典	2024	Improved Baselines with Visual Instruction Tuning	CVPR	给会聊天的 AI 配一副"看图眼镜"。把眼镜从一片镜片换成两片，再多给它看点带字的图片，看图答题就刷榜了。
前沿	2024	What matters when building vision-language models?	NeurIPS	做"看图说话 AI"时大家凭感觉选零件，这篇把每个选择拆开做对照实验，整理成一份避坑清单，再训了个 8B 模型当样板。
前沿	2024	Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling	arXiv	把模型、数据、推理三件事一起加大，让免费开源的看图模型第一次在大学考试里追上顶级闭源模型。
前沿	2024	The Llama 3 Herd of Models	arXiv	Meta 把训练 Llama 3 大模型的全套"菜谱"公开了——用了什么料、多少张卡、跑多久、考多少分。
前沿	2024	LLaVA-NeXT-Interleave	arXiv	教 AI 像刷图文并茂的小红书：图和字按顺序穿着读，多图、视频、3D 都用这一招，不用各训一个模型。
前沿	2024	LLaVA-OneVision: Easy Visual Task Transfer	arXiv	一套配方教会一个模型同时看懂单张图、几张图、和视频，开源圈第一次在视频上接近 GPT-4V。
前沿	2024	Long-CLIP: Unlocking the Long-Text Capability of CLIP	ECCV	给只能读 77 字短纸条的 CLIP 做两个小手术，让它能读 248 字的长纸条，但又没忘掉原来认识的那些短词。
前沿	2024	Pixtral 12B	arXiv	Mistral 开源的"会看图聊天的助手"——从一开始就同时学看图和说话，图想多大就多大，能免费拿去做产品。

II High-Level Planning 高层任务规划

era	year	title	venue	tldr
祖师爷	2022	SayCan: Do As I Can, Not As I Say	CoRL	让"见多识广但出不了门的 AI"出主意，让机器人自己摸口袋说"这事我现在能做"，两边都点头才动手。
祖师爷	2022	Inner Monologue: Embodied Reasoning through Planning with Language Models	CoRL	让机器人边干活边在心里念叨：看到啥、做成没、人改主意没，全翻成文字塞回 AI，它就能边做边改计划。
祖师爷	2023	Code as Policies: Language Model Programs for Embodied Control	ICRA	你说一句"把方块叠进碗里"，AI 当场写几行 Python 代码，机器人立刻照着跑。不用提前教它新动作。
祖师爷	2023	LLM+P: Empowering LLMs with Optimal Planning	arXiv	让 LLM 只当翻译——把你说的话翻译成机器格式，真正的规划交给老牌算法去算。LLM 管说话，算法管动脑子。
祖师爷	2023	PaLM-E: An Embodied Multimodal Language Model	ICML	教 ChatGPT 长出眼睛和手脚：你说一句话 + 让它瞄一眼现场，它直接列出机器人该做的几步。
祖师爷	2023	ProgPrompt	ICRA	让大模型像写代码一样做计划：你说"把苹果放冰箱"，它直接吐出一串 Python 调用，机器人照着一行行跑就行。
经典	2023	ChatGPT for Robotics	IEEE Access	教 ChatGPT 当机器人的"代写助理"：先告诉它机器人会做哪些事，再让它把人话翻成代码，人盯着改。
经典	2023	VoxPoser	CoRL	VoxPoser 让大模型给机器人画两张 3D 地图：红色地方要去，灰色地方要躲，机器人照着地图走出动作，全程不训练新模型。
经典	2024	GenSim	ICLR	让 ChatGPT 当"出题老师"，自动给机器人编一堆练习关卡，连标准答案也一起写好。
经典	2024	RoboFlamingo	ICLR	拿一个已经会看图说话的现成大模型当大脑，后面接一只"小手"，就教会机械臂干活——不用从头训。
经典	2024	Tree-Planner	ICLR	让大模型一次写好十份菜谱，把重复步骤合成一棵树，做菜时照树走，错了就换条岔路，不用反复打电话问。

III End-to-End VLA 端到端视觉-语言-动作

era	year	title	venue	tldr
经典	2024	OpenVLA: An Open-Source Vision-Language-Action Model	CoRL	把一个会"看图说话"的 AI 改一改，让它学会"看一眼桌面就动手摆东西"，再把全部训练配方开源送出去。
祖师爷	2022	RT-1: Robotics Transformer for Real-World Control at Scale	RSS	让机器人看完 13 万段人类亲手示范，就能听一句中文，在真办公室里把可乐罐拿出来放进抽屉。
经典	2023	RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control	CoRL	把机器人动作翻译成一句话，让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字，就能动手。
经典	2023	RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches	ICLR	教机器人做新动作，光说话不够、给一张完成图也不够。这篇论文说：在画面上画一条"手该走的路"——机器人立刻照着做。
经典	2024	3D Diffusion Policy (DP3)	RSS	教机器人擦桌子，不给它看照片，改给它看带深度的 3D 点云。结果只用 10 段录像就够学会一个新任务。
经典	2024	Octo: An Open-Source Generalist Robot Policy	RSS	第一个真正开源的通用机器人"大脑"：先看 80 万段机器人录像学基础动作，你下载回来微调几小时，就能让自家机器人学新活。
前沿	2024	3D-VLA	ICML	让机器人除了看平面照片，还能"摸到"立体形状；动手前先在脑里画一张"做完后的样子"，再照着画面去动。
前沿	2024	GR-2: Generative Video-Language-Action Model	arXiv	让机器人先刷 3800 万段网络视频攒常识，再练动手；它干活时脑子里会"预演"下一秒的画面。
前沿	2024	RDT-1B: Diffusion Foundation Model for Bimanual Manipulation	ICLR	清华团队给双臂机器人配的"大脑"：10 亿参数，听一句话就能让两只机械臂配合着倒水、叠衣服。
前沿	2024	RoboMamba	NeurIPS	机器人脑子原本用 Transformer 拼出来，反应慢、显存吃紧。RoboMamba 换成 Mamba（一种"流水线式"架构），让机器人想得更快、更省。
前沿	2024	TinyVLA	RA-L	把会听话的机器人大脑瘦身到 1.4B，动作生成换成"先乱后凿"的扩散模型，不靠云端也能实时干活。
前沿	2024	TraceVLA: Visual Trace Prompting	ICLR	机器人的手刚走过哪里？TraceVLA 把这条路径直接画在它看到的照片上，让它看见自己的足迹，再决定下一步往哪动。
前沿	2025	DexVLA	arXiv	让一个只会"看图说话"的大脑别动，给它配一只 10 亿参数的"专业的手"。脑负责理解，手负责干活，互不干扰。
前沿	2025	OpenHelix	arXiv	机器人版的"大脑加小脑"分工：大脑慢慢听懂你说的话，小脑飞快动手干活。代码全部开源，对标 Figure 公司不公开的 Helix。
前沿	2025	OpenVLA-OFT	RSS	原版机器人模型一个字一个字念动作，慢还一抖一抖。OpenVLA-OFT 拧开三个开关——一口气说、一段段说、说连续数字——又快又稳。
前沿	2025	SpatialVLA	arXiv	教机器人两件事：用普通摄像头也能看出远近；常用动作存成肌肉记忆，不用每次重新算。

IV Diffusion Policy 扩散策略与流匹配

era	year	title	venue	tldr
祖师爷	2023	Diffusion Policy: Visuomotor Policy Learning via Action Diffusion	RSS	让机器人像调电视雪花一样产生动作：从满屏乱码开始，擦几下，下一步该怎么动就擦出来了。
经典	2024	3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations	RSS	让机器人改看 3D 立体形状（点云）而不是 2D 照片来学动作，10 条示范就够，72 个任务平均比原版强 24.2%。
经典	2024	Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation	RSS	机器人选下一步动作本来要慢慢搅 100 下才出一步，这篇教它一下就跳到答案——快约十倍，连笔记本都跑得动。
经典	2024	EquiBot: SIM(3)-Equivariant Diffusion Policy	CoRL	教机器人几次就够了。挪位置、转方向、换大小都不用重学，因为这件事直接焊在网络结构里。
前沿	2024	Affordance-based Robot Manipulation with Flow Matching	IROS	教机器人做事时，先让它看懂物体能怎么用，再用一种"画直线"式的方法直接生成动作——比扩散模型更快更稳。
前沿	2024	pi_0: Vision-Language-Action Flow Model	arXiv	让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑"，再加一个会画连续动作的"流匹配"小头。
前沿	2025	DiT-Policy	ICRA	把画图领域火起来的新骨架（DiT）搬到机器人身上，再把每个零件挨个拆开看，到底哪个让它真变好。
前沿	2025	Diffusion Policy Policy Optimization (DPPO)	ICLR	先模仿老师傅、再自己练。DPPO 把"自己练"那步拆成很多小动作，让常规 RL 也能调教扩散策略。
前沿	2025	FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching	AAAI	让机器人不再"在脑子里画 100 张草稿才动手"，而是看一眼立体世界就一步给出动作 — 又快又稳，真机能跑得动。
前沿	2025	FAST: Efficient Action Tokenization for VLA	RSS	机器人动作又长又啰嗦塞不进 AI 模型，FAST 学 MP3 压音乐的办法，把一长串动作压成几十个"词"，AI 像说话一样把它念出来。
前沿	2025	pi_0.5: VLA with Open-World Generalization	arXiv	让机器人第一次走进一个陌生人家，也能听懂"收拾下厨房"然后自己一步步把活干完。

V Imitation Learning 模仿学习与遥操作

era	year	title	venue	tldr
祖师爷	2011	A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning	AISTATS	光看老师开车的录像不够 — 学生一走偏就越错越离谱。DAgger 让学生自己先开几圈，把走偏的地方拿去问老师答案，再训，反复几轮就稳了。
祖师爷	2016	Generative Adversarial Imitation Learning	NeurIPS	让 AI 看大厨做菜的录像，再找个"挑刺老师"分辨它做得像不像，靠这种较劲学会做事，不用猜大厨心里的打分标准。
经典	2021	Implicit Behavioral Cloning	CoRL	别让模型直接报"动作是这个"，而是让它给一堆候选动作打分、挑最低分那个——机器人的手就突然变巧了。
经典	2022	Behavior Transformers: Cloning k Modes with One Stone	NeurIPS	看一堆人做同一件事却各有各的做法，BeT 让 AI 先认出"有几种主流流派"，再在每个流派里微调——而不是把所有动作平均成一个四不像。
经典	2023	Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)	RSS	几千美元搭一套双臂遥控器（ALOHA）让人录 50 次示范，机器人就学会一段一段动（ACT），能完成穿扎带这种细活。
经典	2023	AnyTeleop	CoRL	用一台普通摄像头拍你的手，机械手就跟着模仿你的动作；换什么型号的机械手都不用重写代码。
经典	2023	RoboCat	TMLR	一个 AI 大脑同时指挥好几种不同的机械臂干活，干完还会把成功的录像收回来当作下一轮的教材，越练越强。
前沿	2024	ALOHA 2	Tech Report	ALOHA 2 不是新算法，而是把"教机器人用双手干活"的那台设备升级了一遍：更顺手、更耐用、图纸全开源，方便大家一起攒训练数据。
前沿	2024	DexCap	RSS	人戴上"会记录动作的手套"自己干活，把手的轨迹录下来教机器人——机器人完全不必在现场。
前沿	2024	HumanPlus	CoRL	HumanPlus 让机器人当场跟着人做动作，做几十次后机器人自己也会了——把人当成机器人的"示范老师"。
前沿	2024	Mobile ALOHA	CoRL	给桌面机器人加了一辆小车，让人手把手带它做家务（炒虾、擦桌、洗碗），每招只示范 50 次就能学会。
前沿	2024	Universal Manipulation Interface	RSS	人手拿一个"带摄像头的夹子"在厨房自己做事，录下来就能教机器人，全程不用机器人在场。
前沿	2024	Behavior Generation with Latent Actions (VQ-BeT)	ICML	机器人本来要画一条平滑曲线动作，VQ-BeT 让它改成"先选一个动作词、再小修一点"——就像挑表情包再加文字，比硬画曲线更不容易出怪招。
前沿	2025	Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)	RSS	让人形机器人用"自己眼睛"的视角看世界（而不是死记房间地图）。换间屋子也照样干活，不用重学。
前沿	2025	SmolVLA	arXiv	Hugging Face 推出的小型机器人模型：把"看到 + 听到 + 动手"塞进一张游戏显卡能训的小脑袋，让没数据中心的人也能在家玩具身 AI。

VI World Model & Video Policy 世界模型与视频策略

era	year	title	venue	tldr
前沿	2025	Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control	arXiv	把一个会"脑补下一秒视频"的大模型，再练一遍，就能让它指挥机械臂做家务。
祖师爷	2018	World Models	NeurIPS	让 AI 先在自己脑子里反复"做白日梦"练打游戏，练熟了再去真游戏里上场——居然真能赢。
祖师爷	2020	Dream to Control: Learning Behaviors by Latent Imagination	ICLR	教 AI 在脑子里反复"做白日梦"演练动作，不用真去摔跤，就能学会跑步、翻跟头这种复杂动作。
经典	2021	Mastering Atari with Discrete World Models	ICLR	让 AI 闭眼"做白日梦"练打老游戏，第一次只靠脑子里想象就打到人类水平。
经典	2022	DayDreamer	CoRL	让一只四足机器人不靠仿真，在真实世界里 1 小时就学会走路——靠的是边走边在脑子里"做梦"演练。
经典	2023	Transformers are Sample-Efficient World Models	ICLR	把游戏画面切成一格格"积木"，让 AI 像写句子一样接龙下一帧，然后让它在脑子里"自己跟自己玩"练强化学习——只玩两小时就接近人类水平。
经典	2023	TWM: Transformer-based World Models	ICLR	agent 在脑子里"做梦"练本事。这篇把梦的引擎从 RNN 换成 Transformer，记得更长，做得更准。
经典	2025	Dreamer V3: Mastering Diverse Domains through World Models	Nature	同一套设置，让一个 AI 自己玩 150 多种游戏都不用改参数，还第一次靠自己挖到《我的世界》里的钻石。
前沿	2023	GAIA-1	arXiv	GAIA-1 是个会做梦的开车模拟器：给它一段街景视频的开头加一句"我现在打方向盘"，它能接着画出后面几秒街上看到的画面。
前沿	2024	Genie: Generative Interactive Environments	ICML	Genie 看一堆游戏录屏，自己猜出每帧之间"按了什么键"，再用这个"按键"画出下一帧——把死视频变成能玩的小游戏。
前沿	2024	UniSim	ICLR	看过海量视频后，你给它一个动作（说一句话 / 推一下机械臂 / 挪一下镜头），它就生成接下来世界长什么样的视频——像一台会脑补现实的"游戏机"。
前沿	2025	1X World Model Challenge	arXiv	1X 教人形机器人 Neo "脑补下一秒画面"：拿现成视频 AI 当底子，喂自家机器人录像微调，再做成公开赛让大家来卷。
前沿	2025	Cosmos World Foundation Model Platform	arXiv	NVIDIA 用 2000 万小时真实视频，训了一个能"猜下一秒物理世界长啥样"的大模型，给机器人和无人车当通用底座。
前沿	2025	Navigation World Models	CVPR	让机器人"走"之前先在脑子里放一段未来几秒的画面，看会不会撞墙，再决定真的怎么走。

VII Multimodal Ecology 多模态交互与数据生态

era	year	title	venue	tldr
前沿	2025	VLAS: VLA Model With Speech Instructions	ICLR	机器人直接听原声干活：光凭你的嗓音就认出"是你在说话"，再去拿你那只专属的杯子。
前沿	2024	MLA: Multisensory Language-Action Model	arXiv	让机器人不只用眼睛看，还会用"手感"和"空间感"，并且提前猜下一秒发生什么再动手。
祖师爷	2019	Connecting Touch and Vision via Cross-Modal Prediction	CVPR	教 AI"看一眼就猜出摸起来什么感觉、摸一下就猜出在摸哪儿"，让视觉和触觉互相翻译。
祖师爷	2023	ImageBind: One Embedding Space To Bind Them All	CVPR	把图片当翻译官，六种感官（图、文、声、深度、热、动作）就能互相听懂彼此说话。
经典	2022	X-VLM: Multi-Grained Vision Language Pre-Training	ICML	教 AI 看图，不只学"整张图配整句话"，还学"图里某个物体配某个词"——这样问图里某个细节也答得准。
经典	2023	AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model	EACL	一句话：给一个"只识字"的聪明大脑配几副翻译眼镜——看图、看视频、听声、感运动，统统先翻成"假文字"再喂进去，大脑本身一个字都不重学。三件让人眼前一亮的事：不动 LLM 主干：LLaMA-2-70B 全程冻结，只训前面那个小投影层（projection layer），训练成本
经典	2023	AudioPaLM	arXiv	以前要三个工人接力——听写、翻译、配音——才能把你说的中文变成英文语音。AudioPaLM 让一个模型一口气干完，连你的音色都不丢。
经典	2023	FROMAGe: Grounding LLMs to Images	ICML	把一个会说话的大模型整个冻住不动，只在它前后各加一层薄薄的"翻译片"，就让它能看图、找图、还能图文混着聊天。
经典	2024	OneLLM	CVPR	OneLLM 用一套通用「翻译机」，让大语言模型同时听懂图像、声音、点云等八种信号——加新信号只要少量训练，不用从头再做。
前沿	2024	Sparsh: Self-supervised Touch Representations	CoRL	以前每个触觉任务都得从零教机器人。Sparsh 先让模型自己看大量触觉画面学一遍，再做具体任务只要少量例子就够。类比：跟小孩先摸过几千次东西、再去学"握紧水杯"是一个道理。技术路线和 NLP 里 BERT、视觉里 DINO 一致——先大量自学，再小量微调，只是搬到了触觉这个长期
前沿	2025	Tactile Beyond Pixels (Sparsh-X)	CoRL	让机器人的手指不止"看"接触画面，还能听响声、感力度、察打滑——四路信号一起学，摸东西才像人。
前沿	2025	Tactile-VLA	CoRL	让机器人除了会看会听，还学会"摸"——能感到扣子"咔哒"卡入那一下，干插拔、拧螺丝这种细活不再蛮干。
前沿	2025	TLA: Tactile-Language-Action	ICRA	让机器人像你闭眼摸钥匙那样——靠"一段持续的触感"加上一句话指令，自己决定下一步该怎么用手。

VIII RF Perception & Mapping 射频感知与空间建图

era	year	title	venue	tldr
经典	2023	CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches	MobiCom 2025 (Best Artifact Award)	给机器人装一颗几百块的小雷达，哪怕屋里又黑又有烟，它也能一边走一边画出准的 3D 地图，比用相机还清楚。
经典	2024	mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment	SenSys 2024	教一种"看不见脸"的小盒子雷达，没学过的新动作也能猜个八九不离十——比如老人半夜在黑卧室摔倒，它能感知到。
前沿	2023	mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation	MobiSys 2025	不直接问"东西在哪儿"，而是先猜"它的皮朝哪边翘"——雷达就能隔着纸箱看出里面是什么形状。
祖师爷	2019	Can WiFi Estimate Person Pose?	ICCV	想象你家路由器除了上网，还能告诉你"屋里那个人正在做啥姿势"——胳膊抬到哪、腿怎么弯，全画给你看。
祖师爷	2020	See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar	SenSys	机器人在浓烟里也能画出清晰的房间地图——靠一颗几十块的小雷达加一个会"脑补"的神经网络。具体两招：训练时让贵的激光雷达（lidar）和便宜的雷达坐同一辆车，把 lidar 的清晰图当作业答案喂给神经网络（cGAN），教雷达学会脑补。学完老师下车，雷达单飞。认门/墙/玻璃/电
经典	2019	Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm	arXiv	一个 Wi-Fi 小盒子隔着墙照过去，就能画出屋里人的骨架动画——摄像头当老师，电波当学生，学一遍就会了。更具体一点：输入：一个商用雷达（Walabot Developer，几百美元）发出去的电波被人体反射回来后形成的 3D 强度场。输出：屋内每个人的 15 关节点骨架，每
经典	2020	milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion	SenSys	把便宜的毫米波雷达和身上的"动作感应器"（IMU）用神经网络拼起来，让机器在黑暗、烟雾里也能算出自己走到了哪。
经典	2020	RadarSLAM: Radar based Large-Scale SLAM in All Weathers	BMVC	让一台"会转圈的雷达"在大雾大雪天里也能给车画地图、记住自己走过哪。
经典	2021	3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning	IPCCC	用 AI 教小雷达"看清"物体长啥样：从糊糊的电波信号里还原出完整 3D 形状，烟雾灰尘暗光里也能用。
经典	2022	RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals	TMM	漆黑屋子里相机看不见，但雷达回波能"听"出人形。RFMask 让模型把雷达信号直接画成每个人的精细剪影——头、肩、胳膊都画出来。
经典	2023	High Resolution Point Clouds from mmWave Radar	ICRA	便宜雷达拍出来的画面很糊。RadarHD 用神经网络当翻译，把糊画面改成像激光雷达那样清晰的点云图，烟雾、黑暗里都能用。
经典	2023	RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory	TCSVT	用雷达回声画出人的姿势：直接学容易乱猜，先把"回声"和"姿势"两边的特征对齐，再画关节，换房间也更稳。
前沿	2024	Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on	SenSys	在肩膀、胸口、手腕各贴一片简化雷达，每片只能看到身体一小块，算法把这些局部信号拼成完整的 3D 人体形状。
前沿	2024	Diffusion Model is a Good Pose Estimator from 3D RF-Vision	CVPR	毫米波雷达拍出的人像隔了层毛玻璃。这篇论文让 AI 从噪点里一笔笔擦出人体骨架，比一次猜准稳得多。CVPR 2024 收录。
前沿	2024	Enabling Visual Recognition at Radio Frequency (PanoRadar)	MobiCom	PanoRadar 把便宜的小雷达装到一个转台上边转边扫，再让神经网络把模糊回声拼成 3D 地图，让雷达像眼睛一样"看见"房间。
前沿	2025	Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion	arXiv	毫米波信号能穿过纸箱、布帘，Wave-Former 把弹回来的模糊回声拼成藏在背后的杯子、瓶子的完整 3D 形状。

IX Auditory & Acoustic 听觉智能与声学空间交互

era	year	title	venue	tldr
前沿	2024	Proactive Hearing Assistants that Isolate Egocentric Conversations	UIST	戴上这副耳机，它自己听出"现在你在跟谁聊天"，把同伴的声音放大、其他人压下去，你一个按钮都不用按。
经典	2024	NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators	MobiCom	在咖啡馆听不清对面说话？让助听器自己降噪，不连手机、不连云。
祖师爷	2023	Creating speech zones with self-distributing acoustic swarms	Nature	七个像骰子那么大的小机器人，自己爬上桌散成一圈，桌上几个人同时讲话，它能分清谁说了啥。
祖师爷	2019	Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation	IEEE/ACM TASLP	两人同时讲话的混音，喂给一个网络，它能把每个人的声音分别还原。比老方法（看频谱图）更准、更快、更小。
祖师爷	2022	SoundStream: An End-to-End Neural Audio Codec	IEEE/ACM TASLP	让 AI 自己学怎么把声音"打包又拆开"，3 kbps 的小包听起来反而比传统方案 12 kbps 还清楚。
经典	2020	Conformer	Interspeech	让 AI 听人说话时既能听清每个字的咬字，又能联系整段话的意思——一个会同时"听细节"和"听大意"的耳朵。
经典	2020	Dual-path RNN	ICASSP	DPRNN 把超长录音切成小块，让 RNN 先在块里跑、再跨块跑，交替几轮就能把两个人同时说话拆开。
经典	2021	Meta-StyleSpeech	ICML	给模型听几秒陌生人说话的录音，它就能用这个人的声音念任意一句话。不用重新训练、不用收集几小时数据——几秒就够。
经典	2023	AudioLM	TASLP	把声音切成两种"音频字"——一种管说啥、一种管音色，模型像写句子一样续写，给 3 秒就能接出像本人的语音。
经典	2023	EnCodec	TMLR	EnCodec 把声音压成一串很小的数字再还原回来；既比老办法省流量，又因为是数字，AI 可以像写字一样"写"出声音。
经典	2023	MusicLM	arXiv	对着模型说一句"缓慢爵士钢琴配鼓刷"，它就生成几分钟真实音乐——先定骨架（结构），再填细节（音色）。
经典	2023	Robust Speech Recognition via Large-Scale Weak Supervision	ICML	Whisper 把网上 68 万小时音频和字幕一锅烩，喂进普通 Transformer，开箱就能听各种口音、噪声和长录音，还顺手翻译——靠数据杂取胜。
前沿	2023	SeamlessM4T	arXiv	*一个模型搞定 100 种语言的"听懂、翻译、说出来"，省掉以前三四个 App 接力的麻烦。它一口气会做 5 件事，名字像缩写但其实只是"输入 → 输出"的简写： ASR（Automatic Speech Recognition，语音识别）：听写成同语言文字 S2T（Speec
前沿	2024	Stable Audio	ICML	打几个字描述你想要的声音，AI 就能做出几十秒到一两分钟的高音质音乐或音效，长度还能精确到秒。
前沿	2024	Universal Source Separation with Weakly Labelled Data	TASLP	给电脑一段嘈杂录音，告诉它"我只要狗叫"，它就把狗叫从混音里抠出来。一个模型覆盖 527 类日常声音。

X Datasets & Benchmarks 数据集与评测基准

era	year	title	venue	tldr
祖师爷	2019	Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning	CoRL	给那些号称"会举一反三"的机器人算法办一场 50 道动手题的统一考试，看它们是不是真的会。
祖师爷	2019	RLBench: The Robot Learning Benchmark & Learning Environment	RA-L	给机器人手臂出了一套 100 道题的"统考卷"，从此大家都做同一套题，第一次能公平比谁更厉害。
祖师爷	2020	robosuite: A Modular Simulation Framework and Benchmark for Robot Learning	arXiv	robosuite 是机器人 AI 的"标准考场"——同一台仿真机械臂、同一组题目，让全球研究者公平地比谁的算法更聪明。
经典	2021	What Matters in Learning from Offline Human Demonstrations for Robot Manipulation	CoRL	这篇不发明新算法，而是把"机器人看录像学操作"里每个变量挨个换一遍，告诉你哪些真有用、哪些是白忙。
经典	2022	CALVIN	RA-L	CALVIN 是一把"机器人听话考试"的尺子：人说一段话，机器人要在桌上一步接一步把活干完，34 个小任务统一打分。
经典	2023	BridgeData V2	dataset-eval	BridgeData V2 是一份公开的"机器人干活录像库"——6 万段机械臂在 24 个真实场景里的演示视频，大家训机器人时把它当共同起跑线。
经典	2023	LIBERO	NeurIPS	教机器人学新技能时别忘旧技能。LIBERO 是这事的标准考卷，4 套题分别考空间、物体、目标和综合。
经典	2023	RH20T	RSS Workshop	机器人数据集，除拍视频外还录了"手感"和"声音"：拧瓶盖多大力、咔哒卡到位。147 项任务、11 万段。
前沿	2023	Open X-Embodiment	ICRA	22 家实验室把各种机器人的"练手视频"凑成一个大数据集，再训一个通吃模型，发现喂多种机器人比单喂一种学得更好。
前沿	2024	DROID	RSS	全球 18 家实验室一起拍机器人干活的视频，凑出 7.6 万段、564 个真实场景，让机器人不再只会"自家桌子上那点活"。
前沿	2024	RoboCasa	RSS	想造个会做饭的家用机器人？RoboCasa 给你 120 个虚拟厨房、100 个小动作、十万次练习录像，让它先在游戏里练会，再上岗。
前沿	2024	SimplerEnv	NeurIPS	不用搬真机器人，在电脑里就能给 VLA（视觉-语言-动作模型）打分，分数和真机几乎一样准。

XI Simulation & Sim2Real 仿真与真实迁移

era	year	title	venue	tldr
祖师爷	2019	Habitat: A Platform for Embodied AI Research	ICCV	给家用机器人造一个跑得飞快的"VR 房子"，让它在里面绕路撞墙练几千万步，再上岗去你家。
祖师爷	2021	Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning	NeurIPS Datasets	一句话：把"算物理"和"训神经网络"塞进同一张显卡，机器人学走路从"几千台 CPU 跑一晚"压成"一张卡跑几分钟"。类比：以前训机器人像切菜、炒菜、装盘分三个房间，端来端去比真做菜还累；Isaac Gym 把厨房合并，菜不动、工具换着上。效果对照：OpenAI 训魔方机械手用
经典	2020	SAPIEN: A SimulAted Part-based Interactive ENvironment	CVPR	给机器人造了一个虚拟宜家展厅，2,346 件家具每个抽屉、每扇门、每个瓶盖都能真的拉开、推开、拧开。
经典	2021	Habitat 2.0	NeurIPS	上一代 Habitat 只能在虚拟房子里走路看；2.0 让小机器人能真的开冰箱、把杯子从厨房拿到客厅做家务。
经典	2021	ManiSkill	NeurIPS	ManiSkill 是教机器人开抽屉、开柜门这种家具的统一考场—— 专测它练完几十个柜子之后，能不能上手没见过的第 101 个。
经典	2022	DexMV	ECCV	让机械手学拧瓶盖、倒水太难，DexMV 让算法看人手视频学，把人的动作"翻译"成仿真里机械手能照着练的示范。
经典	2022	ProcTHOR	NeurIPS	过去训练 AI 在屋里走来走去，得人工一间一间搭样板房，慢且少。ProcTHOR 让电脑按规则批量造 1 万套房，AI 见多了，换个没去过的房子也能找到东西。
前沿	2024	BEHAVIOR-1K	CoRL	斯坦福搭的"机器人家务考场"：1000 道家务题、50 间样板房、9000 多件物品，让所有人用同一把尺子比"机器人到底会不会做家务"。
前沿	2024	Habitat 3.0	ICLR	在虚拟的家里加一个会走会动的"假人"，让机器人练习扫地搬东西时，得学会一边干活一边躲人、配合人。
前沿	2025	Isaac Lab	arXiv	机器人在电脑里"练功"的虚拟训练场。以前练得飞快但看不清画面，画面漂亮又练得慢；Isaac Lab 把这两件事捏到了一起。
前沿	2025	MuJoCo Playground	arXiv	一个 pip install 就能装好的开源仿真平台，让机器人先在电脑里把走路、抓东西练熟，再几乎原样搬到真机上跑。

同一主题下，哪几篇该先读？

I VLM Foundation 视觉-语言基座

II High-Level Planning 高层任务规划

III End-to-End VLA 端到端视觉-语言-动作

IV Diffusion Policy 扩散策略与流匹配

V Imitation Learning 模仿学习与遥操作

VI World Model & Video Policy 世界模型与视频策略

VII Multimodal Ecology 多模态交互与数据生态

VIII RF Perception & Mapping 射频感知与空间建图

IX Auditory & Acoustic 听觉智能与声学空间交互

X Datasets & Benchmarks 数据集与评测基准

XI Simulation & Sim2Real 仿真与真实迁移