同一主题下,哪几篇该先读?
把每个主题里的论文按 era 排一排,每条带年份和一句话定位。一眼看到"祖师爷 → 经典 → 前沿"的关系。
I VLM Foundation 视觉-语言基座
| era | year | title | venue | tldr |
|---|---|---|---|---|
| 祖师爷 | 2023 | LLaVA: Visual Instruction Tuning | NeurIPS | 给一个只会打字聊天的 AI 装上眼睛——你随手拍张照片发过去,它能看着图陪你说话。 |
| 经典 | 2023 | 3DShape2VecSet: 3D Shape Representation for Diffusion Models | SIGGRAPH | 把一只 3D 柯基拆成 512 张小卡片;电脑学会卡片的规律,就能凭空造出新的 3D 模型。 |
| 祖师爷 | 2021 | Learning Transferable Visual Models From Natural Language Supervision | ICML | 教 AI 同时认图和认字,把 4 亿对网上图文塞进同一张坐标。之后你说"一只猫",它就能从新图里挑出猫——不用为新任务再训一遍。 |
| 祖师爷 | 2022 | Flamingo: a Visual Language Model for Few-Shot Learning | NeurIPS | 教一个会聊天的 AI 也学会看图,给它看两三个示范,它就能照着做新题。 |
| 经典 | 2022 | BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation | ICML | 一句话:让一个模型同时学会看图和写字,再让它帮自己把网上烂配文重写干净,回头再用干净数据训一遍——多个任务全线变强。 三个关键贡献: MED(Multimodal mixture of Encoder-Decoder):一个模型三种身份切换——纯编码器、看图的文本编码器、看图的文 |
| 经典 | 2022 | FILIP: Fine-grained Interactive Language-Image Pre-Training | ICLR | 以前是"整张图配整句话",FILIP 让图的每一小块和句子的每个词互相找最像的伙伴,模型就能学会"狗在左下角"这种细节。 |
| 经典 | 2023 | BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models | ICML | BLIP-2 不动两个大模型——一个负责看图、一个负责说话——只在中间训练一个小"翻译",就让 AI 学会了看图说话。 |
| 经典 | 2023 | EVA-CLIP: Improved Training Techniques for CLIP at Scale | arXiv | 不改 CLIP 架构,只改训练流程:用一个已经"懂图"的视觉模型起步 + 训练时只看半张图——更少数据反而训出更强的看图模型。 |
| 经典 | 2023 | OBELICS | NeurIPS | HuggingFace 把网上 1.41 亿个"图文穿插"的网页洗干净打包开源,让大家也能像 DeepMind 那样训出会看图读长文的模型。 |
| 经典 | 2023 | Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond | arXiv | 给会聊天的 AI 戴副眼镜:一次学会看图、念中英文招牌、用框指出物体、还能多轮聊天。这就是阿里 2023 年开源的 Qwen-VL。 |
| 经典 | 2023 | Sigmoid Loss for Language Image Pre-Training | ICCV | 教模型"图配文字",CLIP 要全班一起排名打分,SigLIP 改成一对一判断"是不是一对"。算得快、省内存、小批也能学。 |
| 经典 | 2024 | DeepSeek-VL: Towards Real-World Vision-Language Understanding | arXiv | DeepSeek 在 2024 年开源的"会看图"小模型,主打能看清发票、PPT、论文截图里的小字,不只会答考试题。 |
| 经典 | 2024 | Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks | CVPR | 一个看图模型,你跟它说"圈猫""描述这张图""找红车"它都能用同一个脑子做,回答全是一段文字。 |
| 经典 | 2024 | InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks | CVPR | 让"看图的脑子"也长到 6B 参数,和"会说话的脑子"一样大,AI 看图说话才不偏科,而且开源就能用。 |
| 经典 | 2024 | Improved Baselines with Visual Instruction Tuning | CVPR | 给会聊天的 AI 配一副"看图眼镜"。把眼镜从一片镜片换成两片,再多给它看点带字的图片,看图答题就刷榜了。 |
| 前沿 | 2024 | What matters when building vision-language models? | NeurIPS | 做"看图说话 AI"时大家凭感觉选零件,这篇把每个选择拆开做对照实验,整理成一份避坑清单,再训了个 8B 模型当样板。 |
| 前沿 | 2024 | Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling | arXiv | 把模型、数据、推理三件事一起加大,让免费开源的看图模型第一次在大学考试里追上顶级闭源模型。 |
| 前沿 | 2024 | The Llama 3 Herd of Models | arXiv | Meta 把训练 Llama 3 大模型的全套"菜谱"公开了——用了什么料、多少张卡、跑多久、考多少分。 |
| 前沿 | 2024 | LLaVA-NeXT-Interleave | arXiv | 教 AI 像刷图文并茂的小红书:图和字按顺序穿着读,多图、视频、3D 都用这一招,不用各训一个模型。 |
| 前沿 | 2024 | LLaVA-OneVision: Easy Visual Task Transfer | arXiv | 一套配方教会一个模型同时看懂单张图、几张图、和视频,开源圈第一次在视频上接近 GPT-4V。 |
| 前沿 | 2024 | Long-CLIP: Unlocking the Long-Text Capability of CLIP | ECCV | 给只能读 77 字短纸条的 CLIP 做两个小手术,让它能读 248 字的长纸条,但又没忘掉原来认识的那些短词。 |
| 前沿 | 2024 | Pixtral 12B | arXiv | Mistral 开源的"会看图聊天的助手"——从一开始就同时学看图和说话,图想多大就多大,能免费拿去做产品。 |
II High-Level Planning 高层任务规划
| era | year | title | venue | tldr |
|---|---|---|---|---|
| 祖师爷 | 2022 | SayCan: Do As I Can, Not As I Say | CoRL | 让"见多识广但出不了门的 AI"出主意,让机器人自己摸口袋说"这事我现在能做",两边都点头才动手。 |
| 祖师爷 | 2022 | Inner Monologue: Embodied Reasoning through Planning with Language Models | CoRL | 让机器人边干活边在心里念叨:看到啥、做成没、人改主意没,全翻成文字塞回 AI,它就能边做边改计划。 |
| 祖师爷 | 2023 | Code as Policies: Language Model Programs for Embodied Control | ICRA | 你说一句"把方块叠进碗里",AI 当场写几行 Python 代码,机器人立刻照着跑。不用提前教它新动作。 |
| 祖师爷 | 2023 | LLM+P: Empowering LLMs with Optimal Planning | arXiv | 让 LLM 只当翻译——把你说的话翻译成机器格式,真正的规划交给老牌算法去算。LLM 管说话,算法管动脑子。 |
| 祖师爷 | 2023 | PaLM-E: An Embodied Multimodal Language Model | ICML | 教 ChatGPT 长出眼睛和手脚:你说一句话 + 让它瞄一眼现场,它直接列出机器人该做的几步。 |
| 祖师爷 | 2023 | ProgPrompt | ICRA | 让大模型像写代码一样做计划:你说"把苹果放冰箱",它直接吐出一串 Python 调用,机器人照着一行行跑就行。 |
| 经典 | 2023 | ChatGPT for Robotics | IEEE Access | 教 ChatGPT 当机器人的"代写助理":先告诉它机器人会做哪些事,再让它把人话翻成代码,人盯着改。 |
| 经典 | 2023 | VoxPoser | CoRL | VoxPoser 让大模型给机器人画两张 3D 地图:红色地方要去,灰色地方要躲,机器人照着地图走出动作,全程不训练新模型。 |
| 经典 | 2024 | GenSim | ICLR | 让 ChatGPT 当"出题老师",自动给机器人编一堆练习关卡,连标准答案也一起写好。 |
| 经典 | 2024 | RoboFlamingo | ICLR | 拿一个已经会看图说话的现成大模型当大脑,后面接一只"小手",就教会机械臂干活——不用从头训。 |
| 经典 | 2024 | Tree-Planner | ICLR | 让大模型一次写好十份菜谱,把重复步骤合成一棵树,做菜时照树走,错了就换条岔路,不用反复打电话问。 |
III End-to-End VLA 端到端视觉-语言-动作
| era | year | title | venue | tldr |
|---|---|---|---|---|
| 经典 | 2024 | OpenVLA: An Open-Source Vision-Language-Action Model | CoRL | 把一个会"看图说话"的 AI 改一改,让它学会"看一眼桌面就动手摆东西",再把全部训练配方开源送出去。 |
| 祖师爷 | 2022 | RT-1: Robotics Transformer for Real-World Control at Scale | RSS | 让机器人看完 13 万段人类亲手示范,就能听一句中文,在真办公室里把可乐罐拿出来放进抽屉。 |
| 经典 | 2023 | RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control | CoRL | 把机器人动作翻译成一句话,让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字,就能动手。 |
| 经典 | 2023 | RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches | ICLR | 教机器人做新动作,光说话不够、给一张完成图也不够。这篇论文说:在画面上画一条"手该走的路"——机器人立刻照着做。 |
| 经典 | 2024 | 3D Diffusion Policy (DP3) | RSS | 教机器人擦桌子,不给它看照片,改给它看带深度的 3D 点云。结果只用 10 段录像就够学会一个新任务。 |
| 经典 | 2024 | Octo: An Open-Source Generalist Robot Policy | RSS | 第一个真正开源的通用机器人"大脑":先看 80 万段机器人录像学基础动作,你下载回来微调几小时,就能让自家机器人学新活。 |
| 前沿 | 2024 | 3D-VLA | ICML | 让机器人除了看平面照片,还能"摸到"立体形状;动手前先在脑里画一张"做完后的样子",再照着画面去动。 |
| 前沿 | 2024 | GR-2: Generative Video-Language-Action Model | arXiv | 让机器人先刷 3800 万段网络视频攒常识,再练动手;它干活时脑子里会"预演"下一秒的画面。 |
| 前沿 | 2024 | RDT-1B: Diffusion Foundation Model for Bimanual Manipulation | ICLR | 清华团队给双臂机器人配的"大脑":10 亿参数,听一句话就能让两只机械臂配合着倒水、叠衣服。 |
| 前沿 | 2024 | RoboMamba | NeurIPS | 机器人脑子原本用 Transformer 拼出来,反应慢、显存吃紧。RoboMamba 换成 Mamba(一种"流水线式"架构),让机器人想得更快、更省。 |
| 前沿 | 2024 | TinyVLA | RA-L | 把会听话的机器人大脑瘦身到 1.4B,动作生成换成"先乱后凿"的扩散模型,不靠云端也能实时干活。 |
| 前沿 | 2024 | TraceVLA: Visual Trace Prompting | ICLR | 机器人的手刚走过哪里?TraceVLA 把这条路径直接画在它看到的照片上,让它看见自己的足迹,再决定下一步往哪动。 |
| 前沿 | 2025 | DexVLA | arXiv | 让一个只会"看图说话"的大脑别动,给它配一只 10 亿参数的"专业的手"。脑负责理解,手负责干活,互不干扰。 |
| 前沿 | 2025 | OpenHelix | arXiv | 机器人版的"大脑加小脑"分工:大脑慢慢听懂你说的话,小脑飞快动手干活。代码全部开源,对标 Figure 公司不公开的 Helix。 |
| 前沿 | 2025 | OpenVLA-OFT | RSS | 原版机器人模型一个字一个字念动作,慢还一抖一抖。OpenVLA-OFT 拧开三个开关——一口气说、一段段说、说连续数字——又快又稳。 |
| 前沿 | 2025 | SpatialVLA | arXiv | 教机器人两件事:用普通摄像头也能看出远近;常用动作存成肌肉记忆,不用每次重新算。 |
IV Diffusion Policy 扩散策略与流匹配
| era | year | title | venue | tldr |
|---|---|---|---|---|
| 祖师爷 | 2023 | Diffusion Policy: Visuomotor Policy Learning via Action Diffusion | RSS | 让机器人像调电视雪花一样产生动作:从满屏乱码开始,擦几下,下一步该怎么动就擦出来了。 |
| 经典 | 2024 | 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations | RSS | 让机器人改看 3D 立体形状(点云)而不是 2D 照片来学动作,10 条示范就够,72 个任务平均比原版强 24.2%。 |
| 经典 | 2024 | Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation | RSS | 机器人选下一步动作本来要慢慢搅 100 下才出一步,这篇教它一下就跳到答案——快约十倍,连笔记本都跑得动。 |
| 经典 | 2024 | EquiBot: SIM(3)-Equivariant Diffusion Policy | CoRL | 教机器人几次就够了。挪位置、转方向、换大小都不用重学,因为这件事直接焊在网络结构里。 |
| 前沿 | 2024 | Affordance-based Robot Manipulation with Flow Matching | IROS | 教机器人做事时,先让它看懂物体能怎么用,再用一种"画直线"式的方法直接生成动作——比扩散模型更快更稳。 |
| 前沿 | 2024 | pi_0: Vision-Language-Action Flow Model | arXiv | 让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑",再加一个会画连续动作的"流匹配"小头。 |
| 前沿 | 2025 | DiT-Policy | ICRA | 把画图领域火起来的新骨架(DiT)搬到机器人身上,再把每个零件挨个拆开看,到底哪个让它真变好。 |
| 前沿 | 2025 | Diffusion Policy Policy Optimization (DPPO) | ICLR | 先模仿老师傅、再自己练。DPPO 把"自己练"那步拆成很多小动作,让常规 RL 也能调教扩散策略。 |
| 前沿 | 2025 | FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching | AAAI | 让机器人不再"在脑子里画 100 张草稿才动手",而是看一眼立体世界就一步给出动作 — 又快又稳,真机能跑得动。 |
| 前沿 | 2025 | FAST: Efficient Action Tokenization for VLA | RSS | 机器人动作又长又啰嗦塞不进 AI 模型,FAST 学 MP3 压音乐的办法,把一长串动作压成几十个"词",AI 像说话一样把它念出来。 |
| 前沿 | 2025 | pi_0.5: VLA with Open-World Generalization | arXiv | 让机器人第一次走进一个陌生人家,也能听懂"收拾下厨房"然后自己一步步把活干完。 |
V Imitation Learning 模仿学习与遥操作
| era | year | title | venue | tldr |
|---|---|---|---|---|
| 祖师爷 | 2011 | A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning | AISTATS | 光看老师开车的录像不够 — 学生一走偏就越错越离谱。DAgger 让学生自己先开几圈,把走偏的地方拿去问老师答案,再训,反复几轮就稳了。 |
| 祖师爷 | 2016 | Generative Adversarial Imitation Learning | NeurIPS | 让 AI 看大厨做菜的录像,再找个"挑刺老师"分辨它做得像不像,靠这种较劲学会做事,不用猜大厨心里的打分标准。 |
| 经典 | 2021 | Implicit Behavioral Cloning | CoRL | 别让模型直接报"动作是这个",而是让它给一堆候选动作打分、挑最低分那个——机器人的手就突然变巧了。 |
| 经典 | 2022 | Behavior Transformers: Cloning k Modes with One Stone | NeurIPS | 看一堆人做同一件事却各有各的做法,BeT 让 AI 先认出"有几种主流流派",再在每个流派里微调——而不是把所有动作平均成一个四不像。 |
| 经典 | 2023 | Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA) | RSS | 几千美元搭一套双臂遥控器(ALOHA)让人录 50 次示范,机器人就学会一段一段动(ACT),能完成穿扎带这种细活。 |
| 经典 | 2023 | AnyTeleop | CoRL | 用一台普通摄像头拍你的手,机械手就跟着模仿你的动作;换什么型号的机械手都不用重写代码。 |
| 经典 | 2023 | RoboCat | TMLR | 一个 AI 大脑同时指挥好几种不同的机械臂干活,干完还会把成功的录像收回来当作下一轮的教材,越练越强。 |
| 前沿 | 2024 | ALOHA 2 | Tech Report | ALOHA 2 不是新算法,而是把"教机器人用双手干活"的那台设备升级了一遍:更顺手、更耐用、图纸全开源,方便大家一起攒训练数据。 |
| 前沿 | 2024 | DexCap | RSS | 人戴上"会记录动作的手套"自己干活,把手的轨迹录下来教机器人——机器人完全不必在现场。 |
| 前沿 | 2024 | HumanPlus | CoRL | HumanPlus 让机器人当场跟着人做动作,做几十次后机器人自己也会了——把人当成机器人的"示范老师"。 |
| 前沿 | 2024 | Mobile ALOHA | CoRL | 给桌面机器人加了一辆小车,让人手把手带它做家务(炒虾、擦桌、洗碗),每招只示范 50 次就能学会。 |
| 前沿 | 2024 | Universal Manipulation Interface | RSS | 人手拿一个"带摄像头的夹子"在厨房自己做事,录下来就能教机器人,全程不用机器人在场。 |
| 前沿 | 2024 | Behavior Generation with Latent Actions (VQ-BeT) | ICML | 机器人本来要画一条平滑曲线动作,VQ-BeT 让它改成"先选一个动作词、再小修一点"——就像挑表情包再加文字,比硬画曲线更不容易出怪招。 |
| 前沿 | 2025 | Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3) | RSS | 让人形机器人用"自己眼睛"的视角看世界(而不是死记房间地图)。换间屋子也照样干活,不用重学。 |
| 前沿 | 2025 | SmolVLA | arXiv | Hugging Face 推出的小型机器人模型:把"看到 + 听到 + 动手"塞进一张游戏显卡能训的小脑袋,让没数据中心的人也能在家玩具身 AI。 |
VI World Model & Video Policy 世界模型与视频策略
| era | year | title | venue | tldr |
|---|---|---|---|---|
| 前沿 | 2025 | Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control | arXiv | 把一个会"脑补下一秒视频"的大模型,再练一遍,就能让它指挥机械臂做家务。 |
| 祖师爷 | 2018 | World Models | NeurIPS | 让 AI 先在自己脑子里反复"做白日梦"练打游戏,练熟了再去真游戏里上场——居然真能赢。 |
| 祖师爷 | 2020 | Dream to Control: Learning Behaviors by Latent Imagination | ICLR | 教 AI 在脑子里反复"做白日梦"演练动作,不用真去摔跤,就能学会跑步、翻跟头这种复杂动作。 |
| 经典 | 2021 | Mastering Atari with Discrete World Models | ICLR | 让 AI 闭眼"做白日梦"练打老游戏,第一次只靠脑子里想象就打到人类水平。 |
| 经典 | 2022 | DayDreamer | CoRL | 让一只四足机器人不靠仿真,在真实世界里 1 小时就学会走路——靠的是边走边在脑子里"做梦"演练。 |
| 经典 | 2023 | Transformers are Sample-Efficient World Models | ICLR | 把游戏画面切成一格格"积木",让 AI 像写句子一样接龙下一帧,然后让它在脑子里"自己跟自己玩"练强化学习——只玩两小时就接近人类水平。 |
| 经典 | 2023 | TWM: Transformer-based World Models | ICLR | agent 在脑子里"做梦"练本事。这篇把梦的引擎从 RNN 换成 Transformer,记得更长,做得更准。 |
| 经典 | 2025 | Dreamer V3: Mastering Diverse Domains through World Models | Nature | 同一套设置,让一个 AI 自己玩 150 多种游戏都不用改参数,还第一次靠自己挖到《我的世界》里的钻石。 |
| 前沿 | 2023 | GAIA-1 | arXiv | GAIA-1 是个会做梦的开车模拟器:给它一段街景视频的开头加一句"我现在打方向盘",它能接着画出后面几秒街上看到的画面。 |
| 前沿 | 2024 | Genie: Generative Interactive Environments | ICML | Genie 看一堆游戏录屏,自己猜出每帧之间"按了什么键",再用这个"按键"画出下一帧——把死视频变成能玩的小游戏。 |
| 前沿 | 2024 | UniSim | ICLR | 看过海量视频后,你给它一个动作(说一句话 / 推一下机械臂 / 挪一下镜头),它就生成接下来世界长什么样的视频——像一台会脑补现实的"游戏机"。 |
| 前沿 | 2025 | 1X World Model Challenge | arXiv | 1X 教人形机器人 Neo "脑补下一秒画面":拿现成视频 AI 当底子,喂自家机器人录像微调,再做成公开赛让大家来卷。 |
| 前沿 | 2025 | Cosmos World Foundation Model Platform | arXiv | NVIDIA 用 2000 万小时真实视频,训了一个能"猜下一秒物理世界长啥样"的大模型,给机器人和无人车当通用底座。 |
| 前沿 | 2025 | Navigation World Models | CVPR | 让机器人"走"之前先在脑子里放一段未来几秒的画面,看会不会撞墙,再决定真的怎么走。 |
VII Multimodal Ecology 多模态交互与数据生态
| era | year | title | venue | tldr |
|---|---|---|---|---|
| 前沿 | 2025 | VLAS: VLA Model With Speech Instructions | ICLR | 机器人直接听原声干活:光凭你的嗓音就认出"是你在说话",再去拿你那只专属的杯子。 |
| 前沿 | 2024 | MLA: Multisensory Language-Action Model | arXiv | 让机器人不只用眼睛看,还会用"手感"和"空间感",并且提前猜下一秒发生什么再动手。 |
| 祖师爷 | 2019 | Connecting Touch and Vision via Cross-Modal Prediction | CVPR | 教 AI"看一眼就猜出摸起来什么感觉、摸一下就猜出在摸哪儿",让视觉和触觉互相翻译。 |
| 祖师爷 | 2023 | ImageBind: One Embedding Space To Bind Them All | CVPR | 把图片当翻译官,六种感官(图、文、声、深度、热、动作)就能互相听懂彼此说话。 |
| 经典 | 2022 | X-VLM: Multi-Grained Vision Language Pre-Training | ICML | 教 AI 看图,不只学"整张图配整句话",还学"图里某个物体配某个词"——这样问图里某个细节也答得准。 |
| 经典 | 2023 | AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model | EACL | 一句话:给一个"只识字"的聪明大脑配几副翻译眼镜——看图、看视频、听声、感运动,统统先翻成"假文字"再喂进去,大脑本身一个字都不重学。 三件让人眼前一亮的事: 不动 LLM 主干:LLaMA-2-70B 全程冻结,只训前面那个小投影层(projection layer),训练成本 |
| 经典 | 2023 | AudioPaLM | arXiv | 以前要三个工人接力——听写、翻译、配音——才能把你说的中文变成英文语音。AudioPaLM 让一个模型一口气干完,连你的音色都不丢。 |
| 经典 | 2023 | FROMAGe: Grounding LLMs to Images | ICML | 把一个会说话的大模型整个冻住不动,只在它前后各加一层薄薄的"翻译片",就让它能看图、找图、还能图文混着聊天。 |
| 经典 | 2024 | OneLLM | CVPR | OneLLM 用一套通用「翻译机」,让大语言模型同时听懂图像、声音、点云等八种信号——加新信号只要少量训练,不用从头再做。 |
| 前沿 | 2024 | Sparsh: Self-supervised Touch Representations | CoRL | 以前每个触觉任务都得从零教机器人。Sparsh 先让模型自己看大量触觉画面学一遍,再做具体任务只要少量例子就够。 类比:跟小孩先摸过几千次东西、再去学"握紧水杯"是一个道理。技术路线和 NLP 里 BERT、视觉里 DINO 一致——先大量自学,再小量微调,只是搬到了触觉这个长期 |
| 前沿 | 2025 | Tactile Beyond Pixels (Sparsh-X) | CoRL | 让机器人的手指不止"看"接触画面,还能听响声、感力度、察打滑——四路信号一起学,摸东西才像人。 |
| 前沿 | 2025 | Tactile-VLA | CoRL | 让机器人除了会看会听,还学会"摸"——能感到扣子"咔哒"卡入那一下,干插拔、拧螺丝这种细活不再蛮干。 |
| 前沿 | 2025 | TLA: Tactile-Language-Action | ICRA | 让机器人像你闭眼摸钥匙那样——靠"一段持续的触感"加上一句话指令,自己决定下一步该怎么用手。 |
VIII RF Perception & Mapping 射频感知与空间建图
| era | year | title | venue | tldr |
|---|---|---|---|---|
| 经典 | 2023 | CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches | MobiCom 2025 (Best Artifact Award) | 给机器人装一颗几百块的小雷达,哪怕屋里又黑又有烟,它也能一边走一边画出准的 3D 地图,比用相机还清楚。 |
| 经典 | 2024 | mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment | SenSys 2024 | 教一种"看不见脸"的小盒子雷达,没学过的新动作也能猜个八九不离十——比如老人半夜在黑卧室摔倒,它能感知到。 |
| 前沿 | 2023 | mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation | MobiSys 2025 | 不直接问"东西在哪儿",而是先猜"它的皮朝哪边翘"——雷达就能隔着纸箱看出里面是什么形状。 |
| 祖师爷 | 2019 | Can WiFi Estimate Person Pose? | ICCV | 想象你家路由器除了上网,还能告诉你"屋里那个人正在做啥姿势"——胳膊抬到哪、腿怎么弯,全画给你看。 |
| 祖师爷 | 2020 | See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar | SenSys | 机器人在浓烟里也能画出清晰的房间地图——靠一颗几十块的小雷达加一个会"脑补"的神经网络。 具体两招: 训练时让贵的激光雷达(lidar)和便宜的雷达坐同一辆车,把 lidar 的清晰图当作业答案喂给神经网络(cGAN),教雷达学会脑补。学完老师下车,雷达单飞。 认门/墙/玻璃/电 |
| 经典 | 2019 | Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm | arXiv | 一个 Wi-Fi 小盒子隔着墙照过去,就能画出屋里人的骨架动画——摄像头当老师,电波当学生,学一遍就会了。 更具体一点: 输入:一个商用雷达(Walabot Developer,几百美元)发出去的电波被人体反射回来后形成的 3D 强度场。 输出:屋内每个人的 15 关节点骨架,每 |
| 经典 | 2020 | milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion | SenSys | 把便宜的毫米波雷达和身上的"动作感应器"(IMU)用神经网络拼起来,让机器在黑暗、烟雾里也能算出自己走到了哪。 |
| 经典 | 2020 | RadarSLAM: Radar based Large-Scale SLAM in All Weathers | BMVC | 让一台"会转圈的雷达"在大雾大雪天里也能给车画地图、记住自己走过哪。 |
| 经典 | 2021 | 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning | IPCCC | 用 AI 教小雷达"看清"物体长啥样:从糊糊的电波信号里还原出完整 3D 形状,烟雾灰尘暗光里也能用。 |
| 经典 | 2022 | RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals | TMM | 漆黑屋子里相机看不见,但雷达回波能"听"出人形。RFMask 让模型把雷达信号直接画成每个人的精细剪影——头、肩、胳膊都画出来。 |
| 经典 | 2023 | High Resolution Point Clouds from mmWave Radar | ICRA | 便宜雷达拍出来的画面很糊。RadarHD 用神经网络当翻译,把糊画面改成像激光雷达那样清晰的点云图,烟雾、黑暗里都能用。 |
| 经典 | 2023 | RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory | TCSVT | 用雷达回声画出人的姿势:直接学容易乱猜,先把"回声"和"姿势"两边的特征对齐,再画关节,换房间也更稳。 |
| 前沿 | 2024 | Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on | SenSys | 在肩膀、胸口、手腕各贴一片简化雷达,每片只能看到身体一小块,算法把这些局部信号拼成完整的 3D 人体形状。 |
| 前沿 | 2024 | Diffusion Model is a Good Pose Estimator from 3D RF-Vision | CVPR | 毫米波雷达拍出的人像隔了层毛玻璃。这篇论文让 AI 从噪点里一笔笔擦出人体骨架,比一次猜准稳得多。CVPR 2024 收录。 |
| 前沿 | 2024 | Enabling Visual Recognition at Radio Frequency (PanoRadar) | MobiCom | PanoRadar 把便宜的小雷达装到一个转台上边转边扫,再让神经网络把模糊回声拼成 3D 地图,让雷达像眼睛一样"看见"房间。 |
| 前沿 | 2025 | Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion | arXiv | 毫米波信号能穿过纸箱、布帘,Wave-Former 把弹回来的模糊回声拼成藏在背后的杯子、瓶子的完整 3D 形状。 |
IX Auditory & Acoustic 听觉智能与声学空间交互
| era | year | title | venue | tldr |
|---|---|---|---|---|
| 前沿 | 2024 | Proactive Hearing Assistants that Isolate Egocentric Conversations | UIST | 戴上这副耳机,它自己听出"现在你在跟谁聊天",把同伴的声音放大、其他人压下去,你一个按钮都不用按。 |
| 经典 | 2024 | NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators | MobiCom | 在咖啡馆听不清对面说话?让助听器自己降噪,不连手机、不连云。 |
| 祖师爷 | 2023 | Creating speech zones with self-distributing acoustic swarms | Nature | 七个像骰子那么大的小机器人,自己爬上桌散成一圈,桌上几个人同时讲话,它能分清谁说了啥。 |
| 祖师爷 | 2019 | Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation | IEEE/ACM TASLP | 两人同时讲话的混音,喂给一个网络,它能把每个人的声音分别还原。比老方法(看频谱图)更准、更快、更小。 |
| 祖师爷 | 2022 | SoundStream: An End-to-End Neural Audio Codec | IEEE/ACM TASLP | 让 AI 自己学怎么把声音"打包又拆开",3 kbps 的小包听起来反而比传统方案 12 kbps 还清楚。 |
| 经典 | 2020 | Conformer | Interspeech | 让 AI 听人说话时既能听清每个字的咬字,又能联系整段话的意思——一个会同时"听细节"和"听大意"的耳朵。 |
| 经典 | 2020 | Dual-path RNN | ICASSP | DPRNN 把超长录音切成小块,让 RNN 先在块里跑、再跨块跑,交替几轮就能把两个人同时说话拆开。 |
| 经典 | 2021 | Meta-StyleSpeech | ICML | 给模型听几秒陌生人说话的录音,它就能用这个人的声音念任意一句话。不用重新训练、不用收集几小时数据——几秒就够。 |
| 经典 | 2023 | AudioLM | TASLP | 把声音切成两种"音频字"——一种管说啥、一种管音色,模型像写句子一样续写,给 3 秒就能接出像本人的语音。 |
| 经典 | 2023 | EnCodec | TMLR | EnCodec 把声音压成一串很小的数字再还原回来;既比老办法省流量,又因为是数字,AI 可以像写字一样"写"出声音。 |
| 经典 | 2023 | MusicLM | arXiv | 对着模型说一句"缓慢爵士钢琴配鼓刷",它就生成几分钟真实音乐——先定骨架(结构),再填细节(音色)。 |
| 经典 | 2023 | Robust Speech Recognition via Large-Scale Weak Supervision | ICML | Whisper 把网上 68 万小时音频和字幕一锅烩,喂进普通 Transformer,开箱就能听各种口音、噪声和长录音,还顺手翻译——靠数据杂取胜。 |
| 前沿 | 2023 | SeamlessM4T | arXiv | *一个模型搞定 100 种语言的"听懂、翻译、说出来",省掉以前三四个 App 接力的麻烦。 它一口气会做 5 件事,名字像缩写但其实只是"输入 → 输出"的简写: ASR(Automatic Speech Recognition,语音识别):听写成同语言文字 S2T(Speec |
| 前沿 | 2024 | Stable Audio | ICML | 打几个字描述你想要的声音,AI 就能做出几十秒到一两分钟的高音质音乐或音效,长度还能精确到秒。 |
| 前沿 | 2024 | Universal Source Separation with Weakly Labelled Data | TASLP | 给电脑一段嘈杂录音,告诉它"我只要狗叫",它就把狗叫从混音里抠出来。一个模型覆盖 527 类日常声音。 |
X Datasets & Benchmarks 数据集与评测基准
| era | year | title | venue | tldr |
|---|---|---|---|---|
| 祖师爷 | 2019 | Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning | CoRL | 给那些号称"会举一反三"的机器人算法办一场 50 道动手题的统一考试,看它们是不是真的会。 |
| 祖师爷 | 2019 | RLBench: The Robot Learning Benchmark & Learning Environment | RA-L | 给机器人手臂出了一套 100 道题的"统考卷",从此大家都做同一套题,第一次能公平比谁更厉害。 |
| 祖师爷 | 2020 | robosuite: A Modular Simulation Framework and Benchmark for Robot Learning | arXiv | robosuite 是机器人 AI 的"标准考场"——同一台仿真机械臂、同一组题目,让全球研究者公平地比谁的算法更聪明。 |
| 经典 | 2021 | What Matters in Learning from Offline Human Demonstrations for Robot Manipulation | CoRL | 这篇不发明新算法,而是把"机器人看录像学操作"里每个变量挨个换一遍,告诉你哪些真有用、哪些是白忙。 |
| 经典 | 2022 | CALVIN | RA-L | CALVIN 是一把"机器人听话考试"的尺子:人说一段话,机器人要在桌上一步接一步把活干完,34 个小任务统一打分。 |
| 经典 | 2023 | BridgeData V2 | dataset-eval | BridgeData V2 是一份公开的"机器人干活录像库"——6 万段机械臂在 24 个真实场景里的演示视频,大家训机器人时把它当共同起跑线。 |
| 经典 | 2023 | LIBERO | NeurIPS | 教机器人学新技能时别忘旧技能。LIBERO 是这事的标准考卷,4 套题分别考空间、物体、目标和综合。 |
| 经典 | 2023 | RH20T | RSS Workshop | 机器人数据集,除拍视频外还录了"手感"和"声音":拧瓶盖多大力、咔哒卡到位。147 项任务、11 万段。 |
| 前沿 | 2023 | Open X-Embodiment | ICRA | 22 家实验室把各种机器人的"练手视频"凑成一个大数据集,再训一个通吃模型,发现喂多种机器人比单喂一种学得更好。 |
| 前沿 | 2024 | DROID | RSS | 全球 18 家实验室一起拍机器人干活的视频,凑出 7.6 万段、564 个真实场景,让机器人不再只会"自家桌子上那点活"。 |
| 前沿 | 2024 | RoboCasa | RSS | 想造个会做饭的家用机器人?RoboCasa 给你 120 个虚拟厨房、100 个小动作、十万次练习录像,让它先在游戏里练会,再上岗。 |
| 前沿 | 2024 | SimplerEnv | NeurIPS | 不用搬真机器人,在电脑里就能给 VLA(视觉-语言-动作模型)打分,分数和真机几乎一样准。 |
XI Simulation & Sim2Real 仿真与真实迁移
| era | year | title | venue | tldr |
|---|---|---|---|---|
| 祖师爷 | 2019 | Habitat: A Platform for Embodied AI Research | ICCV | 给家用机器人造一个跑得飞快的"VR 房子",让它在里面绕路撞墙练几千万步,再上岗去你家。 |
| 祖师爷 | 2021 | Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning | NeurIPS Datasets | 一句话:把"算物理"和"训神经网络"塞进同一张显卡,机器人学走路从"几千台 CPU 跑一晚"压成"一张卡跑几分钟"。 类比:以前训机器人像切菜、炒菜、装盘分三个房间,端来端去比真做菜还累;Isaac Gym 把厨房合并,菜不动、工具换着上。 效果对照:OpenAI 训魔方机械手用 |
| 经典 | 2020 | SAPIEN: A SimulAted Part-based Interactive ENvironment | CVPR | 给机器人造了一个虚拟宜家展厅,2,346 件家具每个抽屉、每扇门、每个瓶盖都能真的拉开、推开、拧开。 |
| 经典 | 2021 | Habitat 2.0 | NeurIPS | 上一代 Habitat 只能在虚拟房子里走路看;2.0 让小机器人能真的开冰箱、把杯子从厨房拿到客厅做家务。 |
| 经典 | 2021 | ManiSkill | NeurIPS | ManiSkill 是教机器人开抽屉、开柜门这种家具的统一考场—— 专测它练完几十个柜子之后,能不能上手没见过的第 101 个。 |
| 经典 | 2022 | DexMV | ECCV | 让机械手学拧瓶盖、倒水太难,DexMV 让算法看人手视频学,把人的动作"翻译"成仿真里机械手能照着练的示范。 |
| 经典 | 2022 | ProcTHOR | NeurIPS | 过去训练 AI 在屋里走来走去,得人工一间一间搭样板房,慢且少。ProcTHOR 让电脑按规则批量造 1 万套房,AI 见多了,换个没去过的房子也能找到东西。 |
| 前沿 | 2024 | BEHAVIOR-1K | CoRL | 斯坦福搭的"机器人家务考场":1000 道家务题、50 间样板房、9000 多件物品,让所有人用同一把尺子比"机器人到底会不会做家务"。 |
| 前沿 | 2024 | Habitat 3.0 | ICLR | 在虚拟的家里加一个会走会动的"假人",让机器人练习扫地搬东西时,得学会一边干活一边躲人、配合人。 |
| 前沿 | 2025 | Isaac Lab | arXiv | 机器人在电脑里"练功"的虚拟训练场。以前练得飞快但看不清画面,画面漂亮又练得慢;Isaac Lab 把这两件事捏到了一起。 |
| 前沿 | 2025 | MuJoCo Playground | arXiv | 一个 pip install 就能装好的开源仿真平台,让机器人先在电脑里把走路、抓东西练熟,再几乎原样搬到真机上跑。 |