祖师爷 · Founder
每个领域的第一篇——把这个研究方向第一次讲清楚的论文。RT-1 之于 VLA、CLIP 之于 VLM、Diffusion Policy 之于扩散策略。读懂这些,你就掌握了每个分支的'第一性'。
I VLM Foundation 3 篇
-
2021
Learning Transferable Visual Models From Natural Language Supervision
教 AI 同时认图和认字,把 4 亿对网上图文塞进同一张坐标。之后你说"一只猫",它就能从新图里挑出猫——不用为新任务再训一遍。
-
2022
Flamingo: a Visual Language Model for Few-Shot Learning
教一个会聊天的 AI 也学会看图,给它看两三个示范,它就能照着做新题。
-
2023
LLaVA: Visual Instruction Tuning
给一个只会打字聊天的 AI 装上眼睛——你随手拍张照片发过去,它能看着图陪你说话。
II High-Level Planning 6 篇
-
2022
SayCan: Do As I Can, Not As I Say
让"见多识广但出不了门的 AI"出主意,让机器人自己摸口袋说"这事我现在能做",两边都点头才动手。
-
2022
Inner Monologue: Embodied Reasoning through Planning with Language Models
让机器人边干活边在心里念叨:看到啥、做成没、人改主意没,全翻成文字塞回 AI,它就能边做边改计划。
-
2023
Code as Policies: Language Model Programs for Embodied Control
你说一句"把方块叠进碗里",AI 当场写几行 Python 代码,机器人立刻照着跑。不用提前教它新动作。
-
2023
LLM+P: Empowering LLMs with Optimal Planning
让 LLM 只当翻译——把你说的话翻译成机器格式,真正的规划交给老牌算法去算。LLM 管说话,算法管动脑子。
-
2023
PaLM-E: An Embodied Multimodal Language Model
教 ChatGPT 长出眼睛和手脚:你说一句话 + 让它瞄一眼现场,它直接列出机器人该做的几步。
-
2023
ProgPrompt
让大模型像写代码一样做计划:你说"把苹果放冰箱",它直接吐出一串 Python 调用,机器人照着一行行跑就行。
III End-to-End VLA 1 篇
-
2022
RT-1: Robotics Transformer for Real-World Control at Scale
让机器人看完 13 万段人类亲手示范,就能听一句中文,在真办公室里把可乐罐拿出来放进抽屉。
IV Diffusion Policy 1 篇
-
2023
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
让机器人像调电视雪花一样产生动作:从满屏乱码开始,擦几下,下一步该怎么动就擦出来了。
V Imitation Learning 2 篇
-
2011
A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
光看老师开车的录像不够 — 学生一走偏就越错越离谱。DAgger 让学生自己先开几圈,把走偏的地方拿去问老师答案,再训,反复几轮就稳了。
-
2016
Generative Adversarial Imitation Learning
让 AI 看大厨做菜的录像,再找个"挑刺老师"分辨它做得像不像,靠这种较劲学会做事,不用猜大厨心里的打分标准。
VI World Model & Video Policy 2 篇
-
2018
World Models
让 AI 先在自己脑子里反复"做白日梦"练打游戏,练熟了再去真游戏里上场——居然真能赢。
-
2020
Dream to Control: Learning Behaviors by Latent Imagination
教 AI 在脑子里反复"做白日梦"演练动作,不用真去摔跤,就能学会跑步、翻跟头这种复杂动作。
VII Multimodal Ecology 2 篇
-
2019
Connecting Touch and Vision via Cross-Modal Prediction
教 AI"看一眼就猜出摸起来什么感觉、摸一下就猜出在摸哪儿",让视觉和触觉互相翻译。
-
2023
ImageBind: One Embedding Space To Bind Them All
把图片当翻译官,六种感官(图、文、声、深度、热、动作)就能互相听懂彼此说话。
VIII RF Perception & Mapping 2 篇
-
2019
Can WiFi Estimate Person Pose?
想象你家路由器除了上网,还能告诉你"屋里那个人正在做啥姿势"——胳膊抬到哪、腿怎么弯,全画给你看。
-
2020
See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
机器人在浓烟里也能画出清晰的房间地图——靠一颗几十块的小雷达加一个会"脑补"的神经网络。 具体两招: 训练时让贵的激光雷达(lidar)和便宜的雷达坐同一辆车,把 lidar 的清晰图当作业答案喂给神经网络(cGAN),教雷达学会脑补。学完老师下车,雷达单飞。 认门/墙/玻璃/电
IX Auditory & Acoustic 3 篇
-
2019
Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
两人同时讲话的混音,喂给一个网络,它能把每个人的声音分别还原。比老方法(看频谱图)更准、更快、更小。
-
2022
SoundStream: An End-to-End Neural Audio Codec
让 AI 自己学怎么把声音"打包又拆开",3 kbps 的小包听起来反而比传统方案 12 kbps 还清楚。
-
2023
Creating speech zones with self-distributing acoustic swarms
七个像骰子那么大的小机器人,自己爬上桌散成一圈,桌上几个人同时讲话,它能分清谁说了啥。
X Datasets & Benchmarks 3 篇
-
2019
Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
给那些号称"会举一反三"的机器人算法办一场 50 道动手题的统一考试,看它们是不是真的会。
-
2019
RLBench: The Robot Learning Benchmark & Learning Environment
给机器人手臂出了一套 100 道题的"统考卷",从此大家都做同一套题,第一次能公平比谁更厉害。
-
2020
robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
robosuite 是机器人 AI 的"标准考场"——同一台仿真机械臂、同一组题目,让全球研究者公平地比谁的算法更聪明。
XI Simulation & Sim2Real 2 篇
-
2019
Habitat: A Platform for Embodied AI Research
给家用机器人造一个跑得飞快的"VR 房子",让它在里面绕路撞墙练几千万步,再上岗去你家。
-
2021
Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
一句话:把"算物理"和"训神经网络"塞进同一张显卡,机器人学走路从"几千台 CPU 跑一晚"压成"一张卡跑几分钟"。 类比:以前训机器人像切菜、炒菜、装盘分三个房间,端来端去比真做菜还累;Isaac Gym 把厨房合并,菜不动、工具换着上。 效果对照:OpenAI 训魔方机械手用