Era

祖师爷 · Founder

每个领域的第一篇——把这个研究方向第一次讲清楚的论文。RT-1 之于 VLA、CLIP 之于 VLM、Diffusion Policy 之于扩散策略。读懂这些，你就掌握了每个分支的'第一性'。

27总篇数

11覆盖主题

2011–2023年份跨度

162,711字

I VLM Foundation 3 篇

2021
Learning Transferable Visual Models From Natural Language Supervision ICML · ⭐⭐⭐
教 AI 同时认图和认字，把 4 亿对网上图文塞进同一张坐标。之后你说"一只猫"，它就能从新图里挑出猫——不用为新任务再训一遍。
2022
Flamingo: a Visual Language Model for Few-Shot Learning NeurIPS · ⭐⭐⭐⭐
教一个会聊天的 AI 也学会看图，给它看两三个示范，它就能照着做新题。
2023
LLaVA: Visual Instruction Tuning NeurIPS · ⭐⭐
给一个只会打字聊天的 AI 装上眼睛——你随手拍张照片发过去，它能看着图陪你说话。

2022
SayCan: Do As I Can, Not As I Say CoRL · ⭐⭐
让"见多识广但出不了门的 AI"出主意，让机器人自己摸口袋说"这事我现在能做"，两边都点头才动手。
2022
Inner Monologue: Embodied Reasoning through Planning with Language Models CoRL · ⭐⭐⭐
让机器人边干活边在心里念叨：看到啥、做成没、人改主意没，全翻成文字塞回 AI，它就能边做边改计划。
2023
Code as Policies: Language Model Programs for Embodied Control ICRA · ⭐⭐⭐
你说一句"把方块叠进碗里"，AI 当场写几行 Python 代码，机器人立刻照着跑。不用提前教它新动作。
2023
LLM+P: Empowering LLMs with Optimal Planning arXiv · ⭐⭐⭐
让 LLM 只当翻译——把你说的话翻译成机器格式，真正的规划交给老牌算法去算。LLM 管说话，算法管动脑子。
2023
PaLM-E: An Embodied Multimodal Language Model ICML · ⭐⭐⭐⭐
教 ChatGPT 长出眼睛和手脚：你说一句话 + 让它瞄一眼现场，它直接列出机器人该做的几步。
2023
ProgPrompt ICRA · ⭐⭐
让大模型像写代码一样做计划：你说"把苹果放冰箱"，它直接吐出一串 Python 调用，机器人照着一行行跑就行。

2022
RT-1: Robotics Transformer for Real-World Control at Scale RSS · ⭐⭐⭐
让机器人看完 13 万段人类亲手示范，就能听一句中文，在真办公室里把可乐罐拿出来放进抽屉。

2023
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion RSS · ⭐⭐⭐
让机器人像调电视雪花一样产生动作：从满屏乱码开始，擦几下，下一步该怎么动就擦出来了。

2011
A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning AISTATS · ⭐⭐⭐⭐
光看老师开车的录像不够 — 学生一走偏就越错越离谱。DAgger 让学生自己先开几圈，把走偏的地方拿去问老师答案，再训，反复几轮就稳了。
2016
Generative Adversarial Imitation Learning NeurIPS · ⭐⭐⭐⭐
让 AI 看大厨做菜的录像，再找个"挑刺老师"分辨它做得像不像，靠这种较劲学会做事，不用猜大厨心里的打分标准。

2018
World Models NeurIPS · ⭐⭐⭐
让 AI 先在自己脑子里反复"做白日梦"练打游戏，练熟了再去真游戏里上场——居然真能赢。
2020
Dream to Control: Learning Behaviors by Latent Imagination ICLR · ⭐⭐⭐⭐
教 AI 在脑子里反复"做白日梦"演练动作，不用真去摔跤，就能学会跑步、翻跟头这种复杂动作。

2019
Connecting Touch and Vision via Cross-Modal Prediction CVPR · ⭐⭐⭐
教 AI"看一眼就猜出摸起来什么感觉、摸一下就猜出在摸哪儿"，让视觉和触觉互相翻译。
2023
ImageBind: One Embedding Space To Bind Them All CVPR · ⭐⭐⭐
把图片当翻译官，六种感官（图、文、声、深度、热、动作）就能互相听懂彼此说话。

2019
Can WiFi Estimate Person Pose? ICCV · ⭐⭐⭐
想象你家路由器除了上网，还能告诉你"屋里那个人正在做啥姿势"——胳膊抬到哪、腿怎么弯，全画给你看。
2020
See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar SenSys · ⭐⭐⭐
机器人在浓烟里也能画出清晰的房间地图——靠一颗几十块的小雷达加一个会"脑补"的神经网络。具体两招：训练时让贵的激光雷达（lidar）和便宜的雷达坐同一辆车，把 lidar 的清晰图当作业答案喂给神经网络（cGAN），教雷达学会脑补。学完老师下车，雷达单飞。认门/墙/玻璃/电

2019
Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation IEEE/ACM TASLP · ⭐⭐⭐
两人同时讲话的混音，喂给一个网络，它能把每个人的声音分别还原。比老方法（看频谱图）更准、更快、更小。
2022
SoundStream: An End-to-End Neural Audio Codec IEEE/ACM TASLP · ⭐⭐⭐⭐
让 AI 自己学怎么把声音"打包又拆开"，3 kbps 的小包听起来反而比传统方案 12 kbps 还清楚。
2023
Creating speech zones with self-distributing acoustic swarms Nature · ⭐⭐⭐
七个像骰子那么大的小机器人，自己爬上桌散成一圈，桌上几个人同时讲话，它能分清谁说了啥。

2019
Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning CoRL · ⭐⭐
给那些号称"会举一反三"的机器人算法办一场 50 道动手题的统一考试，看它们是不是真的会。
2019
RLBench: The Robot Learning Benchmark & Learning Environment RA-L · ⭐⭐
给机器人手臂出了一套 100 道题的"统考卷"，从此大家都做同一套题，第一次能公平比谁更厉害。
2020
robosuite: A Modular Simulation Framework and Benchmark for Robot Learning arXiv · ⭐⭐
robosuite 是机器人 AI 的"标准考场"——同一台仿真机械臂、同一组题目，让全球研究者公平地比谁的算法更聪明。

2019
Habitat: A Platform for Embodied AI Research ICCV · ⭐⭐
给家用机器人造一个跑得飞快的"VR 房子"，让它在里面绕路撞墙练几千万步，再上岗去你家。
2021
Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning NeurIPS Datasets · ⭐⭐⭐
一句话：把"算物理"和"训神经网络"塞进同一张显卡，机器人学走路从"几千台 CPU 跑一晚"压成"一张卡跑几分钟"。类比：以前训机器人像切菜、炒菜、装盘分三个房间，端来端去比真做菜还累；Isaac Gym 把厨房合并，菜不动、工具换着上。效果对照：OpenAI 训魔方机械手用