Era

经典 · Classic

每个领域里被反复引用、几乎成事实标准的工作。它们不必是第一篇，但是绕不开的。读这一档你能拿到该领域的核心认知。

67总篇数

11覆盖主题

2019–2025年份跨度

224,388字

祖师爷 · Founder →前沿 · Frontier →

I VLM Foundation 12 篇

2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation ICML · ⭐⭐⭐
一句话：让一个模型同时学会看图和写字，再让它帮自己把网上烂配文重写干净，回头再用干净数据训一遍——多个任务全线变强。三个关键贡献： MED（Multimodal mixture of Encoder-Decoder）：一个模型三种身份切换——纯编码器、看图的文本编码器、看图的文
2022
FILIP: Fine-grained Interactive Language-Image Pre-Training ICLR · ⭐⭐⭐
以前是"整张图配整句话"，FILIP 让图的每一小块和句子的每个词互相找最像的伙伴，模型就能学会"狗在左下角"这种细节。
2023
3DShape2VecSet: 3D Shape Representation for Diffusion Models SIGGRAPH · ⭐⭐⭐⭐
把一只 3D 柯基拆成 512 张小卡片；电脑学会卡片的规律，就能凭空造出新的 3D 模型。
2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models ICML · ⭐⭐⭐⭐
BLIP-2 不动两个大模型——一个负责看图、一个负责说话——只在中间训练一个小"翻译"，就让 AI 学会了看图说话。
2023
EVA-CLIP: Improved Training Techniques for CLIP at Scale arXiv · ⭐⭐⭐
不改 CLIP 架构，只改训练流程：用一个已经"懂图"的视觉模型起步 + 训练时只看半张图——更少数据反而训出更强的看图模型。
2023
OBELICS NeurIPS · ⭐⭐⭐
HuggingFace 把网上 1.41 亿个"图文穿插"的网页洗干净打包开源，让大家也能像 DeepMind 那样训出会看图读长文的模型。
2023
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond arXiv · ⭐⭐⭐
给会聊天的 AI 戴副眼镜：一次学会看图、念中英文招牌、用框指出物体、还能多轮聊天。这就是阿里 2023 年开源的 Qwen-VL。
2023
Sigmoid Loss for Language Image Pre-Training ICCV · ⭐⭐⭐
教模型"图配文字"，CLIP 要全班一起排名打分，SigLIP 改成一对一判断"是不是一对"。算得快、省内存、小批也能学。
2024
DeepSeek-VL: Towards Real-World Vision-Language Understanding arXiv · ⭐⭐⭐
DeepSeek 在 2024 年开源的"会看图"小模型，主打能看清发票、PPT、论文截图里的小字，不只会答考试题。
2024
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks CVPR · ⭐⭐⭐
一个看图模型，你跟它说"圈猫""描述这张图""找红车"它都能用同一个脑子做，回答全是一段文字。
2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks CVPR · ⭐⭐⭐⭐
让"看图的脑子"也长到 6B 参数，和"会说话的脑子"一样大，AI 看图说话才不偏科，而且开源就能用。
2024
Improved Baselines with Visual Instruction Tuning CVPR · ⭐⭐
给会聊天的 AI 配一副"看图眼镜"。把眼镜从一片镜片换成两片，再多给它看点带字的图片，看图答题就刷榜了。

II High-Level Planning 5 篇

2023
ChatGPT for Robotics IEEE Access · ⭐⭐
教 ChatGPT 当机器人的"代写助理"：先告诉它机器人会做哪些事，再让它把人话翻成代码，人盯着改。
2023
VoxPoser CoRL · ⭐⭐⭐⭐
VoxPoser 让大模型给机器人画两张 3D 地图：红色地方要去，灰色地方要躲，机器人照着地图走出动作，全程不训练新模型。
2024
GenSim ICLR · ⭐⭐⭐
让 ChatGPT 当"出题老师"，自动给机器人编一堆练习关卡，连标准答案也一起写好。
2024
RoboFlamingo ICLR · ⭐⭐⭐⭐
拿一个已经会看图说话的现成大模型当大脑，后面接一只"小手"，就教会机械臂干活——不用从头训。
2024
Tree-Planner ICLR · ⭐⭐⭐
让大模型一次写好十份菜谱，把重复步骤合成一棵树，做菜时照树走，错了就换条岔路，不用反复打电话问。

III End-to-End VLA 5 篇

2023
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control CoRL · ⭐⭐⭐⭐
把机器人动作翻译成一句话，让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字，就能动手。
2023
RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches ICLR · ⭐⭐⭐
教机器人做新动作，光说话不够、给一张完成图也不够。这篇论文说：在画面上画一条"手该走的路"——机器人立刻照着做。
2024
OpenVLA: An Open-Source Vision-Language-Action Model CoRL · ⭐⭐⭐
把一个会"看图说话"的 AI 改一改，让它学会"看一眼桌面就动手摆东西"，再把全部训练配方开源送出去。
2024
3D Diffusion Policy (DP3) RSS · ⭐⭐⭐
教机器人擦桌子，不给它看照片，改给它看带深度的 3D 点云。结果只用 10 段录像就够学会一个新任务。
2024
Octo: An Open-Source Generalist Robot Policy RSS · ⭐⭐⭐
第一个真正开源的通用机器人"大脑"：先看 80 万段机器人录像学基础动作，你下载回来微调几小时，就能让自家机器人学新活。

IV Diffusion Policy 3 篇

2024
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations RSS · ⭐⭐⭐
让机器人改看 3D 立体形状（点云）而不是 2D 照片来学动作，10 条示范就够，72 个任务平均比原版强 24.2%。
2024
Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation RSS · ⭐⭐⭐
机器人选下一步动作本来要慢慢搅 100 下才出一步，这篇教它一下就跳到答案——快约十倍，连笔记本都跑得动。
2024
EquiBot: SIM(3)-Equivariant Diffusion Policy CoRL · ⭐⭐⭐⭐
教机器人几次就够了。挪位置、转方向、换大小都不用重学，因为这件事直接焊在网络结构里。

V Imitation Learning 5 篇

2021
Implicit Behavioral Cloning CoRL · ⭐⭐⭐⭐
别让模型直接报"动作是这个"，而是让它给一堆候选动作打分、挑最低分那个——机器人的手就突然变巧了。
2022
Behavior Transformers: Cloning k Modes with One Stone NeurIPS · ⭐⭐⭐
看一堆人做同一件事却各有各的做法，BeT 让 AI 先认出"有几种主流流派"，再在每个流派里微调——而不是把所有动作平均成一个四不像。
2023
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA) RSS · ⭐⭐⭐
几千美元搭一套双臂遥控器（ALOHA）让人录 50 次示范，机器人就学会一段一段动（ACT），能完成穿扎带这种细活。
2023
AnyTeleop CoRL · ⭐⭐⭐
用一台普通摄像头拍你的手，机械手就跟着模仿你的动作；换什么型号的机械手都不用重写代码。
2023
RoboCat TMLR · ⭐⭐⭐⭐
一个 AI 大脑同时指挥好几种不同的机械臂干活，干完还会把成功的录像收回来当作下一轮的教材，越练越强。

VI World Model & Video Policy 5 篇

2021
Mastering Atari with Discrete World Models ICLR · ⭐⭐⭐⭐
让 AI 闭眼"做白日梦"练打老游戏，第一次只靠脑子里想象就打到人类水平。
2022
DayDreamer CoRL · ⭐⭐⭐
让一只四足机器人不靠仿真，在真实世界里 1 小时就学会走路——靠的是边走边在脑子里"做梦"演练。
2023
Transformers are Sample-Efficient World Models ICLR · ⭐⭐⭐⭐
把游戏画面切成一格格"积木"，让 AI 像写句子一样接龙下一帧，然后让它在脑子里"自己跟自己玩"练强化学习——只玩两小时就接近人类水平。
2023
TWM: Transformer-based World Models ICLR · ⭐⭐⭐⭐
agent 在脑子里"做梦"练本事。这篇把梦的引擎从 RNN 换成 Transformer，记得更长，做得更准。
2025
Dreamer V3: Mastering Diverse Domains through World Models Nature · ⭐⭐⭐⭐
同一套设置，让一个 AI 自己玩 150 多种游戏都不用改参数，还第一次靠自己挖到《我的世界》里的钻石。

VII Multimodal Ecology 5 篇

2022
X-VLM: Multi-Grained Vision Language Pre-Training ICML · ⭐⭐⭐⭐
教 AI 看图，不只学"整张图配整句话"，还学"图里某个物体配某个词"——这样问图里某个细节也答得准。
2023
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model EACL · ⭐⭐⭐
一句话：给一个"只识字"的聪明大脑配几副翻译眼镜——看图、看视频、听声、感运动，统统先翻成"假文字"再喂进去，大脑本身一个字都不重学。三件让人眼前一亮的事：不动 LLM 主干：LLaMA-2-70B 全程冻结，只训前面那个小投影层（projection layer），训练成本
2023
AudioPaLM arXiv · ⭐⭐⭐⭐
以前要三个工人接力——听写、翻译、配音——才能把你说的中文变成英文语音。AudioPaLM 让一个模型一口气干完，连你的音色都不丢。
2023
FROMAGe: Grounding LLMs to Images ICML · ⭐⭐⭐
把一个会说话的大模型整个冻住不动，只在它前后各加一层薄薄的"翻译片"，就让它能看图、找图、还能图文混着聊天。
2024
OneLLM CVPR · ⭐⭐⭐
OneLLM 用一套通用「翻译机」，让大语言模型同时听懂图像、声音、点云等八种信号——加新信号只要少量训练，不用从头再做。

VIII RF Perception & Mapping 9 篇

2019
Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm arXiv · ⭐⭐⭐⭐
一个 Wi-Fi 小盒子隔着墙照过去，就能画出屋里人的骨架动画——摄像头当老师，电波当学生，学一遍就会了。更具体一点：输入：一个商用雷达（Walabot Developer，几百美元）发出去的电波被人体反射回来后形成的 3D 强度场。输出：屋内每个人的 15 关节点骨架，每
2020
milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion SenSys · ⭐⭐⭐
把便宜的毫米波雷达和身上的"动作感应器"（IMU）用神经网络拼起来，让机器在黑暗、烟雾里也能算出自己走到了哪。
2020
RadarSLAM: Radar based Large-Scale SLAM in All Weathers BMVC · ⭐⭐⭐⭐
让一台"会转圈的雷达"在大雾大雪天里也能给车画地图、记住自己走过哪。
2021
3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning IPCCC · ⭐⭐⭐
用 AI 教小雷达"看清"物体长啥样：从糊糊的电波信号里还原出完整 3D 形状，烟雾灰尘暗光里也能用。
2022
RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals TMM · ⭐⭐⭐
漆黑屋子里相机看不见，但雷达回波能"听"出人形。RFMask 让模型把雷达信号直接画成每个人的精细剪影——头、肩、胳膊都画出来。
2023
CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches MobiCom 2025 (Best Artifact Award) · ⭐⭐⭐⭐
给机器人装一颗几百块的小雷达，哪怕屋里又黑又有烟，它也能一边走一边画出准的 3D 地图，比用相机还清楚。
2023
High Resolution Point Clouds from mmWave Radar ICRA · ⭐⭐⭐
便宜雷达拍出来的画面很糊。RadarHD 用神经网络当翻译，把糊画面改成像激光雷达那样清晰的点云图，烟雾、黑暗里都能用。
2023
RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory TCSVT · ⭐⭐⭐⭐
用雷达回声画出人的姿势：直接学容易乱猜，先把"回声"和"姿势"两边的特征对齐，再画关节，换房间也更稳。
2024
mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment SenSys 2024 · ⭐⭐⭐⭐
教一种"看不见脸"的小盒子雷达，没学过的新动作也能猜个八九不离十——比如老人半夜在黑卧室摔倒，它能感知到。

IX Auditory & Acoustic 8 篇

2020
Conformer Interspeech · ⭐⭐⭐
让 AI 听人说话时既能听清每个字的咬字，又能联系整段话的意思——一个会同时"听细节"和"听大意"的耳朵。
2020
Dual-path RNN ICASSP · ⭐⭐⭐⭐
DPRNN 把超长录音切成小块，让 RNN 先在块里跑、再跨块跑，交替几轮就能把两个人同时说话拆开。
2021
Meta-StyleSpeech ICML · ⭐⭐⭐
给模型听几秒陌生人说话的录音，它就能用这个人的声音念任意一句话。不用重新训练、不用收集几小时数据——几秒就够。
2023
AudioLM TASLP · ⭐⭐⭐⭐
把声音切成两种"音频字"——一种管说啥、一种管音色，模型像写句子一样续写，给 3 秒就能接出像本人的语音。
2023
EnCodec TMLR · ⭐⭐⭐⭐
EnCodec 把声音压成一串很小的数字再还原回来；既比老办法省流量，又因为是数字，AI 可以像写字一样"写"出声音。
2023
MusicLM arXiv · ⭐⭐⭐⭐
对着模型说一句"缓慢爵士钢琴配鼓刷"，它就生成几分钟真实音乐——先定骨架（结构），再填细节（音色）。
2023
Robust Speech Recognition via Large-Scale Weak Supervision ICML · ⭐⭐⭐
Whisper 把网上 68 万小时音频和字幕一锅烩，喂进普通 Transformer，开箱就能听各种口音、噪声和长录音，还顺手翻译——靠数据杂取胜。
2024
NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators MobiCom · ⭐⭐⭐
在咖啡馆听不清对面说话？让助听器自己降噪，不连手机、不连云。

X Datasets & Benchmarks 5 篇

2021
What Matters in Learning from Offline Human Demonstrations for Robot Manipulation CoRL · ⭐⭐⭐
这篇不发明新算法，而是把"机器人看录像学操作"里每个变量挨个换一遍，告诉你哪些真有用、哪些是白忙。
2022
CALVIN RA-L · ⭐⭐⭐
CALVIN 是一把"机器人听话考试"的尺子：人说一段话，机器人要在桌上一步接一步把活干完，34 个小任务统一打分。
2023
BridgeData V2 dataset-eval · ⭐⭐
BridgeData V2 是一份公开的"机器人干活录像库"——6 万段机械臂在 24 个真实场景里的演示视频，大家训机器人时把它当共同起跑线。
2023
LIBERO NeurIPS · ⭐⭐⭐
教机器人学新技能时别忘旧技能。LIBERO 是这事的标准考卷，4 套题分别考空间、物体、目标和综合。
2023
RH20T RSS Workshop · ⭐⭐⭐
机器人数据集，除拍视频外还录了"手感"和"声音"：拧瓶盖多大力、咔哒卡到位。147 项任务、11 万段。

XI Simulation & Sim2Real 5 篇

2020
SAPIEN: A SimulAted Part-based Interactive ENvironment CVPR · ⭐⭐⭐
给机器人造了一个虚拟宜家展厅，2,346 件家具每个抽屉、每扇门、每个瓶盖都能真的拉开、推开、拧开。
2021
Habitat 2.0 NeurIPS · ⭐⭐⭐
上一代 Habitat 只能在虚拟房子里走路看；2.0 让小机器人能真的开冰箱、把杯子从厨房拿到客厅做家务。
2021
ManiSkill NeurIPS · ⭐⭐⭐
ManiSkill 是教机器人开抽屉、开柜门这种家具的统一考场—— 专测它练完几十个柜子之后，能不能上手没见过的第 101 个。
2022
DexMV ECCV · ⭐⭐⭐⭐
让机械手学拧瓶盖、倒水太难，DexMV 让算法看人手视频学，把人的动作"翻译"成仿真里机械手能照着练的示范。
2022
ProcTHOR NeurIPS · ⭐⭐⭐
过去训练 AI 在屋里走来走去，得人工一间一间搭样板房，慢且少。ProcTHOR 让电脑按规则批量造 1 万套房，AI 见多了，换个没去过的房子也能找到东西。