经典 · Classic
每个领域里被反复引用、几乎成事实标准的工作。它们不必是第一篇,但是绕不开的。读这一档你能拿到该领域的核心认知。
I VLM Foundation 12 篇
-
2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
一句话:让一个模型同时学会看图和写字,再让它帮自己把网上烂配文重写干净,回头再用干净数据训一遍——多个任务全线变强。 三个关键贡献: MED(Multimodal mixture of Encoder-Decoder):一个模型三种身份切换——纯编码器、看图的文本编码器、看图的文
-
2022
FILIP: Fine-grained Interactive Language-Image Pre-Training
以前是"整张图配整句话",FILIP 让图的每一小块和句子的每个词互相找最像的伙伴,模型就能学会"狗在左下角"这种细节。
-
2023
3DShape2VecSet: 3D Shape Representation for Diffusion Models
把一只 3D 柯基拆成 512 张小卡片;电脑学会卡片的规律,就能凭空造出新的 3D 模型。
-
2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
BLIP-2 不动两个大模型——一个负责看图、一个负责说话——只在中间训练一个小"翻译",就让 AI 学会了看图说话。
-
2023
EVA-CLIP: Improved Training Techniques for CLIP at Scale
不改 CLIP 架构,只改训练流程:用一个已经"懂图"的视觉模型起步 + 训练时只看半张图——更少数据反而训出更强的看图模型。
-
2023
OBELICS
HuggingFace 把网上 1.41 亿个"图文穿插"的网页洗干净打包开源,让大家也能像 DeepMind 那样训出会看图读长文的模型。
-
2023
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
给会聊天的 AI 戴副眼镜:一次学会看图、念中英文招牌、用框指出物体、还能多轮聊天。这就是阿里 2023 年开源的 Qwen-VL。
-
2023
Sigmoid Loss for Language Image Pre-Training
教模型"图配文字",CLIP 要全班一起排名打分,SigLIP 改成一对一判断"是不是一对"。算得快、省内存、小批也能学。
-
2024
DeepSeek-VL: Towards Real-World Vision-Language Understanding
DeepSeek 在 2024 年开源的"会看图"小模型,主打能看清发票、PPT、论文截图里的小字,不只会答考试题。
-
2024
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
一个看图模型,你跟它说"圈猫""描述这张图""找红车"它都能用同一个脑子做,回答全是一段文字。
-
2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
让"看图的脑子"也长到 6B 参数,和"会说话的脑子"一样大,AI 看图说话才不偏科,而且开源就能用。
-
2024
Improved Baselines with Visual Instruction Tuning
给会聊天的 AI 配一副"看图眼镜"。把眼镜从一片镜片换成两片,再多给它看点带字的图片,看图答题就刷榜了。
II High-Level Planning 5 篇
-
2023
ChatGPT for Robotics
教 ChatGPT 当机器人的"代写助理":先告诉它机器人会做哪些事,再让它把人话翻成代码,人盯着改。
-
2023
VoxPoser
VoxPoser 让大模型给机器人画两张 3D 地图:红色地方要去,灰色地方要躲,机器人照着地图走出动作,全程不训练新模型。
-
2024
GenSim
让 ChatGPT 当"出题老师",自动给机器人编一堆练习关卡,连标准答案也一起写好。
-
2024
RoboFlamingo
拿一个已经会看图说话的现成大模型当大脑,后面接一只"小手",就教会机械臂干活——不用从头训。
-
2024
Tree-Planner
让大模型一次写好十份菜谱,把重复步骤合成一棵树,做菜时照树走,错了就换条岔路,不用反复打电话问。
III End-to-End VLA 5 篇
-
2023
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
把机器人动作翻译成一句话,让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字,就能动手。
-
2023
RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
教机器人做新动作,光说话不够、给一张完成图也不够。这篇论文说:在画面上画一条"手该走的路"——机器人立刻照着做。
-
2024
OpenVLA: An Open-Source Vision-Language-Action Model
把一个会"看图说话"的 AI 改一改,让它学会"看一眼桌面就动手摆东西",再把全部训练配方开源送出去。
-
2024
3D Diffusion Policy (DP3)
教机器人擦桌子,不给它看照片,改给它看带深度的 3D 点云。结果只用 10 段录像就够学会一个新任务。
-
2024
Octo: An Open-Source Generalist Robot Policy
第一个真正开源的通用机器人"大脑":先看 80 万段机器人录像学基础动作,你下载回来微调几小时,就能让自家机器人学新活。
IV Diffusion Policy 3 篇
-
2024
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
让机器人改看 3D 立体形状(点云)而不是 2D 照片来学动作,10 条示范就够,72 个任务平均比原版强 24.2%。
-
2024
Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
机器人选下一步动作本来要慢慢搅 100 下才出一步,这篇教它一下就跳到答案——快约十倍,连笔记本都跑得动。
-
2024
EquiBot: SIM(3)-Equivariant Diffusion Policy
教机器人几次就够了。挪位置、转方向、换大小都不用重学,因为这件事直接焊在网络结构里。
V Imitation Learning 5 篇
-
2021
Implicit Behavioral Cloning
别让模型直接报"动作是这个",而是让它给一堆候选动作打分、挑最低分那个——机器人的手就突然变巧了。
-
2022
Behavior Transformers: Cloning k Modes with One Stone
看一堆人做同一件事却各有各的做法,BeT 让 AI 先认出"有几种主流流派",再在每个流派里微调——而不是把所有动作平均成一个四不像。
-
2023
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
几千美元搭一套双臂遥控器(ALOHA)让人录 50 次示范,机器人就学会一段一段动(ACT),能完成穿扎带这种细活。
-
2023
AnyTeleop
用一台普通摄像头拍你的手,机械手就跟着模仿你的动作;换什么型号的机械手都不用重写代码。
-
2023
RoboCat
一个 AI 大脑同时指挥好几种不同的机械臂干活,干完还会把成功的录像收回来当作下一轮的教材,越练越强。
VI World Model & Video Policy 5 篇
-
2021
Mastering Atari with Discrete World Models
让 AI 闭眼"做白日梦"练打老游戏,第一次只靠脑子里想象就打到人类水平。
-
2022
DayDreamer
让一只四足机器人不靠仿真,在真实世界里 1 小时就学会走路——靠的是边走边在脑子里"做梦"演练。
-
2023
Transformers are Sample-Efficient World Models
把游戏画面切成一格格"积木",让 AI 像写句子一样接龙下一帧,然后让它在脑子里"自己跟自己玩"练强化学习——只玩两小时就接近人类水平。
-
2023
TWM: Transformer-based World Models
agent 在脑子里"做梦"练本事。这篇把梦的引擎从 RNN 换成 Transformer,记得更长,做得更准。
-
2025
Dreamer V3: Mastering Diverse Domains through World Models
同一套设置,让一个 AI 自己玩 150 多种游戏都不用改参数,还第一次靠自己挖到《我的世界》里的钻石。
VII Multimodal Ecology 5 篇
-
2022
X-VLM: Multi-Grained Vision Language Pre-Training
教 AI 看图,不只学"整张图配整句话",还学"图里某个物体配某个词"——这样问图里某个细节也答得准。
-
2023
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
一句话:给一个"只识字"的聪明大脑配几副翻译眼镜——看图、看视频、听声、感运动,统统先翻成"假文字"再喂进去,大脑本身一个字都不重学。 三件让人眼前一亮的事: 不动 LLM 主干:LLaMA-2-70B 全程冻结,只训前面那个小投影层(projection layer),训练成本
-
2023
AudioPaLM
以前要三个工人接力——听写、翻译、配音——才能把你说的中文变成英文语音。AudioPaLM 让一个模型一口气干完,连你的音色都不丢。
-
2023
FROMAGe: Grounding LLMs to Images
把一个会说话的大模型整个冻住不动,只在它前后各加一层薄薄的"翻译片",就让它能看图、找图、还能图文混着聊天。
-
2024
OneLLM
OneLLM 用一套通用「翻译机」,让大语言模型同时听懂图像、声音、点云等八种信号——加新信号只要少量训练,不用从头再做。
VIII RF Perception & Mapping 9 篇
-
2019
Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
一个 Wi-Fi 小盒子隔着墙照过去,就能画出屋里人的骨架动画——摄像头当老师,电波当学生,学一遍就会了。 更具体一点: 输入:一个商用雷达(Walabot Developer,几百美元)发出去的电波被人体反射回来后形成的 3D 强度场。 输出:屋内每个人的 15 关节点骨架,每
-
2020
milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
把便宜的毫米波雷达和身上的"动作感应器"(IMU)用神经网络拼起来,让机器在黑暗、烟雾里也能算出自己走到了哪。
-
2020
RadarSLAM: Radar based Large-Scale SLAM in All Weathers
让一台"会转圈的雷达"在大雾大雪天里也能给车画地图、记住自己走过哪。
-
2021
3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
用 AI 教小雷达"看清"物体长啥样:从糊糊的电波信号里还原出完整 3D 形状,烟雾灰尘暗光里也能用。
-
2022
RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
漆黑屋子里相机看不见,但雷达回波能"听"出人形。RFMask 让模型把雷达信号直接画成每个人的精细剪影——头、肩、胳膊都画出来。
-
2023
CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
给机器人装一颗几百块的小雷达,哪怕屋里又黑又有烟,它也能一边走一边画出准的 3D 地图,比用相机还清楚。
-
2023
High Resolution Point Clouds from mmWave Radar
便宜雷达拍出来的画面很糊。RadarHD 用神经网络当翻译,把糊画面改成像激光雷达那样清晰的点云图,烟雾、黑暗里都能用。
-
2023
RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
用雷达回声画出人的姿势:直接学容易乱猜,先把"回声"和"姿势"两边的特征对齐,再画关节,换房间也更稳。
-
2024
mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
教一种"看不见脸"的小盒子雷达,没学过的新动作也能猜个八九不离十——比如老人半夜在黑卧室摔倒,它能感知到。
IX Auditory & Acoustic 8 篇
-
2020
Conformer
让 AI 听人说话时既能听清每个字的咬字,又能联系整段话的意思——一个会同时"听细节"和"听大意"的耳朵。
-
2020
Dual-path RNN
DPRNN 把超长录音切成小块,让 RNN 先在块里跑、再跨块跑,交替几轮就能把两个人同时说话拆开。
-
2021
Meta-StyleSpeech
给模型听几秒陌生人说话的录音,它就能用这个人的声音念任意一句话。不用重新训练、不用收集几小时数据——几秒就够。
-
2023
AudioLM
把声音切成两种"音频字"——一种管说啥、一种管音色,模型像写句子一样续写,给 3 秒就能接出像本人的语音。
-
2023
EnCodec
EnCodec 把声音压成一串很小的数字再还原回来;既比老办法省流量,又因为是数字,AI 可以像写字一样"写"出声音。
-
2023
MusicLM
对着模型说一句"缓慢爵士钢琴配鼓刷",它就生成几分钟真实音乐——先定骨架(结构),再填细节(音色)。
-
2023
Robust Speech Recognition via Large-Scale Weak Supervision
Whisper 把网上 68 万小时音频和字幕一锅烩,喂进普通 Transformer,开箱就能听各种口音、噪声和长录音,还顺手翻译——靠数据杂取胜。
-
2024
NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
在咖啡馆听不清对面说话?让助听器自己降噪,不连手机、不连云。
X Datasets & Benchmarks 5 篇
-
2021
What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
这篇不发明新算法,而是把"机器人看录像学操作"里每个变量挨个换一遍,告诉你哪些真有用、哪些是白忙。
-
2022
CALVIN
CALVIN 是一把"机器人听话考试"的尺子:人说一段话,机器人要在桌上一步接一步把活干完,34 个小任务统一打分。
-
2023
BridgeData V2
BridgeData V2 是一份公开的"机器人干活录像库"——6 万段机械臂在 24 个真实场景里的演示视频,大家训机器人时把它当共同起跑线。
-
2023
LIBERO
教机器人学新技能时别忘旧技能。LIBERO 是这事的标准考卷,4 套题分别考空间、物体、目标和综合。
-
2023
RH20T
机器人数据集,除拍视频外还录了"手感"和"声音":拧瓶盖多大力、咔哒卡到位。147 项任务、11 万段。
XI Simulation & Sim2Real 5 篇
-
2020
SAPIEN: A SimulAted Part-based Interactive ENvironment
给机器人造了一个虚拟宜家展厅,2,346 件家具每个抽屉、每扇门、每个瓶盖都能真的拉开、推开、拧开。
-
2021
Habitat 2.0
上一代 Habitat 只能在虚拟房子里走路看;2.0 让小机器人能真的开冰箱、把杯子从厨房拿到客厅做家务。
-
2021
ManiSkill
ManiSkill 是教机器人开抽屉、开柜门这种家具的统一考场—— 专测它练完几十个柜子之后,能不能上手没见过的第 101 个。
-
2022
DexMV
让机械手学拧瓶盖、倒水太难,DexMV 让算法看人手视频学,把人的动作"翻译"成仿真里机械手能照着练的示范。
-
2022
ProcTHOR
过去训练 AI 在屋里走来走去,得人工一间一间搭样板房,慢且少。ProcTHOR 让电脑按规则批量造 1 万套房,AI 见多了,换个没去过的房子也能找到东西。