回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Compare · 同主题对比

同一主题下,哪几篇该先读?

把每个主题里的论文按 era 排一排,每条带年份和一句话定位。一眼看到"祖师爷 → 经典 → 前沿"的关系。


I VLM Foundation 视觉-语言基座

erayeartitlevenuetldr
祖师爷 2023 LLaVA: Visual Instruction Tuning NeurIPS 给一个只会打字聊天的 AI 装上眼睛——你随手拍张照片发过去,它能看着图陪你说话。
经典 2023 3DShape2VecSet: 3D Shape Representation for Diffusion Models SIGGRAPH 把一只 3D 柯基拆成 512 张小卡片;电脑学会卡片的规律,就能凭空造出新的 3D 模型。
祖师爷 2021 Learning Transferable Visual Models From Natural Language Supervision ICML 教 AI 同时认图和认字,把 4 亿对网上图文塞进同一张坐标。之后你说"一只猫",它就能从新图里挑出猫——不用为新任务再训一遍。
祖师爷 2022 Flamingo: a Visual Language Model for Few-Shot Learning NeurIPS 教一个会聊天的 AI 也学会看图,给它看两三个示范,它就能照着做新题。
经典 2022 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation ICML 一句话:让一个模型同时学会看图和写字,再让它帮自己把网上烂配文重写干净,回头再用干净数据训一遍——多个任务全线变强。 三个关键贡献: MED(Multimodal mixture of Encoder-Decoder):一个模型三种身份切换——纯编码器、看图的文本编码器、看图的文
经典 2022 FILIP: Fine-grained Interactive Language-Image Pre-Training ICLR 以前是"整张图配整句话",FILIP 让图的每一小块和句子的每个词互相找最像的伙伴,模型就能学会"狗在左下角"这种细节。
经典 2023 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models ICML BLIP-2 不动两个大模型——一个负责看图、一个负责说话——只在中间训练一个小"翻译",就让 AI 学会了看图说话。
经典 2023 EVA-CLIP: Improved Training Techniques for CLIP at Scale arXiv 不改 CLIP 架构,只改训练流程:用一个已经"懂图"的视觉模型起步 + 训练时只看半张图——更少数据反而训出更强的看图模型。
经典 2023 OBELICS NeurIPS HuggingFace 把网上 1.41 亿个"图文穿插"的网页洗干净打包开源,让大家也能像 DeepMind 那样训出会看图读长文的模型。
经典 2023 Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond arXiv 给会聊天的 AI 戴副眼镜:一次学会看图、念中英文招牌、用框指出物体、还能多轮聊天。这就是阿里 2023 年开源的 Qwen-VL。
经典 2023 Sigmoid Loss for Language Image Pre-Training ICCV 教模型"图配文字",CLIP 要全班一起排名打分,SigLIP 改成一对一判断"是不是一对"。算得快、省内存、小批也能学。
经典 2024 DeepSeek-VL: Towards Real-World Vision-Language Understanding arXiv DeepSeek 在 2024 年开源的"会看图"小模型,主打能看清发票、PPT、论文截图里的小字,不只会答考试题。
经典 2024 Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks CVPR 一个看图模型,你跟它说"圈猫""描述这张图""找红车"它都能用同一个脑子做,回答全是一段文字。
经典 2024 InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks CVPR 让"看图的脑子"也长到 6B 参数,和"会说话的脑子"一样大,AI 看图说话才不偏科,而且开源就能用。
经典 2024 Improved Baselines with Visual Instruction Tuning CVPR 给会聊天的 AI 配一副"看图眼镜"。把眼镜从一片镜片换成两片,再多给它看点带字的图片,看图答题就刷榜了。
前沿 2024 What matters when building vision-language models? NeurIPS 做"看图说话 AI"时大家凭感觉选零件,这篇把每个选择拆开做对照实验,整理成一份避坑清单,再训了个 8B 模型当样板。
前沿 2024 Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling arXiv 把模型、数据、推理三件事一起加大,让免费开源的看图模型第一次在大学考试里追上顶级闭源模型。
前沿 2024 The Llama 3 Herd of Models arXiv Meta 把训练 Llama 3 大模型的全套"菜谱"公开了——用了什么料、多少张卡、跑多久、考多少分。
前沿 2024 LLaVA-NeXT-Interleave arXiv 教 AI 像刷图文并茂的小红书:图和字按顺序穿着读,多图、视频、3D 都用这一招,不用各训一个模型。
前沿 2024 LLaVA-OneVision: Easy Visual Task Transfer arXiv 一套配方教会一个模型同时看懂单张图、几张图、和视频,开源圈第一次在视频上接近 GPT-4V。
前沿 2024 Long-CLIP: Unlocking the Long-Text Capability of CLIP ECCV 给只能读 77 字短纸条的 CLIP 做两个小手术,让它能读 248 字的长纸条,但又没忘掉原来认识的那些短词。
前沿 2024 Pixtral 12B arXiv Mistral 开源的"会看图聊天的助手"——从一开始就同时学看图和说话,图想多大就多大,能免费拿去做产品。

II High-Level Planning 高层任务规划

erayeartitlevenuetldr
祖师爷 2022 SayCan: Do As I Can, Not As I Say CoRL 让"见多识广但出不了门的 AI"出主意,让机器人自己摸口袋说"这事我现在能做",两边都点头才动手。
祖师爷 2022 Inner Monologue: Embodied Reasoning through Planning with Language Models CoRL 让机器人边干活边在心里念叨:看到啥、做成没、人改主意没,全翻成文字塞回 AI,它就能边做边改计划。
祖师爷 2023 Code as Policies: Language Model Programs for Embodied Control ICRA 你说一句"把方块叠进碗里",AI 当场写几行 Python 代码,机器人立刻照着跑。不用提前教它新动作。
祖师爷 2023 LLM+P: Empowering LLMs with Optimal Planning arXiv 让 LLM 只当翻译——把你说的话翻译成机器格式,真正的规划交给老牌算法去算。LLM 管说话,算法管动脑子。
祖师爷 2023 PaLM-E: An Embodied Multimodal Language Model ICML 教 ChatGPT 长出眼睛和手脚:你说一句话 + 让它瞄一眼现场,它直接列出机器人该做的几步。
祖师爷 2023 ProgPrompt ICRA 让大模型像写代码一样做计划:你说"把苹果放冰箱",它直接吐出一串 Python 调用,机器人照着一行行跑就行。
经典 2023 ChatGPT for Robotics IEEE Access 教 ChatGPT 当机器人的"代写助理":先告诉它机器人会做哪些事,再让它把人话翻成代码,人盯着改。
经典 2023 VoxPoser CoRL VoxPoser 让大模型给机器人画两张 3D 地图:红色地方要去,灰色地方要躲,机器人照着地图走出动作,全程不训练新模型。
经典 2024 GenSim ICLR 让 ChatGPT 当"出题老师",自动给机器人编一堆练习关卡,连标准答案也一起写好。
经典 2024 RoboFlamingo ICLR 拿一个已经会看图说话的现成大模型当大脑,后面接一只"小手",就教会机械臂干活——不用从头训。
经典 2024 Tree-Planner ICLR 让大模型一次写好十份菜谱,把重复步骤合成一棵树,做菜时照树走,错了就换条岔路,不用反复打电话问。

III End-to-End VLA 端到端视觉-语言-动作

erayeartitlevenuetldr
经典 2024 OpenVLA: An Open-Source Vision-Language-Action Model CoRL 把一个会"看图说话"的 AI 改一改,让它学会"看一眼桌面就动手摆东西",再把全部训练配方开源送出去。
祖师爷 2022 RT-1: Robotics Transformer for Real-World Control at Scale RSS 让机器人看完 13 万段人类亲手示范,就能听一句中文,在真办公室里把可乐罐拿出来放进抽屉。
经典 2023 RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control CoRL 把机器人动作翻译成一句话,让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字,就能动手。
经典 2023 RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches ICLR 教机器人做新动作,光说话不够、给一张完成图也不够。这篇论文说:在画面上画一条"手该走的路"——机器人立刻照着做。
经典 2024 3D Diffusion Policy (DP3) RSS 教机器人擦桌子,不给它看照片,改给它看带深度的 3D 点云。结果只用 10 段录像就够学会一个新任务。
经典 2024 Octo: An Open-Source Generalist Robot Policy RSS 第一个真正开源的通用机器人"大脑":先看 80 万段机器人录像学基础动作,你下载回来微调几小时,就能让自家机器人学新活。
前沿 2024 3D-VLA ICML 让机器人除了看平面照片,还能"摸到"立体形状;动手前先在脑里画一张"做完后的样子",再照着画面去动。
前沿 2024 GR-2: Generative Video-Language-Action Model arXiv 让机器人先刷 3800 万段网络视频攒常识,再练动手;它干活时脑子里会"预演"下一秒的画面。
前沿 2024 RDT-1B: Diffusion Foundation Model for Bimanual Manipulation ICLR 清华团队给双臂机器人配的"大脑":10 亿参数,听一句话就能让两只机械臂配合着倒水、叠衣服。
前沿 2024 RoboMamba NeurIPS 机器人脑子原本用 Transformer 拼出来,反应慢、显存吃紧。RoboMamba 换成 Mamba(一种"流水线式"架构),让机器人想得更快、更省。
前沿 2024 TinyVLA RA-L 把会听话的机器人大脑瘦身到 1.4B,动作生成换成"先乱后凿"的扩散模型,不靠云端也能实时干活。
前沿 2024 TraceVLA: Visual Trace Prompting ICLR 机器人的手刚走过哪里?TraceVLA 把这条路径直接画在它看到的照片上,让它看见自己的足迹,再决定下一步往哪动。
前沿 2025 DexVLA arXiv 让一个只会"看图说话"的大脑别动,给它配一只 10 亿参数的"专业的手"。脑负责理解,手负责干活,互不干扰。
前沿 2025 OpenHelix arXiv 机器人版的"大脑加小脑"分工:大脑慢慢听懂你说的话,小脑飞快动手干活。代码全部开源,对标 Figure 公司不公开的 Helix。
前沿 2025 OpenVLA-OFT RSS 原版机器人模型一个字一个字念动作,慢还一抖一抖。OpenVLA-OFT 拧开三个开关——一口气说、一段段说、说连续数字——又快又稳。
前沿 2025 SpatialVLA arXiv 教机器人两件事:用普通摄像头也能看出远近;常用动作存成肌肉记忆,不用每次重新算。

IV Diffusion Policy 扩散策略与流匹配

erayeartitlevenuetldr
祖师爷 2023 Diffusion Policy: Visuomotor Policy Learning via Action Diffusion RSS 让机器人像调电视雪花一样产生动作:从满屏乱码开始,擦几下,下一步该怎么动就擦出来了。
经典 2024 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations RSS 让机器人改看 3D 立体形状(点云)而不是 2D 照片来学动作,10 条示范就够,72 个任务平均比原版强 24.2%。
经典 2024 Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation RSS 机器人选下一步动作本来要慢慢搅 100 下才出一步,这篇教它一下就跳到答案——快约十倍,连笔记本都跑得动。
经典 2024 EquiBot: SIM(3)-Equivariant Diffusion Policy CoRL 教机器人几次就够了。挪位置、转方向、换大小都不用重学,因为这件事直接焊在网络结构里。
前沿 2024 Affordance-based Robot Manipulation with Flow Matching IROS 教机器人做事时,先让它看懂物体能怎么用,再用一种"画直线"式的方法直接生成动作——比扩散模型更快更稳。
前沿 2024 pi_0: Vision-Language-Action Flow Model arXiv 让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑",再加一个会画连续动作的"流匹配"小头。
前沿 2025 DiT-Policy ICRA 把画图领域火起来的新骨架(DiT)搬到机器人身上,再把每个零件挨个拆开看,到底哪个让它真变好。
前沿 2025 Diffusion Policy Policy Optimization (DPPO) ICLR 先模仿老师傅、再自己练。DPPO 把"自己练"那步拆成很多小动作,让常规 RL 也能调教扩散策略。
前沿 2025 FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching AAAI 让机器人不再"在脑子里画 100 张草稿才动手",而是看一眼立体世界就一步给出动作 — 又快又稳,真机能跑得动。
前沿 2025 FAST: Efficient Action Tokenization for VLA RSS 机器人动作又长又啰嗦塞不进 AI 模型,FAST 学 MP3 压音乐的办法,把一长串动作压成几十个"词",AI 像说话一样把它念出来。
前沿 2025 pi_0.5: VLA with Open-World Generalization arXiv 让机器人第一次走进一个陌生人家,也能听懂"收拾下厨房"然后自己一步步把活干完。

V Imitation Learning 模仿学习与遥操作

erayeartitlevenuetldr
祖师爷 2011 A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning AISTATS 光看老师开车的录像不够 — 学生一走偏就越错越离谱。DAgger 让学生自己先开几圈,把走偏的地方拿去问老师答案,再训,反复几轮就稳了。
祖师爷 2016 Generative Adversarial Imitation Learning NeurIPS 让 AI 看大厨做菜的录像,再找个"挑刺老师"分辨它做得像不像,靠这种较劲学会做事,不用猜大厨心里的打分标准。
经典 2021 Implicit Behavioral Cloning CoRL 别让模型直接报"动作是这个",而是让它给一堆候选动作打分、挑最低分那个——机器人的手就突然变巧了。
经典 2022 Behavior Transformers: Cloning k Modes with One Stone NeurIPS 看一堆人做同一件事却各有各的做法,BeT 让 AI 先认出"有几种主流流派",再在每个流派里微调——而不是把所有动作平均成一个四不像。
经典 2023 Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA) RSS 几千美元搭一套双臂遥控器(ALOHA)让人录 50 次示范,机器人就学会一段一段动(ACT),能完成穿扎带这种细活。
经典 2023 AnyTeleop CoRL 用一台普通摄像头拍你的手,机械手就跟着模仿你的动作;换什么型号的机械手都不用重写代码。
经典 2023 RoboCat TMLR 一个 AI 大脑同时指挥好几种不同的机械臂干活,干完还会把成功的录像收回来当作下一轮的教材,越练越强。
前沿 2024 ALOHA 2 Tech Report ALOHA 2 不是新算法,而是把"教机器人用双手干活"的那台设备升级了一遍:更顺手、更耐用、图纸全开源,方便大家一起攒训练数据。
前沿 2024 DexCap RSS 人戴上"会记录动作的手套"自己干活,把手的轨迹录下来教机器人——机器人完全不必在现场。
前沿 2024 HumanPlus CoRL HumanPlus 让机器人当场跟着人做动作,做几十次后机器人自己也会了——把人当成机器人的"示范老师"。
前沿 2024 Mobile ALOHA CoRL 给桌面机器人加了一辆小车,让人手把手带它做家务(炒虾、擦桌、洗碗),每招只示范 50 次就能学会。
前沿 2024 Universal Manipulation Interface RSS 人手拿一个"带摄像头的夹子"在厨房自己做事,录下来就能教机器人,全程不用机器人在场。
前沿 2024 Behavior Generation with Latent Actions (VQ-BeT) ICML 机器人本来要画一条平滑曲线动作,VQ-BeT 让它改成"先选一个动作词、再小修一点"——就像挑表情包再加文字,比硬画曲线更不容易出怪招。
前沿 2025 Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3) RSS 让人形机器人用"自己眼睛"的视角看世界(而不是死记房间地图)。换间屋子也照样干活,不用重学。
前沿 2025 SmolVLA arXiv Hugging Face 推出的小型机器人模型:把"看到 + 听到 + 动手"塞进一张游戏显卡能训的小脑袋,让没数据中心的人也能在家玩具身 AI。

VI World Model & Video Policy 世界模型与视频策略

erayeartitlevenuetldr
前沿 2025 Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control arXiv 把一个会"脑补下一秒视频"的大模型,再练一遍,就能让它指挥机械臂做家务。
祖师爷 2018 World Models NeurIPS 让 AI 先在自己脑子里反复"做白日梦"练打游戏,练熟了再去真游戏里上场——居然真能赢。
祖师爷 2020 Dream to Control: Learning Behaviors by Latent Imagination ICLR 教 AI 在脑子里反复"做白日梦"演练动作,不用真去摔跤,就能学会跑步、翻跟头这种复杂动作。
经典 2021 Mastering Atari with Discrete World Models ICLR 让 AI 闭眼"做白日梦"练打老游戏,第一次只靠脑子里想象就打到人类水平。
经典 2022 DayDreamer CoRL 让一只四足机器人不靠仿真,在真实世界里 1 小时就学会走路——靠的是边走边在脑子里"做梦"演练。
经典 2023 Transformers are Sample-Efficient World Models ICLR 把游戏画面切成一格格"积木",让 AI 像写句子一样接龙下一帧,然后让它在脑子里"自己跟自己玩"练强化学习——只玩两小时就接近人类水平。
经典 2023 TWM: Transformer-based World Models ICLR agent 在脑子里"做梦"练本事。这篇把梦的引擎从 RNN 换成 Transformer,记得更长,做得更准。
经典 2025 Dreamer V3: Mastering Diverse Domains through World Models Nature 同一套设置,让一个 AI 自己玩 150 多种游戏都不用改参数,还第一次靠自己挖到《我的世界》里的钻石。
前沿 2023 GAIA-1 arXiv GAIA-1 是个会做梦的开车模拟器:给它一段街景视频的开头加一句"我现在打方向盘",它能接着画出后面几秒街上看到的画面。
前沿 2024 Genie: Generative Interactive Environments ICML Genie 看一堆游戏录屏,自己猜出每帧之间"按了什么键",再用这个"按键"画出下一帧——把死视频变成能玩的小游戏。
前沿 2024 UniSim ICLR 看过海量视频后,你给它一个动作(说一句话 / 推一下机械臂 / 挪一下镜头),它就生成接下来世界长什么样的视频——像一台会脑补现实的"游戏机"。
前沿 2025 1X World Model Challenge arXiv 1X 教人形机器人 Neo "脑补下一秒画面":拿现成视频 AI 当底子,喂自家机器人录像微调,再做成公开赛让大家来卷。
前沿 2025 Cosmos World Foundation Model Platform arXiv NVIDIA 用 2000 万小时真实视频,训了一个能"猜下一秒物理世界长啥样"的大模型,给机器人和无人车当通用底座。
前沿 2025 Navigation World Models CVPR 让机器人"走"之前先在脑子里放一段未来几秒的画面,看会不会撞墙,再决定真的怎么走。

VII Multimodal Ecology 多模态交互与数据生态

erayeartitlevenuetldr
前沿 2025 VLAS: VLA Model With Speech Instructions ICLR 机器人直接听原声干活:光凭你的嗓音就认出"是你在说话",再去拿你那只专属的杯子。
前沿 2024 MLA: Multisensory Language-Action Model arXiv 让机器人不只用眼睛看,还会用"手感"和"空间感",并且提前猜下一秒发生什么再动手。
祖师爷 2019 Connecting Touch and Vision via Cross-Modal Prediction CVPR 教 AI"看一眼就猜出摸起来什么感觉、摸一下就猜出在摸哪儿",让视觉和触觉互相翻译。
祖师爷 2023 ImageBind: One Embedding Space To Bind Them All CVPR 把图片当翻译官,六种感官(图、文、声、深度、热、动作)就能互相听懂彼此说话。
经典 2022 X-VLM: Multi-Grained Vision Language Pre-Training ICML 教 AI 看图,不只学"整张图配整句话",还学"图里某个物体配某个词"——这样问图里某个细节也答得准。
经典 2023 AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model EACL 一句话:给一个"只识字"的聪明大脑配几副翻译眼镜——看图、看视频、听声、感运动,统统先翻成"假文字"再喂进去,大脑本身一个字都不重学。 三件让人眼前一亮的事: 不动 LLM 主干:LLaMA-2-70B 全程冻结,只训前面那个小投影层(projection layer),训练成本
经典 2023 AudioPaLM arXiv 以前要三个工人接力——听写、翻译、配音——才能把你说的中文变成英文语音。AudioPaLM 让一个模型一口气干完,连你的音色都不丢。
经典 2023 FROMAGe: Grounding LLMs to Images ICML 把一个会说话的大模型整个冻住不动,只在它前后各加一层薄薄的"翻译片",就让它能看图、找图、还能图文混着聊天。
经典 2024 OneLLM CVPR OneLLM 用一套通用「翻译机」,让大语言模型同时听懂图像、声音、点云等八种信号——加新信号只要少量训练,不用从头再做。
前沿 2024 Sparsh: Self-supervised Touch Representations CoRL 以前每个触觉任务都得从零教机器人。Sparsh 先让模型自己看大量触觉画面学一遍,再做具体任务只要少量例子就够。 类比:跟小孩先摸过几千次东西、再去学"握紧水杯"是一个道理。技术路线和 NLP 里 BERT、视觉里 DINO 一致——先大量自学,再小量微调,只是搬到了触觉这个长期
前沿 2025 Tactile Beyond Pixels (Sparsh-X) CoRL 让机器人的手指不止"看"接触画面,还能听响声、感力度、察打滑——四路信号一起学,摸东西才像人。
前沿 2025 Tactile-VLA CoRL 让机器人除了会看会听,还学会"摸"——能感到扣子"咔哒"卡入那一下,干插拔、拧螺丝这种细活不再蛮干。
前沿 2025 TLA: Tactile-Language-Action ICRA 让机器人像你闭眼摸钥匙那样——靠"一段持续的触感"加上一句话指令,自己决定下一步该怎么用手。

VIII RF Perception & Mapping 射频感知与空间建图

erayeartitlevenuetldr
经典 2023 CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches MobiCom 2025 (Best Artifact Award) 给机器人装一颗几百块的小雷达,哪怕屋里又黑又有烟,它也能一边走一边画出准的 3D 地图,比用相机还清楚。
经典 2024 mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment SenSys 2024 教一种"看不见脸"的小盒子雷达,没学过的新动作也能猜个八九不离十——比如老人半夜在黑卧室摔倒,它能感知到。
前沿 2023 mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation MobiSys 2025 不直接问"东西在哪儿",而是先猜"它的皮朝哪边翘"——雷达就能隔着纸箱看出里面是什么形状。
祖师爷 2019 Can WiFi Estimate Person Pose? ICCV 想象你家路由器除了上网,还能告诉你"屋里那个人正在做啥姿势"——胳膊抬到哪、腿怎么弯,全画给你看。
祖师爷 2020 See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar SenSys 机器人在浓烟里也能画出清晰的房间地图——靠一颗几十块的小雷达加一个会"脑补"的神经网络。 具体两招: 训练时让贵的激光雷达(lidar)和便宜的雷达坐同一辆车,把 lidar 的清晰图当作业答案喂给神经网络(cGAN),教雷达学会脑补。学完老师下车,雷达单飞。 认门/墙/玻璃/电
经典 2019 Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm arXiv 一个 Wi-Fi 小盒子隔着墙照过去,就能画出屋里人的骨架动画——摄像头当老师,电波当学生,学一遍就会了。 更具体一点: 输入:一个商用雷达(Walabot Developer,几百美元)发出去的电波被人体反射回来后形成的 3D 强度场。 输出:屋内每个人的 15 关节点骨架,每
经典 2020 milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion SenSys 把便宜的毫米波雷达和身上的"动作感应器"(IMU)用神经网络拼起来,让机器在黑暗、烟雾里也能算出自己走到了哪。
经典 2020 RadarSLAM: Radar based Large-Scale SLAM in All Weathers BMVC 让一台"会转圈的雷达"在大雾大雪天里也能给车画地图、记住自己走过哪。
经典 2021 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning IPCCC 用 AI 教小雷达"看清"物体长啥样:从糊糊的电波信号里还原出完整 3D 形状,烟雾灰尘暗光里也能用。
经典 2022 RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals TMM 漆黑屋子里相机看不见,但雷达回波能"听"出人形。RFMask 让模型把雷达信号直接画成每个人的精细剪影——头、肩、胳膊都画出来。
经典 2023 High Resolution Point Clouds from mmWave Radar ICRA 便宜雷达拍出来的画面很糊。RadarHD 用神经网络当翻译,把糊画面改成像激光雷达那样清晰的点云图,烟雾、黑暗里都能用。
经典 2023 RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory TCSVT 用雷达回声画出人的姿势:直接学容易乱猜,先把"回声"和"姿势"两边的特征对齐,再画关节,换房间也更稳。
前沿 2024 Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on SenSys 在肩膀、胸口、手腕各贴一片简化雷达,每片只能看到身体一小块,算法把这些局部信号拼成完整的 3D 人体形状。
前沿 2024 Diffusion Model is a Good Pose Estimator from 3D RF-Vision CVPR 毫米波雷达拍出的人像隔了层毛玻璃。这篇论文让 AI 从噪点里一笔笔擦出人体骨架,比一次猜准稳得多。CVPR 2024 收录。
前沿 2024 Enabling Visual Recognition at Radio Frequency (PanoRadar) MobiCom PanoRadar 把便宜的小雷达装到一个转台上边转边扫,再让神经网络把模糊回声拼成 3D 地图,让雷达像眼睛一样"看见"房间。
前沿 2025 Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion arXiv 毫米波信号能穿过纸箱、布帘,Wave-Former 把弹回来的模糊回声拼成藏在背后的杯子、瓶子的完整 3D 形状。

IX Auditory & Acoustic 听觉智能与声学空间交互

erayeartitlevenuetldr
前沿 2024 Proactive Hearing Assistants that Isolate Egocentric Conversations UIST 戴上这副耳机,它自己听出"现在你在跟谁聊天",把同伴的声音放大、其他人压下去,你一个按钮都不用按。
经典 2024 NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators MobiCom 在咖啡馆听不清对面说话?让助听器自己降噪,不连手机、不连云。
祖师爷 2023 Creating speech zones with self-distributing acoustic swarms Nature 七个像骰子那么大的小机器人,自己爬上桌散成一圈,桌上几个人同时讲话,它能分清谁说了啥。
祖师爷 2019 Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation IEEE/ACM TASLP 两人同时讲话的混音,喂给一个网络,它能把每个人的声音分别还原。比老方法(看频谱图)更准、更快、更小。
祖师爷 2022 SoundStream: An End-to-End Neural Audio Codec IEEE/ACM TASLP 让 AI 自己学怎么把声音"打包又拆开",3 kbps 的小包听起来反而比传统方案 12 kbps 还清楚。
经典 2020 Conformer Interspeech 让 AI 听人说话时既能听清每个字的咬字,又能联系整段话的意思——一个会同时"听细节"和"听大意"的耳朵。
经典 2020 Dual-path RNN ICASSP DPRNN 把超长录音切成小块,让 RNN 先在块里跑、再跨块跑,交替几轮就能把两个人同时说话拆开。
经典 2021 Meta-StyleSpeech ICML 给模型听几秒陌生人说话的录音,它就能用这个人的声音念任意一句话。不用重新训练、不用收集几小时数据——几秒就够。
经典 2023 AudioLM TASLP 把声音切成两种"音频字"——一种管说啥、一种管音色,模型像写句子一样续写,给 3 秒就能接出像本人的语音。
经典 2023 EnCodec TMLR EnCodec 把声音压成一串很小的数字再还原回来;既比老办法省流量,又因为是数字,AI 可以像写字一样"写"出声音。
经典 2023 MusicLM arXiv 对着模型说一句"缓慢爵士钢琴配鼓刷",它就生成几分钟真实音乐——先定骨架(结构),再填细节(音色)。
经典 2023 Robust Speech Recognition via Large-Scale Weak Supervision ICML Whisper 把网上 68 万小时音频和字幕一锅烩,喂进普通 Transformer,开箱就能听各种口音、噪声和长录音,还顺手翻译——靠数据杂取胜。
前沿 2023 SeamlessM4T arXiv *一个模型搞定 100 种语言的"听懂、翻译、说出来",省掉以前三四个 App 接力的麻烦。 它一口气会做 5 件事,名字像缩写但其实只是"输入 → 输出"的简写: ASR(Automatic Speech Recognition,语音识别):听写成同语言文字 S2T(Speec
前沿 2024 Stable Audio ICML 打几个字描述你想要的声音,AI 就能做出几十秒到一两分钟的高音质音乐或音效,长度还能精确到秒。
前沿 2024 Universal Source Separation with Weakly Labelled Data TASLP 给电脑一段嘈杂录音,告诉它"我只要狗叫",它就把狗叫从混音里抠出来。一个模型覆盖 527 类日常声音。

X Datasets & Benchmarks 数据集与评测基准

erayeartitlevenuetldr
祖师爷 2019 Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning CoRL 给那些号称"会举一反三"的机器人算法办一场 50 道动手题的统一考试,看它们是不是真的会。
祖师爷 2019 RLBench: The Robot Learning Benchmark & Learning Environment RA-L 给机器人手臂出了一套 100 道题的"统考卷",从此大家都做同一套题,第一次能公平比谁更厉害。
祖师爷 2020 robosuite: A Modular Simulation Framework and Benchmark for Robot Learning arXiv robosuite 是机器人 AI 的"标准考场"——同一台仿真机械臂、同一组题目,让全球研究者公平地比谁的算法更聪明。
经典 2021 What Matters in Learning from Offline Human Demonstrations for Robot Manipulation CoRL 这篇不发明新算法,而是把"机器人看录像学操作"里每个变量挨个换一遍,告诉你哪些真有用、哪些是白忙。
经典 2022 CALVIN RA-L CALVIN 是一把"机器人听话考试"的尺子:人说一段话,机器人要在桌上一步接一步把活干完,34 个小任务统一打分。
经典 2023 BridgeData V2 dataset-eval BridgeData V2 是一份公开的"机器人干活录像库"——6 万段机械臂在 24 个真实场景里的演示视频,大家训机器人时把它当共同起跑线。
经典 2023 LIBERO NeurIPS 教机器人学新技能时别忘旧技能。LIBERO 是这事的标准考卷,4 套题分别考空间、物体、目标和综合。
经典 2023 RH20T RSS Workshop 机器人数据集,除拍视频外还录了"手感"和"声音":拧瓶盖多大力、咔哒卡到位。147 项任务、11 万段。
前沿 2023 Open X-Embodiment ICRA 22 家实验室把各种机器人的"练手视频"凑成一个大数据集,再训一个通吃模型,发现喂多种机器人比单喂一种学得更好。
前沿 2024 DROID RSS 全球 18 家实验室一起拍机器人干活的视频,凑出 7.6 万段、564 个真实场景,让机器人不再只会"自家桌子上那点活"。
前沿 2024 RoboCasa RSS 想造个会做饭的家用机器人?RoboCasa 给你 120 个虚拟厨房、100 个小动作、十万次练习录像,让它先在游戏里练会,再上岗。
前沿 2024 SimplerEnv NeurIPS 不用搬真机器人,在电脑里就能给 VLA(视觉-语言-动作模型)打分,分数和真机几乎一样准。

XI Simulation & Sim2Real 仿真与真实迁移

erayeartitlevenuetldr
祖师爷 2019 Habitat: A Platform for Embodied AI Research ICCV 给家用机器人造一个跑得飞快的"VR 房子",让它在里面绕路撞墙练几千万步,再上岗去你家。
祖师爷 2021 Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning NeurIPS Datasets 一句话:把"算物理"和"训神经网络"塞进同一张显卡,机器人学走路从"几千台 CPU 跑一晚"压成"一张卡跑几分钟"。 类比:以前训机器人像切菜、炒菜、装盘分三个房间,端来端去比真做菜还累;Isaac Gym 把厨房合并,菜不动、工具换着上。 效果对照:OpenAI 训魔方机械手用
经典 2020 SAPIEN: A SimulAted Part-based Interactive ENvironment CVPR 给机器人造了一个虚拟宜家展厅,2,346 件家具每个抽屉、每扇门、每个瓶盖都能真的拉开、推开、拧开。
经典 2021 Habitat 2.0 NeurIPS 上一代 Habitat 只能在虚拟房子里走路看;2.0 让小机器人能真的开冰箱、把杯子从厨房拿到客厅做家务。
经典 2021 ManiSkill NeurIPS ManiSkill 是教机器人开抽屉、开柜门这种家具的统一考场—— 专测它练完几十个柜子之后,能不能上手没见过的第 101 个。
经典 2022 DexMV ECCV 让机械手学拧瓶盖、倒水太难,DexMV 让算法看人手视频学,把人的动作"翻译"成仿真里机械手能照着练的示范。
经典 2022 ProcTHOR NeurIPS 过去训练 AI 在屋里走来走去,得人工一间一间搭样板房,慢且少。ProcTHOR 让电脑按规则批量造 1 万套房,AI 见多了,换个没去过的房子也能找到东西。
前沿 2024 BEHAVIOR-1K CoRL 斯坦福搭的"机器人家务考场":1000 道家务题、50 间样板房、9000 多件物品,让所有人用同一把尺子比"机器人到底会不会做家务"。
前沿 2024 Habitat 3.0 ICLR 在虚拟的家里加一个会走会动的"假人",让机器人练习扫地搬东西时,得学会一边干活一边躲人、配合人。
前沿 2025 Isaac Lab arXiv 机器人在电脑里"练功"的虚拟训练场。以前练得飞快但看不清画面,画面漂亮又练得慢;Isaac Lab 把这两件事捏到了一起。
前沿 2025 MuJoCo Playground arXiv 一个 pip install 就能装好的开源仿真平台,让机器人先在电脑里把走路、抓东西练熟,再几乎原样搬到真机上跑。