Era

前沿 · Frontier

2024-2025 还在火热推进的方向。架构试错、规模扩展、模态融合都还没有定论。这一档变化最快——今天的 SOTA 半年后就可能被新方法替代。

62总篇数

10覆盖主题

2023–2025年份跨度

164,088字

祖师爷 · Founder →经典 · Classic →

I VLM Foundation 7 篇

2024
What matters when building vision-language models? NeurIPS · ⭐⭐⭐
做"看图说话 AI"时大家凭感觉选零件，这篇把每个选择拆开做对照实验，整理成一份避坑清单，再训了个 8B 模型当样板。
2024
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling arXiv · ⭐⭐⭐⭐
把模型、数据、推理三件事一起加大，让免费开源的看图模型第一次在大学考试里追上顶级闭源模型。
2024
The Llama 3 Herd of Models arXiv · ⭐⭐⭐⭐
Meta 把训练 Llama 3 大模型的全套"菜谱"公开了——用了什么料、多少张卡、跑多久、考多少分。
2024
LLaVA-NeXT-Interleave arXiv · ⭐⭐⭐
教 AI 像刷图文并茂的小红书：图和字按顺序穿着读，多图、视频、3D 都用这一招，不用各训一个模型。
2024
LLaVA-OneVision: Easy Visual Task Transfer arXiv · ⭐⭐⭐
一套配方教会一个模型同时看懂单张图、几张图、和视频，开源圈第一次在视频上接近 GPT-4V。
2024
Long-CLIP: Unlocking the Long-Text Capability of CLIP ECCV · ⭐⭐⭐
给只能读 77 字短纸条的 CLIP 做两个小手术，让它能读 248 字的长纸条，但又没忘掉原来认识的那些短词。
2024
Pixtral 12B arXiv · ⭐⭐⭐
Mistral 开源的"会看图聊天的助手"——从一开始就同时学看图和说话，图想多大就多大，能免费拿去做产品。

III End-to-End VLA 10 篇

2024
3D-VLA ICML · ⭐⭐⭐⭐
让机器人除了看平面照片，还能"摸到"立体形状；动手前先在脑里画一张"做完后的样子"，再照着画面去动。
2024
GR-2: Generative Video-Language-Action Model arXiv · ⭐⭐⭐⭐
让机器人先刷 3800 万段网络视频攒常识，再练动手；它干活时脑子里会"预演"下一秒的画面。
2024
RDT-1B: Diffusion Foundation Model for Bimanual Manipulation ICLR · ⭐⭐⭐⭐
清华团队给双臂机器人配的"大脑"：10 亿参数，听一句话就能让两只机械臂配合着倒水、叠衣服。
2024
RoboMamba NeurIPS · ⭐⭐⭐
机器人脑子原本用 Transformer 拼出来，反应慢、显存吃紧。RoboMamba 换成 Mamba（一种"流水线式"架构），让机器人想得更快、更省。
2024
TinyVLA RA-L · ⭐⭐⭐
把会听话的机器人大脑瘦身到 1.4B，动作生成换成"先乱后凿"的扩散模型，不靠云端也能实时干活。
2024
TraceVLA: Visual Trace Prompting ICLR · ⭐⭐⭐
机器人的手刚走过哪里？TraceVLA 把这条路径直接画在它看到的照片上，让它看见自己的足迹，再决定下一步往哪动。
2025
DexVLA arXiv · ⭐⭐⭐⭐
让一个只会"看图说话"的大脑别动，给它配一只 10 亿参数的"专业的手"。脑负责理解，手负责干活，互不干扰。
2025
OpenHelix arXiv · ⭐⭐⭐
机器人版的"大脑加小脑"分工：大脑慢慢听懂你说的话，小脑飞快动手干活。代码全部开源，对标 Figure 公司不公开的 Helix。
2025
OpenVLA-OFT RSS · ⭐⭐⭐
原版机器人模型一个字一个字念动作，慢还一抖一抖。OpenVLA-OFT 拧开三个开关——一口气说、一段段说、说连续数字——又快又稳。
2025
SpatialVLA arXiv · ⭐⭐⭐⭐
教机器人两件事：用普通摄像头也能看出远近；常用动作存成肌肉记忆，不用每次重新算。

IV Diffusion Policy 7 篇

2024
Affordance-based Robot Manipulation with Flow Matching IROS · ⭐⭐⭐
教机器人做事时，先让它看懂物体能怎么用，再用一种"画直线"式的方法直接生成动作——比扩散模型更快更稳。
2024
pi_0: Vision-Language-Action Flow Model arXiv · ⭐⭐⭐⭐
让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑"，再加一个会画连续动作的"流匹配"小头。
2025
DiT-Policy ICRA · ⭐⭐⭐⭐
把画图领域火起来的新骨架（DiT）搬到机器人身上，再把每个零件挨个拆开看，到底哪个让它真变好。
2025
Diffusion Policy Policy Optimization (DPPO) ICLR · ⭐⭐⭐⭐
先模仿老师傅、再自己练。DPPO 把"自己练"那步拆成很多小动作，让常规 RL 也能调教扩散策略。
2025
FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching AAAI · ⭐⭐⭐⭐
让机器人不再"在脑子里画 100 张草稿才动手"，而是看一眼立体世界就一步给出动作 — 又快又稳，真机能跑得动。
2025
FAST: Efficient Action Tokenization for VLA RSS · ⭐⭐⭐⭐
机器人动作又长又啰嗦塞不进 AI 模型，FAST 学 MP3 压音乐的办法，把一长串动作压成几十个"词"，AI 像说话一样把它念出来。
2025
pi_0.5: VLA with Open-World Generalization arXiv · ⭐⭐⭐⭐⭐
让机器人第一次走进一个陌生人家，也能听懂"收拾下厨房"然后自己一步步把活干完。

V Imitation Learning 8 篇

2024
ALOHA 2 Tech Report · ⭐⭐
ALOHA 2 不是新算法，而是把"教机器人用双手干活"的那台设备升级了一遍：更顺手、更耐用、图纸全开源，方便大家一起攒训练数据。
2024
DexCap RSS · ⭐⭐⭐
人戴上"会记录动作的手套"自己干活，把手的轨迹录下来教机器人——机器人完全不必在现场。
2024
HumanPlus CoRL · ⭐⭐⭐⭐
HumanPlus 让机器人当场跟着人做动作，做几十次后机器人自己也会了——把人当成机器人的"示范老师"。
2024
Mobile ALOHA CoRL · ⭐⭐⭐
给桌面机器人加了一辆小车，让人手把手带它做家务（炒虾、擦桌、洗碗），每招只示范 50 次就能学会。
2024
Universal Manipulation Interface RSS · ⭐⭐⭐
人手拿一个"带摄像头的夹子"在厨房自己做事，录下来就能教机器人，全程不用机器人在场。
2024
Behavior Generation with Latent Actions (VQ-BeT) ICML · ⭐⭐⭐⭐
机器人本来要画一条平滑曲线动作，VQ-BeT 让它改成"先选一个动作词、再小修一点"——就像挑表情包再加文字，比硬画曲线更不容易出怪招。
2025
Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3) RSS · ⭐⭐⭐⭐
让人形机器人用"自己眼睛"的视角看世界（而不是死记房间地图）。换间屋子也照样干活，不用重学。
2025
SmolVLA arXiv · ⭐⭐⭐
Hugging Face 推出的小型机器人模型：把"看到 + 听到 + 动手"塞进一张游戏显卡能训的小脑袋，让没数据中心的人也能在家玩具身 AI。

VI World Model & Video Policy 7 篇

2023
GAIA-1 arXiv · ⭐⭐⭐⭐
GAIA-1 是个会做梦的开车模拟器：给它一段街景视频的开头加一句"我现在打方向盘"，它能接着画出后面几秒街上看到的画面。
2024
Genie: Generative Interactive Environments ICML · ⭐⭐⭐⭐
Genie 看一堆游戏录屏，自己猜出每帧之间"按了什么键"，再用这个"按键"画出下一帧——把死视频变成能玩的小游戏。
2024
UniSim ICLR · ⭐⭐⭐⭐
看过海量视频后，你给它一个动作（说一句话 / 推一下机械臂 / 挪一下镜头），它就生成接下来世界长什么样的视频——像一台会脑补现实的"游戏机"。
2025
Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control arXiv · ⭐⭐⭐⭐⭐
把一个会"脑补下一秒视频"的大模型，再练一遍，就能让它指挥机械臂做家务。
2025
1X World Model Challenge arXiv · ⭐⭐⭐
1X 教人形机器人 Neo "脑补下一秒画面"：拿现成视频 AI 当底子，喂自家机器人录像微调，再做成公开赛让大家来卷。
2025
Cosmos World Foundation Model Platform arXiv · ⭐⭐⭐⭐⭐
NVIDIA 用 2000 万小时真实视频，训了一个能"猜下一秒物理世界长啥样"的大模型，给机器人和无人车当通用底座。
2025
Navigation World Models CVPR · ⭐⭐⭐⭐
让机器人"走"之前先在脑子里放一段未来几秒的画面，看会不会撞墙，再决定真的怎么走。

VII Multimodal Ecology 6 篇

2024
MLA: Multisensory Language-Action Model arXiv · ⭐⭐⭐⭐
让机器人不只用眼睛看，还会用"手感"和"空间感"，并且提前猜下一秒发生什么再动手。
2024
Sparsh: Self-supervised Touch Representations CoRL · ⭐⭐⭐⭐
以前每个触觉任务都得从零教机器人。Sparsh 先让模型自己看大量触觉画面学一遍，再做具体任务只要少量例子就够。类比：跟小孩先摸过几千次东西、再去学"握紧水杯"是一个道理。技术路线和 NLP 里 BERT、视觉里 DINO 一致——先大量自学，再小量微调，只是搬到了触觉这个长期
2025
VLAS: VLA Model With Speech Instructions ICLR · ⭐⭐⭐
机器人直接听原声干活：光凭你的嗓音就认出"是你在说话"，再去拿你那只专属的杯子。
2025
Tactile Beyond Pixels (Sparsh-X) CoRL · ⭐⭐⭐⭐
让机器人的手指不止"看"接触画面，还能听响声、感力度、察打滑——四路信号一起学，摸东西才像人。
2025
Tactile-VLA CoRL · ⭐⭐⭐⭐
让机器人除了会看会听，还学会"摸"——能感到扣子"咔哒"卡入那一下，干插拔、拧螺丝这种细活不再蛮干。
2025
TLA: Tactile-Language-Action ICRA · ⭐⭐⭐⭐
让机器人像你闭眼摸钥匙那样——靠"一段持续的触感"加上一句话指令，自己决定下一步该怎么用手。

VIII RF Perception & Mapping 5 篇

2023
mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation MobiSys 2025 · ⭐⭐⭐⭐
不直接问"东西在哪儿"，而是先猜"它的皮朝哪边翘"——雷达就能隔着纸箱看出里面是什么形状。
2024
Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on SenSys · ⭐⭐⭐⭐
在肩膀、胸口、手腕各贴一片简化雷达，每片只能看到身体一小块，算法把这些局部信号拼成完整的 3D 人体形状。
2024
Diffusion Model is a Good Pose Estimator from 3D RF-Vision CVPR · ⭐⭐⭐⭐
毫米波雷达拍出的人像隔了层毛玻璃。这篇论文让 AI 从噪点里一笔笔擦出人体骨架，比一次猜准稳得多。CVPR 2024 收录。
2024
Enabling Visual Recognition at Radio Frequency (PanoRadar) MobiCom · ⭐⭐⭐⭐
PanoRadar 把便宜的小雷达装到一个转台上边转边扫，再让神经网络把模糊回声拼成 3D 地图，让雷达像眼睛一样"看见"房间。
2025
Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion arXiv · ⭐⭐⭐⭐
毫米波信号能穿过纸箱、布帘，Wave-Former 把弹回来的模糊回声拼成藏在背后的杯子、瓶子的完整 3D 形状。

IX Auditory & Acoustic 4 篇

2023
SeamlessM4T arXiv · ⭐⭐⭐⭐
*一个模型搞定 100 种语言的"听懂、翻译、说出来"，省掉以前三四个 App 接力的麻烦。它一口气会做 5 件事，名字像缩写但其实只是"输入 → 输出"的简写： ASR（Automatic Speech Recognition，语音识别）：听写成同语言文字 S2T（Speec
2024
Proactive Hearing Assistants that Isolate Egocentric Conversations UIST · ⭐⭐⭐
戴上这副耳机，它自己听出"现在你在跟谁聊天"，把同伴的声音放大、其他人压下去，你一个按钮都不用按。
2024
Stable Audio ICML · ⭐⭐⭐⭐
打几个字描述你想要的声音，AI 就能做出几十秒到一两分钟的高音质音乐或音效，长度还能精确到秒。
2024
Universal Source Separation with Weakly Labelled Data TASLP · ⭐⭐⭐⭐
给电脑一段嘈杂录音，告诉它"我只要狗叫"，它就把狗叫从混音里抠出来。一个模型覆盖 527 类日常声音。

X Datasets & Benchmarks 4 篇

2023
Open X-Embodiment ICRA · ⭐⭐⭐
22 家实验室把各种机器人的"练手视频"凑成一个大数据集，再训一个通吃模型，发现喂多种机器人比单喂一种学得更好。
2024
DROID RSS · ⭐⭐⭐
全球 18 家实验室一起拍机器人干活的视频，凑出 7.6 万段、564 个真实场景，让机器人不再只会"自家桌子上那点活"。
2024
RoboCasa RSS · ⭐⭐⭐
想造个会做饭的家用机器人？RoboCasa 给你 120 个虚拟厨房、100 个小动作、十万次练习录像，让它先在游戏里练会，再上岗。
2024
SimplerEnv NeurIPS · ⭐⭐⭐⭐
不用搬真机器人，在电脑里就能给 VLA（视觉-语言-动作模型）打分，分数和真机几乎一样准。

XI Simulation & Sim2Real 4 篇

2024
BEHAVIOR-1K CoRL · ⭐⭐⭐⭐
斯坦福搭的"机器人家务考场"：1000 道家务题、50 间样板房、9000 多件物品，让所有人用同一把尺子比"机器人到底会不会做家务"。
2024
Habitat 3.0 ICLR · ⭐⭐⭐
在虚拟的家里加一个会走会动的"假人"，让机器人练习扫地搬东西时，得学会一边干活一边躲人、配合人。
2025
Isaac Lab arXiv · ⭐⭐⭐
机器人在电脑里"练功"的虚拟训练场。以前练得飞快但看不清画面，画面漂亮又练得慢；Isaac Lab 把这两件事捏到了一起。
2025
MuJoCo Playground arXiv · ⭐⭐⭐
一个 pip install 就能装好的开源仿真平台，让机器人先在电脑里把走路、抓东西练熟，再几乎原样搬到真机上跑。