入门综述清单
想看这个领域长什么样?先读这几篇"教科书式"的总结文章,再回头啃专题。
这页是什么
在科研里,有一种文章专门"不讲新发现,只讲这个领域到现在长成什么样了"。它像一本书的目录,把所有重要工作排好队、画好关系。这种文章有个名字:
综述(survey):把一个领域里几十上百篇论文的脉络,整理成一篇长文章。读它的好处是不用自己摸索,作者已经替你画好地图。
下面这 8 篇就是 2024–2025 年 "具身智能 / 让机器人听懂话又会动手" 这个方向的地图。每篇我都标了:
- 能不能读懂:5 颗星 = 你这周末就能看完一半;1 颗星 = 别硬啃。
- 用基础知识翻译它在讲什么:一段话讲清。
- 看哪几节就够:综述很长,但你不必读完。
读到这里你应该懂了:综述 = 别人替你画好的地图,本页就是这些地图的导航。
几个会反复出现的词,先讲清
下面综述里会冒出一些固定词,先一次讲完,后面就不再解释。
具身智能(Embodied AI):让 AI 不光在屏幕里聊天,还能装在一个有身体的机器(机器人、机械臂)里去看、去听、去动手。"具身" = 有身体。
VLA 模型(Vision-Language-Action):一种 AI,输入是图像(V)+ 语言指令(L),输出是动作(A)。可以想成"眼睛看到 + 耳朵听到指令 → 手脚做动作"的整套流程。
大模型(LLM):能看懂大段中文/英文、还能写文章的 AI,比如 ChatGPT 背后那种。这里你只需要知道"它特别会处理语言"。
VLM:在 LLM 上再加一只眼睛——既能读字也能看图。可以理解为"会看图说话的大模型"。
机械臂操作(manipulation):机器人用手抓东西、放东西、拧瓶盖之类的任务。
仿真器(simulator):在电脑里建一个虚拟的房间,让机器人先在里面练习,省得在真世界里把东西摔坏。
Sim-to-Real:在仿真器里训练好后,搬到真机器人上还要能用。这是个老大难问题,因为虚拟世界和真世界总有差。
读到这里你应该懂了:本页所有综述讨论的都是 "怎么让一个有身体的 AI 看懂世界 + 听懂话 + 做出动作"。
一、先读这两篇(建立全景)
1. 具身智能全景综述
| 项 | 内容 |
|---|---|
| 标题 | Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI |
| 作者 | Yang Liu, Weixing Chen, Yongjie Bai 等(中山大学 + 鹏城实验室) |
| 年份 | 2024-07(持续更新到 2025) |
| 链接 | arXiv 2407.06886 |
入门读者能否读懂:⭐⭐⭐⭐⭐。这篇是"地图的地图",不需要你预先认识任何术语。读起来像看一本《具身智能是什么》的科普册子。
它在讲什么(高中翻译版):作者把"具身智能"这个大筐拆成 4 个小篮子——
- 怎么看世界(看图、看 3D 房间)
- 怎么和人交流(听懂自然语言指令)
- 大脑怎么决策(用大模型想、用世界模型预测)
- 从虚拟到真实(怎么把虚拟练习搬到真机器人上)
每个篮子里再装具体方法。读完你会拥有一张"路线图",下次别人提一个新名词,你能立刻指出它属于哪个篮子。
只看哪几节就够:
- 摘要 + 第 1 章引言(必读)
- 第 2 章 Embodied Perception(看世界)的开头几节
- 第 5 章里关于 simulator / dataset 的表格——直接当工具书翻
读到这里你应该懂了:这一篇是入坑第一站,看完心里有张领域全景图。
2. VLA 模型族谱总图
| 项 | 内容 |
|---|---|
| 标题 | A Survey on Vision-Language-Action Models for Embodied AI |
| 作者 | Yueen Ma, Zixing Song 等(香港中文大学 + 华为诺亚) |
| 年份 | 2024-05(持续更新) |
| 链接 | arXiv 2405.14093 |
入门读者能否读懂:⭐⭐⭐⭐。前面读完 #1 之后再来,难度刚好。它会用比 #1 多一点的术语,但每个新词都会先解释。
它在讲什么(高中翻译版):把所有 "看图 + 听话 + 做动作" 的 AI 模型按家族画成一棵树——
- 大脑级:负责"我接下来该做什么",比如让机器人理解"去厨房拿杯水"是要先走过去再伸手。
- 手脚级:负责"具体每一秒手往哪挪",更接近肌肉记忆。
- 二合一:从看到指令一步直接出动作,中间不分大脑/手脚。
读完你能听懂别人讲"这是个端到端 VLA"或"这是高层规划器"——这俩词在 #1 里也出现过,但这篇会让你彻底分清。
只看哪几节就够:
- 第 1 章 + 第 2 章背景(必读)
- 找一个最经典的例子(论文里反复提到的 RT-2 / OpenVLA),跟着作者的图理解一次
读到这里你应该懂了:VLA 不是一个模型,是一类做法的统称,这棵树帮你给任何新论文找位置。
二、补全领域细节(按需挑读)
下面 6 篇是补充弹药,读不读取决于你后面想钻哪个方向。挑一两篇就够。
3. 早期版本但写得最像教科书
| 项 | 内容 |
|---|---|
| 标题 | A Survey on Robotics with Foundation Models: toward Embodied AI |
| 作者 | Zhiyuan Xu, Kun Wu 等(美的 + 同济) |
| 年份 | 2024-02 |
| 链接 | arXiv 2402.02385 |
入门读者能否读懂:⭐⭐⭐⭐。它老一些,但每个术语都从头讲,对零基础最友好。
它在讲什么:聚焦"机械臂抓东西"这一个具体场景,把整套流程拆成"先想 → 再动" 两半,分别介绍大模型怎么塞进每一半。
只看哪几节就够:开篇定义 + manipulation(机械臂操作)那一章。其他章可以先跳过。
提示:如果觉得 #2 跳得太快,回来读这篇当补课。
4. 想自己跑机器人时再读
| 项 | 内容 |
|---|---|
| 标题 | Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications |
| 作者 | Kento Kawaharazuka 等(牛津 + 德州大学奥斯汀) |
| 年份 | 2025-10 |
| 链接 | arXiv 2510.07077 |
入门读者能否读懂:⭐⭐⭐。它假设你已经认识 VLA,所以先把 #1、#2 读完再来。
它在讲什么:从"我要在真机器人上跑起来"这个工程视角往回看——除了模型,还需要硬件、数据采集、各种测评工具(benchmark:标准化的考试卷,用来比谁的模型更强)。
只看哪几节就够:硬件 / 数据采集那部分。其他章可以等真的要做实验时再翻。
提示:这是从"看懂论文"过渡到"想自己动手"的桥梁。
5. 给新人写的成长路线图
| 项 | 内容 |
|---|---|
| 标题 | An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges |
| 作者 | Chao Xu 等(多机构联合) |
| 年份 | 2025-12 |
| 链接 | arXiv 2512.11362 |
入门读者能否读懂:⭐⭐⭐⭐。作者明说"按新人学习的顺序写",照着读就行。
它在讲什么:把 VLA 的发展拆成三段——
- 基本零件:每个模型都得有的几块。
- 关键里程碑:哪几篇论文是分水岭。
- 五大老大难:表征不够好 / 执行不够稳 / 换个场景就不会 / 安全 / 数据不够。
读它的最大收获是知道"现在这个领域最缺什么"。
只看哪几节就够:里程碑那一章 + 五大挑战。
提示:和 #2 互补。#2 是族谱(横向),这篇是路线图(纵向时间线)。
6. 想专攻"机械臂"时读
| 项 | 内容 |
|---|---|
| 标题 | Large VLM-based Vision-Language-Action Models for Robotic Manipulation |
| 作者 | Rui Shao, Wei Li 等(哈工深 + 九天实验室) |
| 年份 | 2025-08 |
| 链接 | arXiv 2508.13073 |
入门读者能否读懂:⭐⭐⭐。窄而深,假设你已经知道 VLM 是什么。
它在讲什么:把机械臂的 VLA 模型分成两条路线——
- 一锅炖:从图像到动作一个模型搞定。
- 分层做:先一个模型想"该干啥",再一个模型管"具体手怎么动"。
然后逐个对比谁强谁弱。
只看哪几节就够:那张分类总览图 + 两类路线对比表。
提示:读 OpenVLA 论文笔记之前先扫这篇,能让你看清 OpenVLA 在大族谱里属于哪一类。
7. 世界模型专题
| 项 | 内容 |
|---|---|
| 标题 | A Comprehensive Survey on World Models for Embodied AI |
| 作者 | Xinqing Li, Xin He 等(新加坡 A*STAR) |
| 年份 | 2025-10 |
| 链接 | arXiv 2510.16732 |
入门读者能否读懂:⭐⭐⭐。先要知道一个新词:
世界模型(world model):让 AI 在脑子里"预演" — 还没真做这一步,先想象做下去会发生什么。像下棋时心里走几步看看会不会输。
它在讲什么:把"心里预演"这个想法从早期围棋 AI(Dreamer 那一脉),一直串到现在能生成视频的模型。讨论怎么让机器人也学会先在脑里放一段视频,再决定真的怎么动。
只看哪几节就够:开头的分类总览 + "世界模型怎么和策略接起来" 那一节。
提示:本站 Cosmos Policy 笔记的隐藏前提就是这一篇里讲的"视频生成模型可以当机器人大脑"。
8. 数据从哪来:互联网视频
| 项 | 内容 |
|---|---|
| 标题 | Towards Generalist Robot Learning from Internet Video |
| 作者 | Robert McCarthy 等(伦敦大学学院 + 牛津) |
| 年份 | 2024-04(持续更新) |
| 链接 | arXiv 2404.19664 |
入门读者能否读懂:⭐⭐。话题听起来好懂,但里面会涉及不少数据处理细节,劝退指数偏高。
它在讲什么:机器人在真世界里采数据非常贵——一只机械臂练几千小时人工成本极高。所以大家想:能不能直接拿 YouTube 上人做菜、修车、打篮球的视频,让 AI 看着学?这篇就是讨论"看视频学动作"行不行、怎么行。
只看哪几节就够:开头一段把"数据稀缺"这个痛点讲清的引言;中间挑一两个具体方法看图就好;结论回过头看。
提示:放最后读。它解释了为什么 2024–2025 年大家都开始训"会生成视频的策略模型"。
本站论文 vs. 这 8 篇综述的覆盖关系
| 本站论文 | 在哪几篇综述里能找到 |
|---|---|
| LLaVA | #1, #2, #3(作为 VLM 主干) |
| SayCan | #1, #2, #3, #5(作为高层规划经典) |
| OpenVLA | #2, #4, #5, #6(核心案例) |
| VLAS | #2, #6 |
| MLA | #2(多模态扩展) |
| Cosmos Policy | #4, #5, #7(世界模型路线) |
| 3DShape2VecSet | #1(3D 表征章节) |
主流综述不覆盖的部分(本站独有专题):
- 听觉智能(声学阵列 / 智能助听 / 主动听觉)→ 属于音频 AI 子领域。
- 射频感知(毫米波 / 雷达建图)→ 属于无线感知子领域。
把它们当作"主流之外的补充感官"——绝大多数综述默认机器人只用眼睛,本站这几篇笔记告诉你耳朵和电磁波也能撑起独立的感知体系。
读到这里你应该懂了:6 篇核心 VLA 论文综述里能直接找到对应介绍;2 类专题(听觉、射频)需要去别的子领域综述里找。
一句话阅读顺序
| 时间 | 任务 |
|---|---|
| 第一周 | 读 #1(领域地图)+ #2(VLA 族谱)→ 看本站 6 篇核心 VLA 论文笔记 |
| 第二周 | 从 #4 / #5 / #6 任选一篇深读 |
| 第三周及以后 | 想钻 Cosmos Policy 读 #7;想懂数据问题读 #8;觉得 #2 太快读 #3 |
结语:综述不是真理,只是一份"截止到这个月为止,大家在做什么"的快照。读了它你不会突然变成专家,但你能在听别人讨论时知道每个名词属于哪个篮子——这就够开始读单篇论文了。