Learn · Beginner Track

入门综述清单

想看这个领域长什么样？先读这几篇"教科书式"的总结文章，再回头啃专题。

这页是什么

在科研里，有一种文章专门"不讲新发现，只讲这个领域到现在长成什么样了"。它像一本书的目录，把所有重要工作排好队、画好关系。这种文章有个名字：

综述（survey）：把一个领域里几十上百篇论文的脉络，整理成一篇长文章。读它的好处是不用自己摸索，作者已经替你画好地图。

下面这 8 篇就是 2024–2025 年 "具身智能 / 让机器人听懂话又会动手" 这个方向的地图。每篇我都标了：

能不能读懂：5 颗星 = 你这周末就能看完一半；1 颗星 = 别硬啃。
用基础知识翻译它在讲什么：一段话讲清。
看哪几节就够：综述很长，但你不必读完。

读到这里你应该懂了：综述 = 别人替你画好的地图，本页就是这些地图的导航。

几个会反复出现的词，先讲清

下面综述里会冒出一些固定词，先一次讲完，后面就不再解释。

具身智能（Embodied AI）：让 AI 不光在屏幕里聊天，还能装在一个有身体的机器（机器人、机械臂）里去看、去听、去动手。"具身" = 有身体。

VLA 模型（Vision-Language-Action）：一种 AI，输入是图像（V）+ 语言指令（L），输出是动作（A）。可以想成"眼睛看到 + 耳朵听到指令 → 手脚做动作"的整套流程。

大模型（LLM）：能看懂大段中文/英文、还能写文章的 AI，比如 ChatGPT 背后那种。这里你只需要知道"它特别会处理语言"。

VLM：在 LLM 上再加一只眼睛——既能读字也能看图。可以理解为"会看图说话的大模型"。

机械臂操作（manipulation）：机器人用手抓东西、放东西、拧瓶盖之类的任务。

仿真器（simulator）：在电脑里建一个虚拟的房间，让机器人先在里面练习，省得在真世界里把东西摔坏。

Sim-to-Real：在仿真器里训练好后，搬到真机器人上还要能用。这是个老大难问题，因为虚拟世界和真世界总有差。

读到这里你应该懂了：本页所有综述讨论的都是 "怎么让一个有身体的 AI 看懂世界 + 听懂话 + 做出动作"。

一、先读这两篇（建立全景）

1. 具身智能全景综述

项	内容
标题	Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
作者	Yang Liu, Weixing Chen, Yongjie Bai 等（中山大学 + 鹏城实验室）
年份	2024-07（持续更新到 2025）
链接	arXiv 2407.06886

入门读者能否读懂：⭐⭐⭐⭐⭐。这篇是"地图的地图"，不需要你预先认识任何术语。读起来像看一本《具身智能是什么》的科普册子。

它在讲什么（高中翻译版）：作者把"具身智能"这个大筐拆成 4 个小篮子——

怎么看世界（看图、看 3D 房间）
怎么和人交流（听懂自然语言指令）
大脑怎么决策（用大模型想、用世界模型预测）
从虚拟到真实（怎么把虚拟练习搬到真机器人上）

每个篮子里再装具体方法。读完你会拥有一张"路线图"，下次别人提一个新名词，你能立刻指出它属于哪个篮子。

只看哪几节就够：

摘要 + 第 1 章引言（必读）
第 2 章 Embodied Perception（看世界）的开头几节
第 5 章里关于 simulator / dataset 的表格——直接当工具书翻

读到这里你应该懂了：这一篇是入坑第一站，看完心里有张领域全景图。

2. VLA 模型族谱总图

项	内容
标题	A Survey on Vision-Language-Action Models for Embodied AI
作者	Yueen Ma, Zixing Song 等（香港中文大学 + 华为诺亚）
年份	2024-05（持续更新）
链接	arXiv 2405.14093

入门读者能否读懂：⭐⭐⭐⭐。前面读完 #1 之后再来，难度刚好。它会用比 #1 多一点的术语，但每个新词都会先解释。

它在讲什么（高中翻译版）：把所有 "看图 + 听话 + 做动作" 的 AI 模型按家族画成一棵树——

大脑级：负责"我接下来该做什么"，比如让机器人理解"去厨房拿杯水"是要先走过去再伸手。
手脚级：负责"具体每一秒手往哪挪"，更接近肌肉记忆。
二合一：从看到指令一步直接出动作，中间不分大脑/手脚。

读完你能听懂别人讲"这是个端到端 VLA"或"这是高层规划器"——这俩词在 #1 里也出现过，但这篇会让你彻底分清。

只看哪几节就够：

第 1 章 + 第 2 章背景（必读）
找一个最经典的例子（论文里反复提到的 RT-2 / OpenVLA），跟着作者的图理解一次

读到这里你应该懂了：VLA 不是一个模型，是一类做法的统称，这棵树帮你给任何新论文找位置。

二、补全领域细节（按需挑读）

下面 6 篇是补充弹药，读不读取决于你后面想钻哪个方向。挑一两篇就够。

3. 早期版本但写得最像教科书

项	内容
标题	A Survey on Robotics with Foundation Models: toward Embodied AI
作者	Zhiyuan Xu, Kun Wu 等（美的 + 同济）
年份	2024-02
链接	arXiv 2402.02385

入门读者能否读懂：⭐⭐⭐⭐。它老一些，但每个术语都从头讲，对零基础最友好。

它在讲什么：聚焦"机械臂抓东西"这一个具体场景，把整套流程拆成"先想 → 再动" 两半，分别介绍大模型怎么塞进每一半。

只看哪几节就够：开篇定义 + manipulation（机械臂操作）那一章。其他章可以先跳过。

提示：如果觉得 #2 跳得太快，回来读这篇当补课。

4. 想自己跑机器人时再读

项	内容
标题	Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications
作者	Kento Kawaharazuka 等（牛津 + 德州大学奥斯汀）
年份	2025-10
链接	arXiv 2510.07077

入门读者能否读懂：⭐⭐⭐。它假设你已经认识 VLA，所以先把 #1、#2 读完再来。

它在讲什么：从"我要在真机器人上跑起来"这个工程视角往回看——除了模型，还需要硬件、数据采集、各种测评工具（benchmark：标准化的考试卷，用来比谁的模型更强）。

只看哪几节就够：硬件 / 数据采集那部分。其他章可以等真的要做实验时再翻。

提示：这是从"看懂论文"过渡到"想自己动手"的桥梁。

5. 给新人写的成长路线图

项	内容
标题	An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges
作者	Chao Xu 等（多机构联合）
年份	2025-12
链接	arXiv 2512.11362

入门读者能否读懂：⭐⭐⭐⭐。作者明说"按新人学习的顺序写"，照着读就行。

它在讲什么：把 VLA 的发展拆成三段——

基本零件：每个模型都得有的几块。
关键里程碑：哪几篇论文是分水岭。
五大老大难：表征不够好 / 执行不够稳 / 换个场景就不会 / 安全 / 数据不够。

读它的最大收获是知道"现在这个领域最缺什么"。

只看哪几节就够：里程碑那一章 + 五大挑战。

提示：和 #2 互补。#2 是族谱（横向），这篇是路线图（纵向时间线）。

6. 想专攻"机械臂"时读

项	内容
标题	Large VLM-based Vision-Language-Action Models for Robotic Manipulation
作者	Rui Shao, Wei Li 等（哈工深 + 九天实验室）
年份	2025-08
链接	arXiv 2508.13073

入门读者能否读懂：⭐⭐⭐。窄而深，假设你已经知道 VLM 是什么。

它在讲什么：把机械臂的 VLA 模型分成两条路线——

一锅炖：从图像到动作一个模型搞定。
分层做：先一个模型想"该干啥"，再一个模型管"具体手怎么动"。

然后逐个对比谁强谁弱。

只看哪几节就够：那张分类总览图 + 两类路线对比表。

提示：读 OpenVLA 论文笔记之前先扫这篇，能让你看清 OpenVLA 在大族谱里属于哪一类。

7. 世界模型专题

项	内容
标题	A Comprehensive Survey on World Models for Embodied AI
作者	Xinqing Li, Xin He 等（新加坡 A*STAR）
年份	2025-10
链接	arXiv 2510.16732

入门读者能否读懂：⭐⭐⭐。先要知道一个新词：

世界模型（world model）：让 AI 在脑子里"预演" — 还没真做这一步，先想象做下去会发生什么。像下棋时心里走几步看看会不会输。

它在讲什么：把"心里预演"这个想法从早期围棋 AI（Dreamer 那一脉），一直串到现在能生成视频的模型。讨论怎么让机器人也学会先在脑里放一段视频，再决定真的怎么动。

只看哪几节就够：开头的分类总览 + "世界模型怎么和策略接起来" 那一节。

提示：本站 Cosmos Policy 笔记的隐藏前提就是这一篇里讲的"视频生成模型可以当机器人大脑"。

8. 数据从哪来：互联网视频

项	内容
标题	Towards Generalist Robot Learning from Internet Video
作者	Robert McCarthy 等（伦敦大学学院 + 牛津）
年份	2024-04（持续更新）
链接	arXiv 2404.19664

入门读者能否读懂：⭐⭐。话题听起来好懂，但里面会涉及不少数据处理细节，劝退指数偏高。

它在讲什么：机器人在真世界里采数据非常贵——一只机械臂练几千小时人工成本极高。所以大家想：能不能直接拿 YouTube 上人做菜、修车、打篮球的视频，让 AI 看着学？这篇就是讨论"看视频学动作"行不行、怎么行。

只看哪几节就够：开头一段把"数据稀缺"这个痛点讲清的引言；中间挑一两个具体方法看图就好；结论回过头看。

提示：放最后读。它解释了为什么 2024–2025 年大家都开始训"会生成视频的策略模型"。

本站论文 vs. 这 8 篇综述的覆盖关系

本站论文	在哪几篇综述里能找到
LLaVA	#1, #2, #3（作为 VLM 主干）
SayCan	#1, #2, #3, #5（作为高层规划经典）
OpenVLA	#2, #4, #5, #6（核心案例）
VLAS	#2, #6
MLA	#2（多模态扩展）
Cosmos Policy	#4, #5, #7（世界模型路线）
3DShape2VecSet	#1（3D 表征章节）

主流综述不覆盖的部分（本站独有专题）：

听觉智能（声学阵列 / 智能助听 / 主动听觉）→ 属于音频 AI 子领域。
射频感知（毫米波 / 雷达建图）→ 属于无线感知子领域。

把它们当作"主流之外的补充感官"——绝大多数综述默认机器人只用眼睛，本站这几篇笔记告诉你耳朵和电磁波也能撑起独立的感知体系。

读到这里你应该懂了：6 篇核心 VLA 论文综述里能直接找到对应介绍；2 类专题（听觉、射频）需要去别的子领域综述里找。

一句话阅读顺序

时间	任务
第一周	读 #1（领域地图）+ #2（VLA 族谱）→ 看本站 6 篇核心 VLA 论文笔记
第二周	从 #4 / #5 / #6 任选一篇深读
第三周及以后	想钻 Cosmos Policy 读 #7；想懂数据问题读 #8；觉得 #2 太快读 #3

结语：综述不是真理，只是一份"截止到这个月为止，大家在做什么"的快照。读了它你不会突然变成专家，但你能在听别人讨论时知道每个名词属于哪个篮子——这就够开始读单篇论文了。

Other beginner pages