回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Learn · Beginner Track

入门综述清单

想看这个领域长什么样?先读这几篇"教科书式"的总结文章,再回头啃专题。

入门综述清单

这页是什么

在科研里,有一种文章专门"不讲新发现,只讲这个领域到现在长成什么样了"。它像一本书的目录,把所有重要工作排好队、画好关系。这种文章有个名字:

综述(survey):把一个领域里几十上百篇论文的脉络,整理成一篇长文章。读它的好处是不用自己摸索,作者已经替你画好地图。

下面这 8 篇就是 2024–2025 年 "具身智能 / 让机器人听懂话又会动手" 这个方向的地图。每篇我都标了:

  • 能不能读懂:5 颗星 = 你这周末就能看完一半;1 颗星 = 别硬啃。
  • 用基础知识翻译它在讲什么:一段话讲清。
  • 看哪几节就够:综述很长,但你不必读完。

读到这里你应该懂了:综述 = 别人替你画好的地图,本页就是这些地图的导航。


几个会反复出现的词,先讲清

下面综述里会冒出一些固定词,先一次讲完,后面就不再解释。

具身智能(Embodied AI):让 AI 不光在屏幕里聊天,还能装在一个有身体的机器(机器人、机械臂)里去看、去听、去动手。"具身" = 有身体。

VLA 模型(Vision-Language-Action):一种 AI,输入是图像(V)+ 语言指令(L),输出是动作(A)。可以想成"眼睛看到 + 耳朵听到指令 → 手脚做动作"的整套流程。

大模型(LLM):能看懂大段中文/英文、还能写文章的 AI,比如 ChatGPT 背后那种。这里你只需要知道"它特别会处理语言"。

VLM:在 LLM 上再加一只眼睛——既能读字也能看图。可以理解为"会看图说话的大模型"。

机械臂操作(manipulation):机器人用手抓东西、放东西、拧瓶盖之类的任务。

仿真器(simulator):在电脑里建一个虚拟的房间,让机器人先在里面练习,省得在真世界里把东西摔坏。

Sim-to-Real:在仿真器里训练好后,搬到真机器人上还要能用。这是个老大难问题,因为虚拟世界和真世界总有差。

读到这里你应该懂了:本页所有综述讨论的都是 "怎么让一个有身体的 AI 看懂世界 + 听懂话 + 做出动作"。


一、先读这两篇(建立全景)

1. 具身智能全景综述

内容
标题 Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
作者 Yang Liu, Weixing Chen, Yongjie Bai 等(中山大学 + 鹏城实验室)
年份 2024-07(持续更新到 2025)
链接 arXiv 2407.06886

入门读者能否读懂:⭐⭐⭐⭐⭐。这篇是"地图的地图",不需要你预先认识任何术语。读起来像看一本《具身智能是什么》的科普册子。

它在讲什么(高中翻译版):作者把"具身智能"这个大筐拆成 4 个小篮子——

  • 怎么看世界(看图、看 3D 房间)
  • 怎么和人交流(听懂自然语言指令)
  • 大脑怎么决策(用大模型想、用世界模型预测)
  • 从虚拟到真实(怎么把虚拟练习搬到真机器人上)

每个篮子里再装具体方法。读完你会拥有一张"路线图",下次别人提一个新名词,你能立刻指出它属于哪个篮子。

只看哪几节就够

  • 摘要 + 第 1 章引言(必读)
  • 第 2 章 Embodied Perception(看世界)的开头几节
  • 第 5 章里关于 simulator / dataset 的表格——直接当工具书翻

读到这里你应该懂了:这一篇是入坑第一站,看完心里有张领域全景图。


2. VLA 模型族谱总图

内容
标题 A Survey on Vision-Language-Action Models for Embodied AI
作者 Yueen Ma, Zixing Song 等(香港中文大学 + 华为诺亚)
年份 2024-05(持续更新)
链接 arXiv 2405.14093

入门读者能否读懂:⭐⭐⭐⭐。前面读完 #1 之后再来,难度刚好。它会用比 #1 多一点的术语,但每个新词都会先解释。

它在讲什么(高中翻译版):把所有 "看图 + 听话 + 做动作" 的 AI 模型按家族画成一棵树——

  • 大脑级:负责"我接下来该做什么",比如让机器人理解"去厨房拿杯水"是要先走过去再伸手。
  • 手脚级:负责"具体每一秒手往哪挪",更接近肌肉记忆。
  • 二合一:从看到指令一步直接出动作,中间不分大脑/手脚。

读完你能听懂别人讲"这是个端到端 VLA"或"这是高层规划器"——这俩词在 #1 里也出现过,但这篇会让你彻底分清。

只看哪几节就够

  • 第 1 章 + 第 2 章背景(必读)
  • 找一个最经典的例子(论文里反复提到的 RT-2 / OpenVLA),跟着作者的图理解一次

读到这里你应该懂了:VLA 不是一个模型,是一类做法的统称,这棵树帮你给任何新论文找位置。


二、补全领域细节(按需挑读)

下面 6 篇是补充弹药,读不读取决于你后面想钻哪个方向。挑一两篇就够。

3. 早期版本但写得最像教科书

内容
标题 A Survey on Robotics with Foundation Models: toward Embodied AI
作者 Zhiyuan Xu, Kun Wu 等(美的 + 同济)
年份 2024-02
链接 arXiv 2402.02385

入门读者能否读懂:⭐⭐⭐⭐。它老一些,但每个术语都从头讲,对零基础最友好。

它在讲什么:聚焦"机械臂抓东西"这一个具体场景,把整套流程拆成"先想 → 再动" 两半,分别介绍大模型怎么塞进每一半。

只看哪几节就够:开篇定义 + manipulation(机械臂操作)那一章。其他章可以先跳过。

提示:如果觉得 #2 跳得太快,回来读这篇当补课。


4. 想自己跑机器人时再读

内容
标题 Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications
作者 Kento Kawaharazuka 等(牛津 + 德州大学奥斯汀)
年份 2025-10
链接 arXiv 2510.07077

入门读者能否读懂:⭐⭐⭐。它假设你已经认识 VLA,所以先把 #1、#2 读完再来。

它在讲什么:从"我要在真机器人上跑起来"这个工程视角往回看——除了模型,还需要硬件、数据采集、各种测评工具(benchmark:标准化的考试卷,用来比谁的模型更强)。

只看哪几节就够:硬件 / 数据采集那部分。其他章可以等真的要做实验时再翻。

提示:这是从"看懂论文"过渡到"想自己动手"的桥梁。


5. 给新人写的成长路线图

内容
标题 An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges
作者 Chao Xu 等(多机构联合)
年份 2025-12
链接 arXiv 2512.11362

入门读者能否读懂:⭐⭐⭐⭐。作者明说"按新人学习的顺序写",照着读就行。

它在讲什么:把 VLA 的发展拆成三段——

  • 基本零件:每个模型都得有的几块。
  • 关键里程碑:哪几篇论文是分水岭。
  • 五大老大难:表征不够好 / 执行不够稳 / 换个场景就不会 / 安全 / 数据不够。

读它的最大收获是知道"现在这个领域最缺什么"。

只看哪几节就够:里程碑那一章 + 五大挑战。

提示:和 #2 互补。#2 是族谱(横向),这篇是路线图(纵向时间线)。


6. 想专攻"机械臂"时读

内容
标题 Large VLM-based Vision-Language-Action Models for Robotic Manipulation
作者 Rui Shao, Wei Li 等(哈工深 + 九天实验室)
年份 2025-08
链接 arXiv 2508.13073

入门读者能否读懂:⭐⭐⭐。窄而深,假设你已经知道 VLM 是什么。

它在讲什么:把机械臂的 VLA 模型分成两条路线——

  • 一锅炖:从图像到动作一个模型搞定。
  • 分层做:先一个模型想"该干啥",再一个模型管"具体手怎么动"。

然后逐个对比谁强谁弱。

只看哪几节就够:那张分类总览图 + 两类路线对比表。

提示:读 OpenVLA 论文笔记之前先扫这篇,能让你看清 OpenVLA 在大族谱里属于哪一类。


7. 世界模型专题

内容
标题 A Comprehensive Survey on World Models for Embodied AI
作者 Xinqing Li, Xin He 等(新加坡 A*STAR)
年份 2025-10
链接 arXiv 2510.16732

入门读者能否读懂:⭐⭐⭐。先要知道一个新词:

世界模型(world model):让 AI 在脑子里"预演" — 还没真做这一步,先想象做下去会发生什么。像下棋时心里走几步看看会不会输。

它在讲什么:把"心里预演"这个想法从早期围棋 AI(Dreamer 那一脉),一直串到现在能生成视频的模型。讨论怎么让机器人也学会先在脑里放一段视频,再决定真的怎么动。

只看哪几节就够:开头的分类总览 + "世界模型怎么和策略接起来" 那一节。

提示:本站 Cosmos Policy 笔记的隐藏前提就是这一篇里讲的"视频生成模型可以当机器人大脑"。


8. 数据从哪来:互联网视频

内容
标题 Towards Generalist Robot Learning from Internet Video
作者 Robert McCarthy 等(伦敦大学学院 + 牛津)
年份 2024-04(持续更新)
链接 arXiv 2404.19664

入门读者能否读懂:⭐⭐。话题听起来好懂,但里面会涉及不少数据处理细节,劝退指数偏高。

它在讲什么:机器人在真世界里采数据非常贵——一只机械臂练几千小时人工成本极高。所以大家想:能不能直接拿 YouTube 上人做菜、修车、打篮球的视频,让 AI 看着学?这篇就是讨论"看视频学动作"行不行、怎么行。

只看哪几节就够:开头一段把"数据稀缺"这个痛点讲清的引言;中间挑一两个具体方法看图就好;结论回过头看。

提示:放最后读。它解释了为什么 2024–2025 年大家都开始训"会生成视频的策略模型"。


本站论文 vs. 这 8 篇综述的覆盖关系

本站论文 在哪几篇综述里能找到
LLaVA #1, #2, #3(作为 VLM 主干)
SayCan #1, #2, #3, #5(作为高层规划经典)
OpenVLA #2, #4, #5, #6(核心案例)
VLAS #2, #6
MLA #2(多模态扩展)
Cosmos Policy #4, #5, #7(世界模型路线)
3DShape2VecSet #1(3D 表征章节)

主流综述不覆盖的部分(本站独有专题):

  • 听觉智能(声学阵列 / 智能助听 / 主动听觉)→ 属于音频 AI 子领域。
  • 射频感知(毫米波 / 雷达建图)→ 属于无线感知子领域。

把它们当作"主流之外的补充感官"——绝大多数综述默认机器人只用眼睛,本站这几篇笔记告诉你耳朵和电磁波也能撑起独立的感知体系。

读到这里你应该懂了:6 篇核心 VLA 论文综述里能直接找到对应介绍;2 类专题(听觉、射频)需要去别的子领域综述里找。


一句话阅读顺序

时间 任务
第一周 读 #1(领域地图)+ #2(VLA 族谱)→ 看本站 6 篇核心 VLA 论文笔记
第二周 从 #4 / #5 / #6 任选一篇深读
第三周及以后 想钻 Cosmos Policy 读 #7;想懂数据问题读 #8;觉得 #2 太快读 #3

结语:综述不是真理,只是一份"截止到这个月为止,大家在做什么"的快照。读了它你不会突然变成专家,但你能在听别人讨论时知道每个名词属于哪个篮子——这就够开始读单篇论文了。


Other beginner pages