59 个术语,每个一句话讲清楚。
看论文最大障碍是术语雪崩。这页把 156 篇里反复出现的核心词收齐,一句话说清楚是什么、首次出现在哪篇。
A
- Action Chunking 动作分块
- 一次预测连续 N 步动作(典型 50 步),减少误差累积,平滑执行。ACT/π0 都用。 → Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- Action Token 动作 token
- 把连续动作离散化成有限词表的 token,让 LM 当策略。RT-1 开创路径。 → RT-1
- Affordance 可供性
- 物体在当前状态下能被怎么用——抽屉能拉,杯子能抓。SayCan 的核心概念。 → SayCan
- ALOHA A Low-cost Open-source Hardware system for bimanual teleoperation
- 斯坦福 2023 双臂遥操作平台,2 个 leader + 2 个 follower 机器手。 → Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- AudioLM Audio Language Model
- Google 2022。把音频离散成语义 + 声学 token,自回归生成长音频。 → AudioLM
B
- BC-Z Behavior Cloning Zero-shot
- Google 2021 早期通用模仿学习工作,启发了 RT-1。
- Behavior Cloning BC
- 最简单的模仿学习:观察→动作直接监督。问题是误差累积,DAgger 解决了。 → A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- BEHAVIOR-1K BEHAVIOR-1K Benchmark
- 1000 项日常活动 + 50 场景 + 9000 标注物体。Stanford 终极家务评测。 → BEHAVIOR-1K
- BridgeData V2
- 60K WidowX 演示。OpenVLA 等开源 VLA 的预训练默认数据集。 → BridgeData V2
C
- CLIP Contrastive Language-Image Pretraining
- OpenAI 2021 用 4 亿对网图训练的视觉-语言对齐模型。所有 VLM 的祖师爷。 → Learning Transferable Visual Models From Natural Language Supervision
- Co-training 共训
- 机器人数据 + 网图文同时训练,让 VLA 不忘记网络知识。RT-2 关键技巧。 → RT-2
- Code-as-Policies
- 让 LLM 直接写 Python 调用机器人 API。把规划变成代码生成。 → Code as Policies
D
- DAgger Dataset Aggregation
- 让学生自己跑,老师沿途纠正错的,把这些'纠正点'加进数据集。Ross 2011。 → A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- Diffusion Policy 扩散策略
- 把'选动作'重新定义成'去噪':从随机数开始一步步擦回到平滑动作序列。多模态稳定。 → Diffusion Policy
- Domain Randomization 域随机化
- 训练时随机变光照/纹理/物理参数,让策略对真实变化鲁棒。
- Dreamer Dreamer V1/V2/V3
- Hafner 系列工作。在潜在空间想象 rollout,价值梯度回流。V3 跨域固定超参。 → Dreamer V3
- DROID Distributed Robot Interaction Dataset
- 76,000 条 Franka 真实野外操作演示,13 国采集。VLA 微调金标准。 → DROID
E
- EE Pose End-effector pose
- 末端的位置 (x,y,z) + 朝向 (rx,ry,rz)。多数策略输出这个或它的速度。
- Embodied AI 具身 AI
- 让 AI 进入有身体的智能体——机器人/虚拟代理。这站全部都在讲它。
- EnCodec
- Meta 2022 神经音频编解码,多尺度谱判别器。AudioLM 等的底层。 → EnCodec
- End-effector 末端执行器
- 机器人手的最末端——夹爪/灵巧手/吸盘。决定能做什么任务。
F
- Flamingo
- DeepMind 2022。Perceiver Resampler + 交错图文,少样本学习开创者。 → Flamingo
- Flow Matching 流匹配
- 扩散的轻量替代:直接学'从噪声到动作'的速度场,1-4 步采样。π0 / π0.5 都用它。 → pi_0
- Foundation Model 基础模型
- 在巨量数据上预训练、可微调到多任务的通用模型。π0 / Cosmos 都自称基础模型。 → pi_0
G
- Goal Conditioning 目标条件
- 策略输入除观察外加一个目标(图/文/坐标),输出朝目标走的动作。
H
- Habitat Habitat Simulator
- Meta 室内仿真器。从静态导航 (Habitat 1) 到物理交互 (2) 到人机共居 (3)。 → Habitat
I
- ImageBind
- Meta 2023。六模态(图/文/音/深度/IMU/热)通过图像作锚点联通。 → ImageBind
- Imitation Learning 模仿学习
- 从人类演示里学策略。最朴素:把演示当监督学习,输入观察→输出动作。 → Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- Inner Monologue
- 让 LLM 在每步后做'内心独白'反思失败。规划自校正的早期范式。 → Inner Monologue
- Isaac Gym / Isaac Lab NVIDIA Isaac
- GPU 加速并行仿真。Isaac Lab 加了光线追踪 + 多频率传感器。 → Isaac Gym
L
M
- Mamba / SSM State Space Model
- 2023 Transformer 替代品,O(N) 推理。RoboMamba 把它带进 VLA。 → RoboMamba
- Manipulation 操作
- 机器人用末端执行器做事——抓、推、转、按。具身 AI 最热的子领域。 → RT-1
- MLP Multi-Layer Perceptron
- 全连接神经网络。LLaVA 视觉到语言的桥就是两层 MLP。
- mmWave 毫米波雷达
- 30-300GHz 电磁波。能穿烟、不受光照、抗雨雪。但分辨率低,需深度学习重建。 → See Through Smoke
- MuJoCo Multi-Joint dynamics with Contact
- DeepMind 物理引擎事实标准。MuJoCo Playground 是 GPU 加速版。 → MuJoCo Playground
- Multi-modal Policy 多模态策略
- 面对同一观察可能产出多种合理动作(避障可向左也可向右)。Diffusion Policy 强项。 → Diffusion Policy
O
- OpenVLA Open Vision-Language-Action
- Stanford 2024 完全开源 VLA,7B 参数,BridgeData V2 + RT-X 训练。VLA 民主化。 → OpenVLA
- OXE Open X-Embodiment
- 22 家机构 21 国 60+ 数据集合并的统一格式。VLA 预训练事实标准底座。 → Open X-Embodiment
Q
- Q-Former Querying Transformer
- BLIP-2 的核心:少量 learnable query 当桥,把视觉特征压成 LLM 能读的 token。 → BLIP-2
R
S
- SAPIEN SimulAted Part-based ENvironment
- 首个'部件级'仿真:抽屉能拉出来、门能转。ManiSkill 跑在它上面。 → SAPIEN
- SayCan Do as I Can, Not as I Say
- Google 2022。LLM 给候选 + affordance score 给可行性,相乘选下一步。 → SayCan
- SigLIP Sigmoid Loss CLIP
- Google 2023。把 CLIP 的 softmax 换成 sigmoid,更稳更省。 → Sigmoid Loss for Language Image Pre-Training
- Sim2Real Sim-to-Real Transfer
- 仿真训练→真机部署的鸿沟。靠域随机化、物理保真、视觉对齐三招缩小。 → Isaac Gym
T
- Tactile 触觉
- 触觉传感器(DIGIT/GelSight)让机器人感受接触力。Sparsh 把它变成基础模型。 → Sparsh
- Teleoperation 遥操作
- 人手把手控制机器人采数据。ALOHA 和 UMI 是主流硬件。 → Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- Tokenization 动作 token 化
- 把连续动作离散化成 token,让 transformer 用语言模型方式预测。RT-1/RT-2 路径。 → RT-1
- Transformer
- 2017 Vaswani 注意力机制架构。VLM/VLA/世界模型的事实标准骨架。
V
- VLA Vision-Language-Action
- 视觉-语言-动作模型。一个端到端神经网络:左边吃摄像头画面 + 自然语言指令,右边吐机器人关节速度。 → RT-1
- VLM Vision-Language Model
- 视觉语言模型。能同时理解图和文的模型,常作为 VLA 的'大脑'。 → Learning Transferable Visual Models From Natural Language Supervision
W
- Whisper Whisper ASR
- OpenAI 2022。68 万小时弱标注音频训练,零样本多语言 ASR。 → Robust Speech Recognition via Large-Scale Weak Supervision
- WiFi Sensing WiFi 感知
- 用 WiFi 信号的 CSI 推断人姿态/呼吸/位置。RF-Pose 系列开创。 → Can WiFi Estimate Person Pose?
- World Model 世界模型
- 教 AI 在脑子里预演:给当前画面 + 动作,预测下一秒。规划可在想象里跑。 → World Models
中
- π0 Pi-Zero
- Physical Intelligence 2024 旗舰 VLA。VLM + Flow Matching head,多机器人通用。 → pi_0