回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Glossary · 术语字典

59 个术语,每个一句话讲清楚。

看论文最大障碍是术语雪崩。这页把 156 篇里反复出现的核心词收齐,一句话说清楚是什么、首次出现在哪篇。


A

Action Chunking 动作分块
一次预测连续 N 步动作(典型 50 步),减少误差累积,平滑执行。ACT/π0 都用。 → Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
Action Token 动作 token
把连续动作离散化成有限词表的 token,让 LM 当策略。RT-1 开创路径。 → RT-1
Affordance 可供性
物体在当前状态下能被怎么用——抽屉能拉,杯子能抓。SayCan 的核心概念。 → SayCan
ALOHA A Low-cost Open-source Hardware system for bimanual teleoperation
斯坦福 2023 双臂遥操作平台,2 个 leader + 2 个 follower 机器手。 → Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
AudioLM Audio Language Model
Google 2022。把音频离散成语义 + 声学 token,自回归生成长音频。 → AudioLM

B

BC-Z Behavior Cloning Zero-shot
Google 2021 早期通用模仿学习工作,启发了 RT-1。
Behavior Cloning BC
最简单的模仿学习:观察→动作直接监督。问题是误差累积,DAgger 解决了。 → A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
BEHAVIOR-1K BEHAVIOR-1K Benchmark
1000 项日常活动 + 50 场景 + 9000 标注物体。Stanford 终极家务评测。 → BEHAVIOR-1K
BridgeData V2
60K WidowX 演示。OpenVLA 等开源 VLA 的预训练默认数据集。 → BridgeData V2

C

CLIP Contrastive Language-Image Pretraining
OpenAI 2021 用 4 亿对网图训练的视觉-语言对齐模型。所有 VLM 的祖师爷。 → Learning Transferable Visual Models From Natural Language Supervision
Co-training 共训
机器人数据 + 网图文同时训练,让 VLA 不忘记网络知识。RT-2 关键技巧。 → RT-2
Code-as-Policies
让 LLM 直接写 Python 调用机器人 API。把规划变成代码生成。 → Code as Policies

D

DAgger Dataset Aggregation
让学生自己跑,老师沿途纠正错的,把这些'纠正点'加进数据集。Ross 2011。 → A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
Diffusion Policy 扩散策略
把'选动作'重新定义成'去噪':从随机数开始一步步擦回到平滑动作序列。多模态稳定。 → Diffusion Policy
Domain Randomization 域随机化
训练时随机变光照/纹理/物理参数,让策略对真实变化鲁棒。
Dreamer Dreamer V1/V2/V3
Hafner 系列工作。在潜在空间想象 rollout,价值梯度回流。V3 跨域固定超参。 → Dreamer V3
DROID Distributed Robot Interaction Dataset
76,000 条 Franka 真实野外操作演示,13 国采集。VLA 微调金标准。 → DROID

E

EE Pose End-effector pose
末端的位置 (x,y,z) + 朝向 (rx,ry,rz)。多数策略输出这个或它的速度。
Embodied AI 具身 AI
让 AI 进入有身体的智能体——机器人/虚拟代理。这站全部都在讲它。
EnCodec
Meta 2022 神经音频编解码,多尺度谱判别器。AudioLM 等的底层。 → EnCodec
End-effector 末端执行器
机器人手的最末端——夹爪/灵巧手/吸盘。决定能做什么任务。

F

Flamingo
DeepMind 2022。Perceiver Resampler + 交错图文,少样本学习开创者。 → Flamingo
Flow Matching 流匹配
扩散的轻量替代:直接学'从噪声到动作'的速度场,1-4 步采样。π0 / π0.5 都用它。 → pi_0
Foundation Model 基础模型
在巨量数据上预训练、可微调到多任务的通用模型。π0 / Cosmos 都自称基础模型。 → pi_0

G

Goal Conditioning 目标条件
策略输入除观察外加一个目标(图/文/坐标),输出朝目标走的动作。

H

Habitat Habitat Simulator
Meta 室内仿真器。从静态导航 (Habitat 1) 到物理交互 (2) 到人机共居 (3)。 → Habitat

I

ImageBind
Meta 2023。六模态(图/文/音/深度/IMU/热)通过图像作锚点联通。 → ImageBind
Imitation Learning 模仿学习
从人类演示里学策略。最朴素:把演示当监督学习,输入观察→输出动作。 → Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
Inner Monologue
让 LLM 在每步后做'内心独白'反思失败。规划自校正的早期范式。 → Inner Monologue
Isaac Gym / Isaac Lab NVIDIA Isaac
GPU 加速并行仿真。Isaac Lab 加了光线追踪 + 多频率传感器。 → Isaac Gym

L

LIBERO Lifelong Robot Learning Benchmark
终身学习评测,按空间/物体/目标/长任务四族划分。 → LIBERO
LLaVA Large Language and Vision Assistant
微软 2023。CLIP 视觉 + LLaMA 语言 + 一层 MLP 桥接。开源 VLM 的早期里程碑。 → LLaVA
Locomotion 移动
腿式机器人走路、跑、跳。MuJoCo Playground / ANYmal 是基准。 → AnyMAL

M

Mamba / SSM State Space Model
2023 Transformer 替代品,O(N) 推理。RoboMamba 把它带进 VLA。 → RoboMamba
Manipulation 操作
机器人用末端执行器做事——抓、推、转、按。具身 AI 最热的子领域。 → RT-1
MLP Multi-Layer Perceptron
全连接神经网络。LLaVA 视觉到语言的桥就是两层 MLP。
mmWave 毫米波雷达
30-300GHz 电磁波。能穿烟、不受光照、抗雨雪。但分辨率低,需深度学习重建。 → See Through Smoke
MuJoCo Multi-Joint dynamics with Contact
DeepMind 物理引擎事实标准。MuJoCo Playground 是 GPU 加速版。 → MuJoCo Playground
Multi-modal Policy 多模态策略
面对同一观察可能产出多种合理动作(避障可向左也可向右)。Diffusion Policy 强项。 → Diffusion Policy

O

OpenVLA Open Vision-Language-Action
Stanford 2024 完全开源 VLA,7B 参数,BridgeData V2 + RT-X 训练。VLA 民主化。 → OpenVLA
OXE Open X-Embodiment
22 家机构 21 国 60+ 数据集合并的统一格式。VLA 预训练事实标准底座。 → Open X-Embodiment

Q

Q-Former Querying Transformer
BLIP-2 的核心:少量 learnable query 当桥,把视觉特征压成 LLM 能读的 token。 → BLIP-2

R

RL Reinforcement Learning
强化学习。试错 + 奖励信号驱动策略改进。机器人界用得越来越少(数据效率低)。
RLBench
100 项 CoppeliaSim 操作任务的早期 (2019) 评测,曾被广泛使用。 → RLBench
RT-1 / RT-2 Robotics Transformer
Google DeepMind 系列。RT-1 把动作 token 化,RT-2 把 VLM 网络知识带进来。 → RT-2

S

SAPIEN SimulAted Part-based ENvironment
首个'部件级'仿真:抽屉能拉出来、门能转。ManiSkill 跑在它上面。 → SAPIEN
SayCan Do as I Can, Not as I Say
Google 2022。LLM 给候选 + affordance score 给可行性,相乘选下一步。 → SayCan
SigLIP Sigmoid Loss CLIP
Google 2023。把 CLIP 的 softmax 换成 sigmoid,更稳更省。 → Sigmoid Loss for Language Image Pre-Training
Sim2Real Sim-to-Real Transfer
仿真训练→真机部署的鸿沟。靠域随机化、物理保真、视觉对齐三招缩小。 → Isaac Gym

T

Tactile 触觉
触觉传感器(DIGIT/GelSight)让机器人感受接触力。Sparsh 把它变成基础模型。 → Sparsh
Teleoperation 遥操作
人手把手控制机器人采数据。ALOHA 和 UMI 是主流硬件。 → Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
Tokenization 动作 token 化
把连续动作离散化成 token,让 transformer 用语言模型方式预测。RT-1/RT-2 路径。 → RT-1
Transformer
2017 Vaswani 注意力机制架构。VLM/VLA/世界模型的事实标准骨架。

V

VLA Vision-Language-Action
视觉-语言-动作模型。一个端到端神经网络:左边吃摄像头画面 + 自然语言指令,右边吐机器人关节速度。 → RT-1
VLM Vision-Language Model
视觉语言模型。能同时理解图和文的模型,常作为 VLA 的'大脑'。 → Learning Transferable Visual Models From Natural Language Supervision

W

Whisper Whisper ASR
OpenAI 2022。68 万小时弱标注音频训练,零样本多语言 ASR。 → Robust Speech Recognition via Large-Scale Weak Supervision
WiFi Sensing WiFi 感知
用 WiFi 信号的 CSI 推断人姿态/呼吸/位置。RF-Pose 系列开创。 → Can WiFi Estimate Person Pose?
World Model 世界模型
教 AI 在脑子里预演:给当前画面 + 动作,预测下一秒。规划可在想象里跑。 → World Models

π0 Pi-Zero
Physical Intelligence 2024 旗舰 VLA。VLM + Flow Matching head,多机器人通用。 → pi_0