Glossary — Embodied AI Reading

A

Action Chunking 动作分块: 一次预测连续 N 步动作（典型 50 步），减少误差累积，平滑执行。ACT/π0 都用。 → Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
Action Token 动作 token: 把连续动作离散化成有限词表的 token，让 LM 当策略。RT-1 开创路径。 → RT-1
Affordance 可供性: 物体在当前状态下能被怎么用——抽屉能拉，杯子能抓。SayCan 的核心概念。 → SayCan
ALOHA A Low-cost Open-source Hardware system for bimanual teleoperation: 斯坦福 2023 双臂遥操作平台，2 个 leader + 2 个 follower 机器手。 → Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
AudioLM Audio Language Model: Google 2022。把音频离散成语义 + 声学 token，自回归生成长音频。 → AudioLM

B

BC-Z Behavior Cloning Zero-shot: Google 2021 早期通用模仿学习工作，启发了 RT-1。
Behavior Cloning BC: 最简单的模仿学习：观察→动作直接监督。问题是误差累积，DAgger 解决了。 → A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
BEHAVIOR-1K BEHAVIOR-1K Benchmark: 1000 项日常活动 + 50 场景 + 9000 标注物体。Stanford 终极家务评测。 → BEHAVIOR-1K
BridgeData V2: 60K WidowX 演示。OpenVLA 等开源 VLA 的预训练默认数据集。 → BridgeData V2

C

CLIP Contrastive Language-Image Pretraining: OpenAI 2021 用 4 亿对网图训练的视觉-语言对齐模型。所有 VLM 的祖师爷。 → Learning Transferable Visual Models From Natural Language Supervision
Co-training 共训: 机器人数据 + 网图文同时训练，让 VLA 不忘记网络知识。RT-2 关键技巧。 → RT-2
Code-as-Policies: 让 LLM 直接写 Python 调用机器人 API。把规划变成代码生成。 → Code as Policies

D

DAgger Dataset Aggregation: 让学生自己跑，老师沿途纠正错的，把这些'纠正点'加进数据集。Ross 2011。 → A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
Diffusion Policy 扩散策略: 把'选动作'重新定义成'去噪'：从随机数开始一步步擦回到平滑动作序列。多模态稳定。 → Diffusion Policy
Domain Randomization 域随机化: 训练时随机变光照/纹理/物理参数，让策略对真实变化鲁棒。
Dreamer Dreamer V1/V2/V3: Hafner 系列工作。在潜在空间想象 rollout，价值梯度回流。V3 跨域固定超参。 → Dreamer V3
DROID Distributed Robot Interaction Dataset: 76,000 条 Franka 真实野外操作演示，13 国采集。VLA 微调金标准。 → DROID

E

EE Pose End-effector pose: 末端的位置 (x,y,z) + 朝向 (rx,ry,rz)。多数策略输出这个或它的速度。
Embodied AI 具身 AI: 让 AI 进入有身体的智能体——机器人/虚拟代理。这站全部都在讲它。
EnCodec: Meta 2022 神经音频编解码，多尺度谱判别器。AudioLM 等的底层。 → EnCodec
End-effector 末端执行器: 机器人手的最末端——夹爪/灵巧手/吸盘。决定能做什么任务。

F

Flamingo: DeepMind 2022。Perceiver Resampler + 交错图文，少样本学习开创者。 → Flamingo
Flow Matching 流匹配: 扩散的轻量替代：直接学'从噪声到动作'的速度场，1-4 步采样。π0 / π0.5 都用它。 → pi_0
Foundation Model 基础模型: 在巨量数据上预训练、可微调到多任务的通用模型。π0 / Cosmos 都自称基础模型。 → pi_0

G

Goal Conditioning 目标条件: 策略输入除观察外加一个目标（图/文/坐标），输出朝目标走的动作。

H

Habitat Habitat Simulator: Meta 室内仿真器。从静态导航 (Habitat 1) 到物理交互 (2) 到人机共居 (3)。 → Habitat

I

ImageBind: Meta 2023。六模态（图/文/音/深度/IMU/热）通过图像作锚点联通。 → ImageBind
Imitation Learning 模仿学习: 从人类演示里学策略。最朴素：把演示当监督学习，输入观察→输出动作。 → Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
Inner Monologue: 让 LLM 在每步后做'内心独白'反思失败。规划自校正的早期范式。 → Inner Monologue
Isaac Gym / Isaac Lab NVIDIA Isaac: GPU 加速并行仿真。Isaac Lab 加了光线追踪 + 多频率传感器。 → Isaac Gym

L

LIBERO Lifelong Robot Learning Benchmark: 终身学习评测，按空间/物体/目标/长任务四族划分。 → LIBERO
LLaVA Large Language and Vision Assistant: 微软 2023。CLIP 视觉 + LLaMA 语言 + 一层 MLP 桥接。开源 VLM 的早期里程碑。 → LLaVA
Locomotion 移动: 腿式机器人走路、跑、跳。MuJoCo Playground / ANYmal 是基准。 → AnyMAL

M

Mamba / SSM State Space Model: 2023 Transformer 替代品，O(N) 推理。RoboMamba 把它带进 VLA。 → RoboMamba
Manipulation 操作: 机器人用末端执行器做事——抓、推、转、按。具身 AI 最热的子领域。 → RT-1
MLP Multi-Layer Perceptron: 全连接神经网络。LLaVA 视觉到语言的桥就是两层 MLP。
mmWave 毫米波雷达: 30-300GHz 电磁波。能穿烟、不受光照、抗雨雪。但分辨率低，需深度学习重建。 → See Through Smoke
MuJoCo Multi-Joint dynamics with Contact: DeepMind 物理引擎事实标准。MuJoCo Playground 是 GPU 加速版。 → MuJoCo Playground
Multi-modal Policy 多模态策略: 面对同一观察可能产出多种合理动作（避障可向左也可向右）。Diffusion Policy 强项。 → Diffusion Policy

O

OpenVLA Open Vision-Language-Action: Stanford 2024 完全开源 VLA，7B 参数，BridgeData V2 + RT-X 训练。VLA 民主化。 → OpenVLA
OXE Open X-Embodiment: 22 家机构 21 国 60+ 数据集合并的统一格式。VLA 预训练事实标准底座。 → Open X-Embodiment

Q

Q-Former Querying Transformer: BLIP-2 的核心：少量 learnable query 当桥，把视觉特征压成 LLM 能读的 token。 → BLIP-2

R

RL Reinforcement Learning: 强化学习。试错 + 奖励信号驱动策略改进。机器人界用得越来越少（数据效率低）。
RLBench: 100 项 CoppeliaSim 操作任务的早期 (2019) 评测，曾被广泛使用。 → RLBench
RT-1 / RT-2 Robotics Transformer: Google DeepMind 系列。RT-1 把动作 token 化，RT-2 把 VLM 网络知识带进来。 → RT-2

S

SAPIEN SimulAted Part-based ENvironment: 首个'部件级'仿真：抽屉能拉出来、门能转。ManiSkill 跑在它上面。 → SAPIEN
SayCan Do as I Can, Not as I Say: Google 2022。LLM 给候选 + affordance score 给可行性，相乘选下一步。 → SayCan
SigLIP Sigmoid Loss CLIP: Google 2023。把 CLIP 的 softmax 换成 sigmoid，更稳更省。 → Sigmoid Loss for Language Image Pre-Training
Sim2Real Sim-to-Real Transfer: 仿真训练→真机部署的鸿沟。靠域随机化、物理保真、视觉对齐三招缩小。 → Isaac Gym

T

Tactile 触觉: 触觉传感器（DIGIT/GelSight）让机器人感受接触力。Sparsh 把它变成基础模型。 → Sparsh
Teleoperation 遥操作: 人手把手控制机器人采数据。ALOHA 和 UMI 是主流硬件。 → Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
Tokenization 动作 token 化: 把连续动作离散化成 token，让 transformer 用语言模型方式预测。RT-1/RT-2 路径。 → RT-1
Transformer: 2017 Vaswani 注意力机制架构。VLM/VLA/世界模型的事实标准骨架。

V

VLA Vision-Language-Action: 视觉-语言-动作模型。一个端到端神经网络：左边吃摄像头画面 + 自然语言指令，右边吐机器人关节速度。 → RT-1
VLM Vision-Language Model: 视觉语言模型。能同时理解图和文的模型，常作为 VLA 的'大脑'。 → Learning Transferable Visual Models From Natural Language Supervision

W

Whisper Whisper ASR: OpenAI 2022。68 万小时弱标注音频训练，零样本多语言 ASR。 → Robust Speech Recognition via Large-Scale Weak Supervision
WiFi Sensing WiFi 感知: 用 WiFi 信号的 CSI 推断人姿态/呼吸/位置。RF-Pose 系列开创。 → Can WiFi Estimate Person Pose?
World Model 世界模型: 教 AI 在脑子里预演：给当前画面 + 动作，预测下一秒。规划可在想象里跑。 → World Models

中

π0 Pi-Zero: Physical Intelligence 2024 旗舰 VLA。VLM + Flow Matching head，多机器人通用。 → pi_0

59 个术语，每个一句话讲清楚。

A

B

C

D

E

F

G

H

I

L

M

O

Q

R

S

T

V

W

中