End-to-End VLA
VLA = 视觉-语言-动作模型。一个端到端神经网络:左边输入摄像头画面 + 自然语言指令,右边输出关节速度。这是过去三年具身 AI 最热的赛道。
先读这三篇。
RT-1 把动作 token 化 → RT-2 把网络知识带进来 → OpenVLA 把整个范式开源民主化。
-
1
RT-1: Robotics Transformer for Real-World Control at Scale
让机器人看完 13 万段人类亲手示范,就能听一句中文,在真办公室里把可乐罐拿出来放进抽屉。
-
2
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
把机器人动作翻译成一句话,让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字,就能动手。
-
3
OpenVLA: An Open-Source Vision-Language-Action Model
把一个会"看图说话"的 AI 改一改,让它学会"看一眼桌面就动手摆东西",再把全部训练配方开源送出去。
2022 到 2025,16 篇怎么排开。
祖师爷
经典
前沿
End-to-End VLA 全部 16 篇。
| era | year | title | venue |
|---|---|---|---|
| 经典 | 2024 | OpenVLA: An Open-Source Vision-Language-Action Model | CoRL |
| 祖师爷 | 2022 | RT-1: Robotics Transformer for Real-World Control at Scale | RSS |
| 经典 | 2023 | RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control | CoRL |
| 经典 | 2023 | RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches | ICLR |
| 经典 | 2024 | 3D Diffusion Policy (DP3) | RSS |
| 经典 | 2024 | Octo: An Open-Source Generalist Robot Policy | RSS |
| 前沿 | 2024 | 3D-VLA | ICML |
| 前沿 | 2024 | GR-2: Generative Video-Language-Action Model | arXiv |
| 前沿 | 2024 | RDT-1B: Diffusion Foundation Model for Bimanual Manipulation | ICLR |
| 前沿 | 2024 | RoboMamba | NeurIPS |
| 前沿 | 2024 | TinyVLA | RA-L |
| 前沿 | 2024 | TraceVLA: Visual Trace Prompting | ICLR |
| 前沿 | 2025 | DexVLA | arXiv |
| 前沿 | 2025 | OpenHelix | arXiv |
| 前沿 | 2025 | OpenVLA-OFT | RSS |
| 前沿 | 2025 | SpatialVLA | arXiv |