回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Topic III · 端到端视觉-语言-动作

End-to-End VLA

End-to-End VLA — 端到端视觉-语言-动作
16papers
1founder
5classic
10frontier

VLA = 视觉-语言-动作模型。一个端到端神经网络:左边输入摄像头画面 + 自然语言指令,右边输出关节速度。这是过去三年具身 AI 最热的赛道。


Primer · 入门 3 篇

先读这三篇

RT-1 把动作 token 化 → RT-2 把网络知识带进来 → OpenVLA 把整个范式开源民主化。

  1. 1
    RT-1: Robotics Transformer for Real-World Control at Scale 2022 · RSS · ⭐⭐⭐

    让机器人看完 13 万段人类亲手示范,就能听一句中文,在真办公室里把可乐罐拿出来放进抽屉。

  2. 2
    RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control 2023 · CoRL · ⭐⭐⭐⭐

    把机器人动作翻译成一句话,让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字,就能动手。

  3. 3
    OpenVLA: An Open-Source Vision-Language-Action Model 2024 · CoRL · ⭐⭐⭐

    把一个会"看图说话"的 AI 改一改,让它学会"看一眼桌面就动手摆东西",再把全部训练配方开源送出去。


Distribution · 年份分布

2022 到 2025,16 篇怎么排开。

祖师爷 经典 前沿
All papers · 按 era 排

End-to-End VLA 全部 16 篇。

erayeartitlevenue
经典 2024 OpenVLA: An Open-Source Vision-Language-Action Model CoRL
祖师爷 2022 RT-1: Robotics Transformer for Real-World Control at Scale RSS
经典 2023 RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control CoRL
经典 2023 RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches ICLR
经典 2024 3D Diffusion Policy (DP3) RSS
经典 2024 Octo: An Open-Source Generalist Robot Policy RSS
前沿 2024 3D-VLA ICML
前沿 2024 GR-2: Generative Video-Language-Action Model arXiv
前沿 2024 RDT-1B: Diffusion Foundation Model for Bimanual Manipulation ICLR
前沿 2024 RoboMamba NeurIPS
前沿 2024 TinyVLA RA-L
前沿 2024 TraceVLA: Visual Trace Prompting ICLR
前沿 2025 DexVLA arXiv
前沿 2025 OpenHelix arXiv
前沿 2025 OpenVLA-OFT RSS
前沿 2025 SpatialVLA arXiv