Topic III · 端到端视觉-语言-动作

End-to-End VLA

End-to-End VLA — 端到端视觉-语言-动作

16papers

1founder

5classic

10frontier

VLA = 视觉-语言-动作模型。一个端到端神经网络：左边输入摄像头画面 + 自然语言指令，右边输出关节速度。这是过去三年具身 AI 最热的赛道。

Primer · 入门 3 篇

先读这三篇。

RT-1 把动作 token 化 → RT-2 把网络知识带进来 → OpenVLA 把整个范式开源民主化。

1
RT-1: Robotics Transformer for Real-World Control at Scale 2022 · RSS · ⭐⭐⭐
让机器人看完 13 万段人类亲手示范，就能听一句中文，在真办公室里把可乐罐拿出来放进抽屉。
2
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control 2023 · CoRL · ⭐⭐⭐⭐
把机器人动作翻译成一句话，让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字，就能动手。
3
OpenVLA: An Open-Source Vision-Language-Action Model 2024 · CoRL · ⭐⭐⭐
把一个会"看图说话"的 AI 改一改，让它学会"看一眼桌面就动手摆东西"，再把全部训练配方开源送出去。

Distribution · 年份分布

2022 到 2025，16 篇怎么排开。

祖师爷经典前沿

All papers · 按 era 排

End-to-End VLA 全部 16 篇。

era	year	title	venue
经典	2024	OpenVLA: An Open-Source Vision-Language-Action Model	CoRL
祖师爷	2022	RT-1: Robotics Transformer for Real-World Control at Scale	RSS
经典	2023	RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control	CoRL
经典	2023	RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches	ICLR
经典	2024	3D Diffusion Policy (DP3)	RSS
经典	2024	Octo: An Open-Source Generalist Robot Policy	RSS
前沿	2024	3D-VLA	ICML
前沿	2024	GR-2: Generative Video-Language-Action Model	arXiv
前沿	2024	RDT-1B: Diffusion Foundation Model for Bimanual Manipulation	ICLR
前沿	2024	RoboMamba	NeurIPS
前沿	2024	TinyVLA	RA-L
前沿	2024	TraceVLA: Visual Trace Prompting	ICLR
前沿	2025	DexVLA	arXiv
前沿	2025	OpenHelix	arXiv
前沿	2025	OpenVLA-OFT	RSS
前沿	2025	SpatialVLA	arXiv