5 套策划好的读书包。
不知道 156 篇该从哪开始?挑一个你最感兴趣的方向,按 era 顺序读完一个包。每包 50-90 分钟,读完能在那个细分领域跟人聊起。
VLA 入门 6 篇
从动作 token 到产业基础模型
想理解'机器人怎么直接看图听话出动作'?这 6 篇按 era 升序排,读完你能自己讲清 VLA 路线。
-
1
Learning Transferable Visual Models From Natural Language Supervision
教 AI 同时认图和认字,把 4 亿对网上图文塞进同一张坐标。之后你说"一只猫",它就能从新图里挑出猫——不用为新任务再训一遍。
-
2
RT-1: Robotics Transformer for Real-World Control at Scale
让机器人看完 13 万段人类亲手示范,就能听一句中文,在真办公室里把可乐罐拿出来放进抽屉。
-
3
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
把机器人动作翻译成一句话,让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字,就能动手。
-
4
OpenVLA: An Open-Source Vision-Language-Action Model
把一个会"看图说话"的 AI 改一改,让它学会"看一眼桌面就动手摆东西",再把全部训练配方开源送出去。
-
5
OpenVLA-OFT
原版机器人模型一个字一个字念动作,慢还一抖一抖。OpenVLA-OFT 拧开三个开关——一口气说、一段段说、说连续数字——又快又稳。
-
6
pi_0: Vision-Language-Action Flow Model
让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑",再加一个会画连续动作的"流匹配"小头。
扩散策略 5 篇
从'选动作'变成'去噪'
Diffusion Policy 把控制问题重新定义。读完知道为什么扩散赢过 transformer 在 manipulation 上。
-
1
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
让机器人像调电视雪花一样产生动作:从满屏乱码开始,擦几下,下一步该怎么动就擦出来了。
-
2
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
让机器人改看 3D 立体形状(点云)而不是 2D 照片来学动作,10 条示范就够,72 个任务平均比原版强 24.2%。
-
3
Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
机器人选下一步动作本来要慢慢搅 100 下才出一步,这篇教它一下就跳到答案——快约十倍,连笔记本都跑得动。
-
4
DiT-Policy
把画图领域火起来的新骨架(DiT)搬到机器人身上,再把每个零件挨个拆开看,到底哪个让它真变好。
-
5
pi_0: Vision-Language-Action Flow Model
让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑",再加一个会画连续动作的"流匹配"小头。
世界模型 4 篇
在脑子里预演
教 AI 在想象里走一遍。这 4 篇覆盖从 World Models 鼻祖到 Genie/Cosmos 工业级。
-
1
World Models
让 AI 先在自己脑子里反复"做白日梦"练打游戏,练熟了再去真游戏里上场——居然真能赢。
-
2
Dreamer V3: Mastering Diverse Domains through World Models
同一套设置,让一个 AI 自己玩 150 多种游戏都不用改参数,还第一次靠自己挖到《我的世界》里的钻石。
-
3
Genie: Generative Interactive Environments
Genie 看一堆游戏录屏,自己猜出每帧之间"按了什么键",再用这个"按键"画出下一帧——把死视频变成能玩的小游戏。
-
4
Cosmos World Foundation Model Platform
NVIDIA 用 2000 万小时真实视频,训了一个能"猜下一秒物理世界长啥样"的大模型,给机器人和无人车当通用底座。
射频感知 5 篇
WiFi 和毫米波看世界
电磁波怎么穿墙、抗烟雾、画出 LiDAR 级 3D。这 5 篇讲清射频感知的核心套路。
-
1
Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
一个 Wi-Fi 小盒子隔着墙照过去,就能画出屋里人的骨架动画——摄像头当老师,电波当学生,学一遍就会了。 更具体一点: 输入:一个商用雷达(Walabot Developer,几百美元)发出去的电波被人体反射回来后形成的 3D 强度场。 …
-
2
Can WiFi Estimate Person Pose?
想象你家路由器除了上网,还能告诉你"屋里那个人正在做啥姿势"——胳膊抬到哪、腿怎么弯,全画给你看。
-
3
See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
机器人在浓烟里也能画出清晰的房间地图——靠一颗几十块的小雷达加一个会"脑补"的神经网络。 具体两招: 训练时让贵的激光雷达(lidar)和便宜的雷达坐同一辆车,把 lidar 的清晰图当作业答案喂给神经网络(cGAN),教雷达学会脑补。学完…
-
4
Enabling Visual Recognition at Radio Frequency (PanoRadar)
PanoRadar 把便宜的小雷达装到一个转台上边转边扫,再让神经网络把模糊回声拼成 3D 地图,让雷达像眼睛一样"看见"房间。
-
5
Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
在肩膀、胸口、手腕各贴一片简化雷达,每片只能看到身体一小块,算法把这些局部信号拼成完整的 3D 人体形状。
模仿学习硬件 4 篇
怎么采到好数据
VLA 的瓶颈是数据。这 4 篇讲明白:ALOHA、UMI、DexCap、HumanPlus 各解决了什么采集问题。
-
1
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
几千美元搭一套双臂遥控器(ALOHA)让人录 50 次示范,机器人就学会一段一段动(ACT),能完成穿扎带这种细活。
-
2
Universal Manipulation Interface
人手拿一个"带摄像头的夹子"在厨房自己做事,录下来就能教机器人,全程不用机器人在场。
-
3
DexCap
人戴上"会记录动作的手套"自己干活,把手的轨迹录下来教机器人——机器人完全不必在现场。
-
4
HumanPlus
HumanPlus 让机器人当场跟着人做动作,做几十次后机器人自己也会了——把人当成机器人的"示范老师"。