回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Filed under · embodied AI · 2026 · 156 papers

156 篇讲机器人怎么学会看、想、做事的论文 — 用能读懂的版本。

这站把 156 篇顶会论文(CoRL、NeurIPS、MobiCom、SIGCOMM、ICML、ICLR、CVPR)翻译成入门读者也能跟下来的语言——任何术语第一次出现都给一句话定义和一个生活类比,方法分步骤拆解,关键数字配生活语境。

A robotic hand reaching toward floating eyes, text fragments, and arrows — abstract editorial illustration of embodied AI
Plate Nº 0— A robotic hand reaching for vision, language, and action.
从这里开始 · 30 天路径 · FAQ · 公式速查
156 / 156papers noted
0 / 156你已读
11topics
551,187total 字
26小时阅读
2011–2025year span
最新 ↘ what's new

I

VLM Foundation 视觉-语言基座

22 papers
VLM Foundation — 视觉-语言基座

按演进顺序:祖师爷 → 现代经典 → 前沿延伸

№ 01 auto VLM Foundation

LLaVA: Visual Instruction Tuning

入门 17min · 6046字

给一个只会打字聊天的 AI 装上眼睛——你随手拍张照片发过去,它能看着图陪你说话。

№ 133 auto VLM Foundation

Improved Baselines with Visual Instruction Tuning

入门 6min · 2181字

给会聊天的 AI 配一副"看图眼镜"。把眼镜从一片镜片换成两片,再多给它看点带字的图片,看图答题就刷榜了。

№ 134 auto VLM Foundation

OBELICS

进阶 6min · 2181字

HuggingFace 把网上 1.41 亿个"图文穿插"的网页洗干净打包开源,让大家也能像 DeepMind 那样训出会看图读长文的模型。

№ 136 auto VLM Foundation

Sigmoid Loss for Language Image Pre-Training

进阶 6min · 2180字

教模型"图配文字",CLIP 要全班一起排名打分,SigLIP 改成一对一判断"是不是一对"。算得快、省内存、小批也能学。

№ 137 auto VLM Foundation

What matters when building vision-language models?

进阶 6min · 2201字

做"看图说话 AI"时大家凭感觉选零件,这篇把每个选择拆开做对照实验,整理成一份避坑清单,再训了个 8B 模型当样板。

№ 139 auto VLM Foundation

The Llama 3 Herd of Models

硬核 6min · 1959字

Meta 把训练 Llama 3 大模型的全套"菜谱"公开了——用了什么料、多少张卡、跑多久、考多少分。

№ 140 auto VLM Foundation

LLaVA-NeXT-Interleave

进阶 7min · 2328字

教 AI 像刷图文并茂的小红书:图和字按顺序穿着读,多图、视频、3D 都用这一招,不用各训一个模型。

№ 141 auto VLM Foundation

LLaVA-OneVision: Easy Visual Task Transfer

进阶 6min · 1987字

一套配方教会一个模型同时看懂单张图、几张图、和视频,开源圈第一次在视频上接近 GPT-4V。

№ 143 auto VLM Foundation

Pixtral 12B

进阶 6min · 2068字

Mistral 开源的"会看图聊天的助手"——从一开始就同时学看图和说话,图想多大就多大,能免费拿去做产品。

II

High-Level Planning 高层任务规划

11 papers
High-Level Planning — 高层任务规划

按演进顺序:祖师爷 → 现代经典 → 前沿延伸

№ 03 auto High-Level Planning

SayCan: Do As I Can, Not As I Say

入门 14min · 4946字

让"见多识广但出不了门的 AI"出主意,让机器人自己摸口袋说"这事我现在能做",两边都点头才动手。

№ 77 auto High-Level Planning

LLM+P: Empowering LLMs with Optimal Planning

进阶 6min · 1995字

让 LLM 只当翻译——把你说的话翻译成机器格式,真正的规划交给老牌算法去算。LLM 管说话,算法管动脑子。

№ 79 auto High-Level Planning

ProgPrompt

入门 6min · 2154字

让大模型像写代码一样做计划:你说"把苹果放冰箱",它直接吐出一串 Python 调用,机器人照着一行行跑就行。

№ 80 auto High-Level Planning

ChatGPT for Robotics

入门 6min · 2194字

教 ChatGPT 当机器人的"代写助理":先告诉它机器人会做哪些事,再让它把人话翻成代码,人盯着改。

№ 81 auto High-Level Planning

GenSim

进阶 6min · 2114字

让 ChatGPT 当"出题老师",自动给机器人编一堆练习关卡,连标准答案也一起写好。

№ 82 auto High-Level Planning

RoboFlamingo

硬核 6min · 2089字

拿一个已经会看图说话的现成大模型当大脑,后面接一只"小手",就教会机械臂干活——不用从头训。

№ 83 auto High-Level Planning

Tree-Planner

进阶 7min · 2402字

让大模型一次写好十份菜谱,把重复步骤合成一棵树,做菜时照树走,错了就换条岔路,不用反复打电话问。

№ 84 auto High-Level Planning

VoxPoser

硬核 6min · 2090字

VoxPoser 让大模型给机器人画两张 3D 地图:红色地方要去,灰色地方要躲,机器人照着地图走出动作,全程不训练新模型。

III

End-to-End VLA 端到端视觉-语言-动作

16 papers
End-to-End VLA — 端到端视觉-语言-动作

按演进顺序:祖师爷 → 现代经典 → 前沿延伸

№ 110 auto End-to-End VLA

3D Diffusion Policy (DP3)

进阶 6min · 2157字

教机器人擦桌子,不给它看照片,改给它看带深度的 3D 点云。结果只用 10 段录像就够学会一个新任务。

№ 111 auto End-to-End VLA

Octo: An Open-Source Generalist Robot Policy

进阶 6min · 2256字

第一个真正开源的通用机器人"大脑":先看 80 万段机器人录像学基础动作,你下载回来微调几小时,就能让自家机器人学新活。

№ 114 auto End-to-End VLA

3D-VLA

硬核 6min · 2220字

让机器人除了看平面照片,还能"摸到"立体形状;动手前先在脑里画一张"做完后的样子",再照着画面去动。

№ 115 auto End-to-End VLA

DexVLA

硬核 7min · 2527字

让一个只会"看图说话"的大脑别动,给它配一只 10 亿参数的"专业的手"。脑负责理解,手负责干活,互不干扰。

№ 116 auto End-to-End VLA

GR-2: Generative Video-Language-Action Model

硬核 8min · 2625字

让机器人先刷 3800 万段网络视频攒常识,再练动手;它干活时脑子里会"预演"下一秒的画面。

№ 117 auto End-to-End VLA

OpenHelix

进阶 7min · 2535字

机器人版的"大脑加小脑"分工:大脑慢慢听懂你说的话,小脑飞快动手干活。代码全部开源,对标 Figure 公司不公开的 Helix。

№ 118 auto End-to-End VLA

OpenVLA-OFT

进阶 6min · 2105字

原版机器人模型一个字一个字念动作,慢还一抖一抖。OpenVLA-OFT 拧开三个开关——一口气说、一段段说、说连续数字——又快又稳。

№ 120 auto End-to-End VLA

RoboMamba

进阶 6min · 1977字

机器人脑子原本用 Transformer 拼出来,反应慢、显存吃紧。RoboMamba 换成 Mamba(一种"流水线式"架构),让机器人想得更快、更省。

№ 121 auto End-to-End VLA

SpatialVLA

硬核 6min · 2096字

教机器人两件事:用普通摄像头也能看出远近;常用动作存成肌肉记忆,不用每次重新算。

№ 122 auto End-to-End VLA

TinyVLA

进阶 7min · 2382字

把会听话的机器人大脑瘦身到 1.4B,动作生成换成"先乱后凿"的扩散模型,不靠云端也能实时干活。

№ 123 auto End-to-End VLA

TraceVLA: Visual Trace Prompting

进阶 6min · 2136字

机器人的手刚走过哪里?TraceVLA 把这条路径直接画在它看到的照片上,让它看见自己的足迹,再决定下一步往哪动。

IV

Diffusion Policy 扩散策略与流匹配

11 papers
Diffusion Policy — 扩散策略与流匹配

按演进顺序:祖师爷 → 现代经典 → 前沿延伸

№ 41 auto Diffusion Policy

EquiBot: SIM(3)-Equivariant Diffusion Policy

硬核 7min · 2409字

教机器人几次就够了。挪位置、转方向、换大小都不用重学,因为这件事直接焊在网络结构里。

№ 42 auto Diffusion Policy

DiT-Policy

硬核 7min · 2385字

把画图领域火起来的新骨架(DiT)搬到机器人身上,再把每个零件挨个拆开看,到底哪个让它真变好。

№ 43 auto Diffusion Policy

Diffusion Policy Policy Optimization (DPPO)

硬核 7min · 2447字

先模仿老师傅、再自己练。DPPO 把"自己练"那步拆成很多小动作,让常规 RL 也能调教扩散策略。

№ 46 auto Diffusion Policy

FAST: Efficient Action Tokenization for VLA

硬核 7min · 2492字

机器人动作又长又啰嗦塞不进 AI 模型,FAST 学 MP3 压音乐的办法,把一长串动作压成几十个"词",AI 像说话一样把它念出来。

№ 47 auto Diffusion Policy

pi_0: Vision-Language-Action Flow Model

硬核 7min · 2618字

让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑",再加一个会画连续动作的"流匹配"小头。

№ 48 auto Diffusion Policy

pi_0.5: VLA with Open-World Generalization

硬核 7min · 2353字

让机器人第一次走进一个陌生人家,也能听懂"收拾下厨房"然后自己一步步把活干完。

V

Imitation Learning 模仿学习与遥操作

15 papers
Imitation Learning — 模仿学习与遥操作

按演进顺序:祖师爷 → 现代经典 → 前沿延伸

№ 50 auto Imitation Learning

Generative Adversarial Imitation Learning

硬核 18min · 6398字

让 AI 看大厨做菜的录像,再找个"挑刺老师"分辨它做得像不像,靠这种较劲学会做事,不用猜大厨心里的打分标准。

№ 52 auto Imitation Learning

AnyTeleop

进阶 7min · 2280字

用一台普通摄像头拍你的手,机械手就跟着模仿你的动作;换什么型号的机械手都不用重写代码。

№ 53 auto Imitation Learning

Behavior Transformers: Cloning k Modes with One Stone

进阶 7min · 2385字

看一堆人做同一件事却各有各的做法,BeT 让 AI 先认出"有几种主流流派",再在每个流派里微调——而不是把所有动作平均成一个四不像。

№ 54 auto Imitation Learning

Implicit Behavioral Cloning

硬核 18min · 6215字

别让模型直接报"动作是这个",而是让它给一堆候选动作打分、挑最低分那个——机器人的手就突然变巧了。

№ 55 auto Imitation Learning

RoboCat

硬核 7min · 2370字

一个 AI 大脑同时指挥好几种不同的机械臂干活,干完还会把成功的录像收回来当作下一轮的教材,越练越强。

№ 56 auto Imitation Learning

ALOHA 2

入门 7min · 2546字

ALOHA 2 不是新算法,而是把"教机器人用双手干活"的那台设备升级了一遍:更顺手、更耐用、图纸全开源,方便大家一起攒训练数据。

№ 57 auto Imitation Learning

DexCap

进阶 7min · 2481字

人戴上"会记录动作的手套"自己干活,把手的轨迹录下来教机器人——机器人完全不必在现场。

№ 58 auto Imitation Learning

HumanPlus

硬核 6min · 2152字

HumanPlus 让机器人当场跟着人做动作,做几十次后机器人自己也会了——把人当成机器人的"示范老师"。

№ 60 auto Imitation Learning

Mobile ALOHA

进阶 6min · 2235字

给桌面机器人加了一辆小车,让人手把手带它做家务(炒虾、擦桌、洗碗),每招只示范 50 次就能学会。

№ 61 auto Imitation Learning

SmolVLA

进阶 6min · 2004字

Hugging Face 推出的小型机器人模型:把"看到 + 听到 + 动手"塞进一张游戏显卡能训的小脑袋,让没数据中心的人也能在家玩具身 AI。

№ 62 auto Imitation Learning

Universal Manipulation Interface

进阶 8min · 2724字

人手拿一个"带摄像头的夹子"在厨房自己做事,录下来就能教机器人,全程不用机器人在场。

№ 63 auto Imitation Learning

Behavior Generation with Latent Actions (VQ-BeT)

硬核 7min · 2379字

机器人本来要画一条平滑曲线动作,VQ-BeT 让它改成"先选一个动作词、再小修一点"——就像挑表情包再加文字,比硬画曲线更不容易出怪招。

VI

World Model & Video Policy 世界模型与视频策略

14 papers
World Model & Video Policy — 世界模型与视频策略

按演进顺序:祖师爷 → 现代经典 → 前沿延伸

№ 145 auto World Model & Video Policy

World Models

进阶 18min · 6473字

让 AI 先在自己脑子里反复"做白日梦"练打游戏,练熟了再去真游戏里上场——居然真能赢。

№ 146 auto World Model & Video Policy

DayDreamer

进阶 9min · 2994字

让一只四足机器人不靠仿真,在真实世界里 1 小时就学会走路——靠的是边走边在脑子里"做梦"演练。

№ 149 auto World Model & Video Policy

Transformers are Sample-Efficient World Models

硬核 7min · 2446字

把游戏画面切成一格格"积木",让 AI 像写句子一样接龙下一帧,然后让它在脑子里"自己跟自己玩"练强化学习——只玩两小时就接近人类水平。

№ 150 auto World Model & Video Policy

TWM: Transformer-based World Models

硬核 6min · 2258字

agent 在脑子里"做梦"练本事。这篇把梦的引擎从 RNN 换成 Transformer,记得更长,做得更准。

№ 151 auto World Model & Video Policy

1X World Model Challenge

进阶 7min · 2600字

1X 教人形机器人 Neo "脑补下一秒画面":拿现成视频 AI 当底子,喂自家机器人录像微调,再做成公开赛让大家来卷。

№ 152 auto World Model & Video Policy

Cosmos World Foundation Model Platform

硬核 7min · 2284字

NVIDIA 用 2000 万小时真实视频,训了一个能"猜下一秒物理世界长啥样"的大模型,给机器人和无人车当通用底座。

№ 153 auto World Model & Video Policy

GAIA-1

硬核 7min · 2288字

GAIA-1 是个会做梦的开车模拟器:给它一段街景视频的开头加一句"我现在打方向盘",它能接着画出后面几秒街上看到的画面。

№ 154 auto World Model & Video Policy

Genie: Generative Interactive Environments

硬核 6min · 2186字

Genie 看一堆游戏录屏,自己猜出每帧之间"按了什么键",再用这个"按键"画出下一帧——把死视频变成能玩的小游戏。

№ 155 auto World Model & Video Policy

Navigation World Models

硬核 7min · 2468字

让机器人"走"之前先在脑子里放一段未来几秒的画面,看会不会撞墙,再决定真的怎么走。

№ 156 auto World Model & Video Policy

UniSim

硬核 7min · 2530字

看过海量视频后,你给它一个动作(说一句话 / 推一下机械臂 / 挪一下镜头),它就生成接下来世界长什么样的视频——像一台会脑补现实的"游戏机"。

VII

Multimodal Ecology 多模态交互与数据生态

13 papers
Multimodal Ecology — 多模态交互与数据生态

按演进顺序:祖师爷 → 现代经典 → 前沿延伸

№ 05 auto Multimodal Ecology

VLAS: VLA Model With Speech Instructions

进阶 16min · 5570字

机器人直接听原声干活:光凭你的嗓音就认出"是你在说话",再去拿你那只专属的杯子。

№ 06 auto Multimodal Ecology

MLA: Multisensory Language-Action Model

硬核 16min · 5636字

让机器人不只用眼睛看,还会用"手感"和"空间感",并且提前猜下一秒发生什么再动手。

№ 66 auto Multimodal Ecology

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

进阶 17min · 5896字

一句话:给一个"只识字"的聪明大脑配几副翻译眼镜——看图、看视频、听声、感运动,统统先翻成"假文字"再喂进去,大脑本身一个字都不重学。 三件让人眼前一亮的事: 不动 LLM 主干:LLaMA-2-70B 全程冻结,只训前面那个小投影层(projection layer),训练成本

№ 67 auto Multimodal Ecology

AudioPaLM

硬核 7min · 2284字

以前要三个工人接力——听写、翻译、配音——才能把你说的中文变成英文语音。AudioPaLM 让一个模型一口气干完,连你的音色都不丢。

№ 68 auto Multimodal Ecology

FROMAGe: Grounding LLMs to Images

进阶 6min · 2225字

把一个会说话的大模型整个冻住不动,只在它前后各加一层薄薄的"翻译片",就让它能看图、找图、还能图文混着聊天。

№ 69 auto Multimodal Ecology

OneLLM

进阶 7min · 2291字

OneLLM 用一套通用「翻译机」,让大语言模型同时听懂图像、声音、点云等八种信号——加新信号只要少量训练,不用从头再做。

№ 71 auto Multimodal Ecology

Tactile Beyond Pixels (Sparsh-X)

硬核 7min · 2491字

让机器人的手指不止"看"接触画面,还能听响声、感力度、察打滑——四路信号一起学,摸东西才像人。

№ 72 auto Multimodal Ecology

Sparsh: Self-supervised Touch Representations

硬核 8min · 2885字

以前每个触觉任务都得从零教机器人。Sparsh 先让模型自己看大量触觉画面学一遍,再做具体任务只要少量例子就够。 类比:跟小孩先摸过几千次东西、再去学"握紧水杯"是一个道理。技术路线和 NLP 里 BERT、视觉里 DINO 一致——先大量自学,再小量微调,只是搬到了触觉这个长期

№ 73 auto Multimodal Ecology

Tactile-VLA

硬核 8min · 2702字

让机器人除了会看会听,还学会"摸"——能感到扣子"咔哒"卡入那一下,干插拔、拧螺丝这种细活不再蛮干。

№ 74 auto Multimodal Ecology

TLA: Tactile-Language-Action

硬核 7min · 2334字

让机器人像你闭眼摸钥匙那样——靠"一段持续的触感"加上一句话指令,自己决定下一步该怎么用手。

VIII

RF Perception & Mapping 射频感知与空间建图

16 papers
RF Perception & Mapping — 射频感知与空间建图

按演进顺序:祖师爷 → 现代经典 → 前沿延伸

№ 85 auto RF Perception & Mapping

See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar

进阶 17min · 6108字

机器人在浓烟里也能画出清晰的房间地图——靠一颗几十块的小雷达加一个会"脑补"的神经网络。 具体两招: 训练时让贵的激光雷达(lidar)和便宜的雷达坐同一辆车,把 lidar 的清晰图当作业答案喂给神经网络(cGAN),教雷达学会脑补。学完老师下车,雷达单飞。 认门/墙/玻璃/电

№ 86 auto RF Perception & Mapping

Can WiFi Estimate Person Pose?

进阶 18min · 6303字

想象你家路由器除了上网,还能告诉你"屋里那个人正在做啥姿势"——胳膊抬到哪、腿怎么弯,全画给你看。

№ 89 auto RF Perception & Mapping

High Resolution Point Clouds from mmWave Radar

进阶 8min · 2660字

便宜雷达拍出来的画面很糊。RadarHD 用神经网络当翻译,把糊画面改成像激光雷达那样清晰的点云图,烟雾、黑暗里都能用。

№ 91 auto RF Perception & Mapping

Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm

硬核 33min · 11437字

一个 Wi-Fi 小盒子隔着墙照过去,就能画出屋里人的骨架动画——摄像头当老师,电波当学生,学一遍就会了。 更具体一点: 输入:一个商用雷达(Walabot Developer,几百美元)发出去的电波被人体反射回来后形成的 3D 强度场。 输出:屋内每个人的 15 关节点骨架,每

IX

Auditory & Acoustic 听觉智能与声学空间交互

15 papers
Auditory & Acoustic — 听觉智能与声学空间交互

按演进顺序:祖师爷 → 现代经典 → 前沿延伸

№ 16 auto Auditory & Acoustic

AudioLM

硬核 9min · 2976字

把声音切成两种"音频字"——一种管说啥、一种管音色,模型像写句子一样续写,给 3 秒就能接出像本人的语音。

№ 17 auto Auditory & Acoustic

Conformer

进阶 6min · 2209字

让 AI 听人说话时既能听清每个字的咬字,又能联系整段话的意思——一个会同时"听细节"和"听大意"的耳朵。

№ 18 auto Auditory & Acoustic

Dual-path RNN

硬核 7min · 2615字

DPRNN 把超长录音切成小块,让 RNN 先在块里跑、再跨块跑,交替几轮就能把两个人同时说话拆开。

№ 19 auto Auditory & Acoustic

EnCodec

硬核 8min · 2701字

EnCodec 把声音压成一串很小的数字再还原回来;既比老办法省流量,又因为是数字,AI 可以像写字一样"写"出声音。

№ 20 auto Auditory & Acoustic

Meta-StyleSpeech

进阶 7min · 2329字

给模型听几秒陌生人说话的录音,它就能用这个人的声音念任意一句话。不用重新训练、不用收集几小时数据——几秒就够。

№ 21 auto Auditory & Acoustic

MusicLM

硬核 7min · 2524字

对着模型说一句"缓慢爵士钢琴配鼓刷",它就生成几分钟真实音乐——先定骨架(结构),再填细节(音色)。

№ 22 auto Auditory & Acoustic

Robust Speech Recognition via Large-Scale Weak Supervision

进阶 21min · 7515字

Whisper 把网上 68 万小时音频和字幕一锅烩,喂进普通 Transformer,开箱就能听各种口音、噪声和长录音,还顺手翻译——靠数据杂取胜。

№ 23 auto Auditory & Acoustic

SeamlessM4T

硬核 7min · 2443字

*一个模型搞定 100 种语言的"听懂、翻译、说出来",省掉以前三四个 App 接力的麻烦。 它一口气会做 5 件事,名字像缩写但其实只是"输入 → 输出"的简写: ASR(Automatic Speech Recognition,语音识别):听写成同语言文字 S2T(Speec

№ 24 auto Auditory & Acoustic

Stable Audio

硬核 7min · 2376字

打几个字描述你想要的声音,AI 就能做出几十秒到一两分钟的高音质音乐或音效,长度还能精确到秒。

X

Datasets & Benchmarks 数据集与评测基准

12 papers
Datasets & Benchmarks — 数据集与评测基准

按演进顺序:祖师爷 → 现代经典 → 前沿延伸

№ 29 auto Datasets & Benchmarks

BridgeData V2

入门 7min · 2371字

BridgeData V2 是一份公开的"机器人干活录像库"——6 万段机械臂在 24 个真实场景里的演示视频,大家训机器人时把它当共同起跑线。

№ 30 auto Datasets & Benchmarks

CALVIN

进阶 7min · 2327字

CALVIN 是一把"机器人听话考试"的尺子:人说一段话,机器人要在桌上一步接一步把活干完,34 个小任务统一打分。

№ 31 auto Datasets & Benchmarks

LIBERO

进阶 7min · 2326字

教机器人学新技能时别忘旧技能。LIBERO 是这事的标准考卷,4 套题分别考空间、物体、目标和综合。

№ 32 auto Datasets & Benchmarks

RH20T

进阶 6min · 2079字

机器人数据集,除拍视频外还录了"手感"和"声音":拧瓶盖多大力、咔哒卡到位。147 项任务、11 万段。

№ 34 auto Datasets & Benchmarks

DROID

进阶 7min · 2308字

全球 18 家实验室一起拍机器人干活的视频,凑出 7.6 万段、564 个真实场景,让机器人不再只会"自家桌子上那点活"。

№ 35 auto Datasets & Benchmarks

Open X-Embodiment

进阶 8min · 2646字

22 家实验室把各种机器人的"练手视频"凑成一个大数据集,再训一个通吃模型,发现喂多种机器人比单喂一种学得更好。

№ 36 auto Datasets & Benchmarks

RoboCasa

进阶 6min · 2198字

想造个会做饭的家用机器人?RoboCasa 给你 120 个虚拟厨房、100 个小动作、十万次练习录像,让它先在游戏里练会,再上岗。

№ 37 auto Datasets & Benchmarks

SimplerEnv

硬核 7min · 2280字

不用搬真机器人,在电脑里就能给 VLA(视觉-语言-动作模型)打分,分数和真机几乎一样准。

XI

Simulation & Sim2Real 仿真与真实迁移

11 papers
Simulation & Sim2Real — 仿真与真实迁移

按演进顺序:祖师爷 → 现代经典 → 前沿延伸

№ 98 auto Simulation & Sim2Real

Habitat: A Platform for Embodied AI Research

入门 17min · 6056字

给家用机器人造一个跑得飞快的"VR 房子",让它在里面绕路撞墙练几千万步,再上岗去你家。

№ 99 auto Simulation & Sim2Real

Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning

进阶 15min · 5362字

一句话:把"算物理"和"训神经网络"塞进同一张显卡,机器人学走路从"几千台 CPU 跑一晚"压成"一张卡跑几分钟"。 类比:以前训机器人像切菜、炒菜、装盘分三个房间,端来端去比真做菜还累;Isaac Gym 把厨房合并,菜不动、工具换着上。 效果对照:OpenAI 训魔方机械手用

№ 100 auto Simulation & Sim2Real

DexMV

硬核 6min · 2271字

让机械手学拧瓶盖、倒水太难,DexMV 让算法看人手视频学,把人的动作"翻译"成仿真里机械手能照着练的示范。

№ 101 auto Simulation & Sim2Real

Habitat 2.0

进阶 6min · 2156字

上一代 Habitat 只能在虚拟房子里走路看;2.0 让小机器人能真的开冰箱、把杯子从厨房拿到客厅做家务。

№ 102 auto Simulation & Sim2Real

ManiSkill

进阶 6min · 2042字

ManiSkill 是教机器人开抽屉、开柜门这种家具的统一考场—— 专测它练完几十个柜子之后,能不能上手没见过的第 101 个。

№ 103 auto Simulation & Sim2Real

ProcTHOR

进阶 6min · 2071字

过去训练 AI 在屋里走来走去,得人工一间一间搭样板房,慢且少。ProcTHOR 让电脑按规则批量造 1 万套房,AI 见多了,换个没去过的房子也能找到东西。

№ 105 auto Simulation & Sim2Real

BEHAVIOR-1K

硬核 6min · 1983字

斯坦福搭的"机器人家务考场":1000 道家务题、50 间样板房、9000 多件物品,让所有人用同一把尺子比"机器人到底会不会做家务"。

№ 106 auto Simulation & Sim2Real

Habitat 3.0

进阶 7min · 2405字

在虚拟的家里加一个会走会动的"假人",让机器人练习扫地搬东西时,得学会一边干活一边躲人、配合人。

№ 107 auto Simulation & Sim2Real

Isaac Lab

进阶 6min · 1944字

机器人在电脑里"练功"的虚拟训练场。以前练得飞快但看不清画面,画面漂亮又练得慢;Isaac Lab 把这两件事捏到了一起。

№ 108 auto Simulation & Sim2Real

MuJoCo Playground

进阶 5min · 1892字

一个 pip install 就能装好的开源仿真平台,让机器人先在电脑里把走路、抓东西练熟,再几乎原样搬到真机上跑。