回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Era

经典 · Classic

每个领域里被反复引用、几乎成事实标准的工作。它们不必是第一篇,但是绕不开的。读这一档你能拿到该领域的核心认知。

67总篇数
11覆盖主题
2019–2025年份跨度
224,388

祖师爷 · Founder →前沿 · Frontier →

I VLM Foundation 12 篇

II High-Level Planning 5 篇

  • 2023
    ChatGPT for Robotics IEEE Access · ⭐⭐

    教 ChatGPT 当机器人的"代写助理":先告诉它机器人会做哪些事,再让它把人话翻成代码,人盯着改。

  • 2023
    VoxPoser CoRL · ⭐⭐⭐⭐

    VoxPoser 让大模型给机器人画两张 3D 地图:红色地方要去,灰色地方要躲,机器人照着地图走出动作,全程不训练新模型。

  • 2024
    GenSim ICLR · ⭐⭐⭐

    让 ChatGPT 当"出题老师",自动给机器人编一堆练习关卡,连标准答案也一起写好。

  • 2024
    RoboFlamingo ICLR · ⭐⭐⭐⭐

    拿一个已经会看图说话的现成大模型当大脑,后面接一只"小手",就教会机械臂干活——不用从头训。

  • 2024
    Tree-Planner ICLR · ⭐⭐⭐

    让大模型一次写好十份菜谱,把重复步骤合成一棵树,做菜时照树走,错了就换条岔路,不用反复打电话问。

III End-to-End VLA 5 篇

IV Diffusion Policy 3 篇

V Imitation Learning 5 篇

  • 2021
    Implicit Behavioral Cloning CoRL · ⭐⭐⭐⭐

    别让模型直接报"动作是这个",而是让它给一堆候选动作打分、挑最低分那个——机器人的手就突然变巧了。

  • 2022
    Behavior Transformers: Cloning k Modes with One Stone NeurIPS · ⭐⭐⭐

    看一堆人做同一件事却各有各的做法,BeT 让 AI 先认出"有几种主流流派",再在每个流派里微调——而不是把所有动作平均成一个四不像。

  • 2023
    Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA) RSS · ⭐⭐⭐

    几千美元搭一套双臂遥控器(ALOHA)让人录 50 次示范,机器人就学会一段一段动(ACT),能完成穿扎带这种细活。

  • 2023
    AnyTeleop CoRL · ⭐⭐⭐

    用一台普通摄像头拍你的手,机械手就跟着模仿你的动作;换什么型号的机械手都不用重写代码。

  • 2023
    RoboCat TMLR · ⭐⭐⭐⭐

    一个 AI 大脑同时指挥好几种不同的机械臂干活,干完还会把成功的录像收回来当作下一轮的教材,越练越强。

VI World Model & Video Policy 5 篇

  • 2021
    Mastering Atari with Discrete World Models ICLR · ⭐⭐⭐⭐

    让 AI 闭眼"做白日梦"练打老游戏,第一次只靠脑子里想象就打到人类水平。

  • 2022
    DayDreamer CoRL · ⭐⭐⭐

    让一只四足机器人不靠仿真,在真实世界里 1 小时就学会走路——靠的是边走边在脑子里"做梦"演练。

  • 2023
    Transformers are Sample-Efficient World Models ICLR · ⭐⭐⭐⭐

    把游戏画面切成一格格"积木",让 AI 像写句子一样接龙下一帧,然后让它在脑子里"自己跟自己玩"练强化学习——只玩两小时就接近人类水平。

  • 2023
    TWM: Transformer-based World Models ICLR · ⭐⭐⭐⭐

    agent 在脑子里"做梦"练本事。这篇把梦的引擎从 RNN 换成 Transformer,记得更长,做得更准。

  • 2025
    Dreamer V3: Mastering Diverse Domains through World Models Nature · ⭐⭐⭐⭐

    同一套设置,让一个 AI 自己玩 150 多种游戏都不用改参数,还第一次靠自己挖到《我的世界》里的钻石。

VII Multimodal Ecology 5 篇

  • 2022
    X-VLM: Multi-Grained Vision Language Pre-Training ICML · ⭐⭐⭐⭐

    教 AI 看图,不只学"整张图配整句话",还学"图里某个物体配某个词"——这样问图里某个细节也答得准。

  • 2023
    AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model EACL · ⭐⭐⭐

    一句话:给一个"只识字"的聪明大脑配几副翻译眼镜——看图、看视频、听声、感运动,统统先翻成"假文字"再喂进去,大脑本身一个字都不重学。 三件让人眼前一亮的事: 不动 LLM 主干:LLaMA-2-70B 全程冻结,只训前面那个小投影层(projection layer),训练成本

  • 2023
    AudioPaLM arXiv · ⭐⭐⭐⭐

    以前要三个工人接力——听写、翻译、配音——才能把你说的中文变成英文语音。AudioPaLM 让一个模型一口气干完,连你的音色都不丢。

  • 2023
    FROMAGe: Grounding LLMs to Images ICML · ⭐⭐⭐

    把一个会说话的大模型整个冻住不动,只在它前后各加一层薄薄的"翻译片",就让它能看图、找图、还能图文混着聊天。

  • 2024
    OneLLM CVPR · ⭐⭐⭐

    OneLLM 用一套通用「翻译机」,让大语言模型同时听懂图像、声音、点云等八种信号——加新信号只要少量训练,不用从头再做。

VIII RF Perception & Mapping 9 篇

IX Auditory & Acoustic 8 篇

  • 2020
    Conformer Interspeech · ⭐⭐⭐

    让 AI 听人说话时既能听清每个字的咬字,又能联系整段话的意思——一个会同时"听细节"和"听大意"的耳朵。

  • 2020
    Dual-path RNN ICASSP · ⭐⭐⭐⭐

    DPRNN 把超长录音切成小块,让 RNN 先在块里跑、再跨块跑,交替几轮就能把两个人同时说话拆开。

  • 2021
    Meta-StyleSpeech ICML · ⭐⭐⭐

    给模型听几秒陌生人说话的录音,它就能用这个人的声音念任意一句话。不用重新训练、不用收集几小时数据——几秒就够。

  • 2023
    AudioLM TASLP · ⭐⭐⭐⭐

    把声音切成两种"音频字"——一种管说啥、一种管音色,模型像写句子一样续写,给 3 秒就能接出像本人的语音。

  • 2023
    EnCodec TMLR · ⭐⭐⭐⭐

    EnCodec 把声音压成一串很小的数字再还原回来;既比老办法省流量,又因为是数字,AI 可以像写字一样"写"出声音。

  • 2023
    MusicLM arXiv · ⭐⭐⭐⭐

    对着模型说一句"缓慢爵士钢琴配鼓刷",它就生成几分钟真实音乐——先定骨架(结构),再填细节(音色)。

  • 2023
    Robust Speech Recognition via Large-Scale Weak Supervision ICML · ⭐⭐⭐

    Whisper 把网上 68 万小时音频和字幕一锅烩,喂进普通 Transformer,开箱就能听各种口音、噪声和长录音,还顺手翻译——靠数据杂取胜。

  • 2024
    NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators MobiCom · ⭐⭐⭐

    在咖啡馆听不清对面说话?让助听器自己降噪,不连手机、不连云。

X Datasets & Benchmarks 5 篇

  • 2021
    What Matters in Learning from Offline Human Demonstrations for Robot Manipulation CoRL · ⭐⭐⭐

    这篇不发明新算法,而是把"机器人看录像学操作"里每个变量挨个换一遍,告诉你哪些真有用、哪些是白忙。

  • 2022
    CALVIN RA-L · ⭐⭐⭐

    CALVIN 是一把"机器人听话考试"的尺子:人说一段话,机器人要在桌上一步接一步把活干完,34 个小任务统一打分。

  • 2023
    BridgeData V2 dataset-eval · ⭐⭐

    BridgeData V2 是一份公开的"机器人干活录像库"——6 万段机械臂在 24 个真实场景里的演示视频,大家训机器人时把它当共同起跑线。

  • 2023
    LIBERO NeurIPS · ⭐⭐⭐

    教机器人学新技能时别忘旧技能。LIBERO 是这事的标准考卷,4 套题分别考空间、物体、目标和综合。

  • 2023
    RH20T RSS Workshop · ⭐⭐⭐

    机器人数据集,除拍视频外还录了"手感"和"声音":拧瓶盖多大力、咔哒卡到位。147 项任务、11 万段。

XI Simulation & Sim2Real 5 篇

  • 2020
    SAPIEN: A SimulAted Part-based Interactive ENvironment CVPR · ⭐⭐⭐

    给机器人造了一个虚拟宜家展厅,2,346 件家具每个抽屉、每扇门、每个瓶盖都能真的拉开、推开、拧开。

  • 2021
    Habitat 2.0 NeurIPS · ⭐⭐⭐

    上一代 Habitat 只能在虚拟房子里走路看;2.0 让小机器人能真的开冰箱、把杯子从厨房拿到客厅做家务。

  • 2021
    ManiSkill NeurIPS · ⭐⭐⭐

    ManiSkill 是教机器人开抽屉、开柜门这种家具的统一考场—— 专测它练完几十个柜子之后,能不能上手没见过的第 101 个。

  • 2022
    DexMV ECCV · ⭐⭐⭐⭐

    让机械手学拧瓶盖、倒水太难,DexMV 让算法看人手视频学,把人的动作"翻译"成仿真里机械手能照着练的示范。

  • 2022
    ProcTHOR NeurIPS · ⭐⭐⭐

    过去训练 AI 在屋里走来走去,得人工一间一间搭样板房,慢且少。ProcTHOR 让电脑按规则批量造 1 万套房,AI 见多了,换个没去过的房子也能找到东西。