回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Imitation Learning · Plate Nº 50

Generative Adversarial Imitation Learning

18 min read · 6398 字 · ⭐⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过强化学习"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

让 AI 看大厨做菜的录像,再找个"挑刺老师"分辨它做得像不像,靠这种较劲学会做事,不用猜大厨心里的打分标准。

所以这一节是想说:这篇论文造了一个"看着专家学,少绕一道弯"的模仿学习算法。


这是个什么场景

想象你刚搬到一个陌生城市,想学本地老饕怎么挑早餐摊。你跟拍了他一周的视频:他先看牌子、再看人多不多、最后才点东西。现在轮到你自己出门了——你怎么照着学?

两个朴素思路:

  1. 抄作业:把录像每一帧切下来——"老饕看到这个招牌时,下一步是绕过去"——做成一张张"看到 X 就做 Y"的对照表。出门照搬。
  2. 猜老师心思:先反推"老饕心里的打分标准是什么"(他大概觉得"排队 5 人=好"、"招牌掉漆=差"),再用这个标准慢慢练自己挑摊。

机器人学走路也是一模一样的问题。给一段人类专家走路的录像,机器人要么"抄作业"——把每一帧的 (姿势, 动作) 拿去做监督学习;要么"猜心思"——先反推专家的评分函数。

抄作业看起来简单,但有个老毛病:录像里没拍过的姿势一旦出现,机器人立刻懵——它从没学过怎么"从摔倒的姿势爬起来",于是越走越偏,最后摔。术语叫复合误差(compounding error)。就像你照着视频学挑摊,结果某天看到一家视频里没出现过的招牌,你完全不知道该绕还是该上。

猜老师心思(这就是逆强化学习 IRL)能解决"录像没拍过"的问题,因为它学的是评分标准,不是具体动作。但代价是:每次更新这个评分标准,都要把机器人放进环境里反复练强化学习——算一次猜,要做完一整套强化学习,烧钱烧时间。

GAIL 想做的事:既要 IRL 那种"学评分标准"的鲁棒性,又不想真的跑两层循环

所以这一节是想说:GAIL 想把"从专家学走路"这件事做得既稳又快。


Generative Adversarial Imitation Learning — 场景示意:这论文要解决的现实问题
Plate Nº IGenerative Adversarial Imitation Learning — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 行为克隆(Behavioral Cloning):把专家轨迹拆成 (状态, 动作) 对,做监督学习。简单粗暴,但只在录像里见过的状态附近能用——一旦走偏,错误像滚雪球一样累计。要它学好,得喂海量数据。
  • 逆强化学习(IRL):先反推一个"代价函数"(专家觉得啥行为好),然后基于这个代价用 RL 训出策略。问题是内层套着 RL,每次更新代价函数都得跑一遍完整 RL。在高维任务上慢到不可接受。
  • 学徒学习(Apprenticeship Learning):IRL 的简化版,假设代价函数是"几个手工特征的线性组合"。能跑大任务,但特征要人工设计,复杂行为根本套不进去——比如人类走路涉及几百个肌肉关节,你给我用 5 个特征写代价函数?
  • 共同毛病:"先恢复代价、再求策略"这个两步走是绕路。学习者最终要的是怎么动,不是"专家心里怎么想"。绕了一圈才回到动作上,又慢又容易丢信息。

所以这一节是想说:之前要么数据量小就垮,要么算得太慢,要么必须人工设计特征——没有哪条路又快又通用。


这篇论文的新想法

别费劲反推代价函数了。直接让 AI 和一个鉴别器对抗:鉴别器努力分辨"这是专家做的还是 AI 做的",AI 努力骗过鉴别器——学到最后,AI 的行为分布和专家几乎一样。

这个套路从 GAN(生成对抗网络)借来的:GAN 让生成器骗过鉴别器去合成以假乱真的图片;GAIL 让策略骗过鉴别器去合成以假乱真的"行为轨迹"。

所以这一节是想说:核心创新是把"模仿学习"翻译成"GAN",用对抗训练直接学策略,跳过 IRL 那一步。


它分几步做的(方法)

像学做一道菜:先想清楚"什么叫做得像大厨",再挑一把"尺子"量你和大厨差多少,然后请一位挑刺老师天天打分,最后把整套办法搬到 9 个真实任务上验证。整篇论文做了这 4 件事:定义"什么叫像专家"、证明 IRL 其实是分布匹配、设计 GAN 式的目标函数、给出落地算法。

1. 把"模仿专家"翻译成"匹配分布"

类比

你想模仿一位大厨。怎么算"模仿成功"?不是只学他切菜动作——是要学他整个做菜过程的全套路:他多久翻一次锅、什么时候加盐、油温多高时下肉。一句话,**他在厨房里"出现的全套场景统计"**和你出现的统计要长得一模一样。

GAIL 把这个"全套场景统计"叫占用度量(occupancy measure)。

占用度量(occupancy measure)ρπ(s, a):跟着策略 π 在世界里走一遍,"状态 s + 动作 a"这种组合出现的频率分布。可以理解成"这个策略一辈子里在每种 (情境, 反应) 上花了多少时间"。

状态(state)s:当前世界的样子。比如机器人此刻的关节角度、速度。

动作(action)a:策略对当前状态的反应。比如"左膝伸 5 度"。

策略(policy)π(a|s):一张"看到 s 我会怎么动 a"的概率表。

它在干什么

  • 数学上证明(Proposition 3.2):IRL 看似在找代价函数,实际等价于在找一个策略,让它的占用度量贴近专家的占用度量
  • 换句话说,IRL 兜了一大圈,本质就在做一件事:让两个分布对齐

为什么这步有用

  • 有了这个等价性,问题被改写成:直接最小化"我和专家两个占用度量之间的距离"——不需要中间那个代价函数。
  • 这一段是整篇论文的理论地基。后面所有算法都建在它之上。

所以这一节是想说:作者先证明"模仿专家"=="匹配占用度量",把绕弯路变成了直奔主题。


2. 选择一种"距离":Jensen-Shannon 散度

类比

两瓶饮料怎么比"像不像"?可以闻味道、可以化验成分、可以测密度。换不同的"测法"会得到不同的"距离值"。

GAIL 也要选一种测法,来量"我的占用度量和专家的占用度量"差多少。

散度(divergence):两个概率分布之间的"距离"——但不一定是几何上的距离,是各种衡量它们"不一样程度"的数值。

JS 散度(Jensen-Shannon divergence):一种对称的、有上界的散度。两个分布完全一样时是 0,完全不重合时是 log 2。GAN 论文证明:让生成器和鉴别器对抗到极致时,最优解恰好对应让 JS 散度最小。

KL 散度(Kullback–Leibler divergence):另一种常见散度。不对称(A 到 B 和 B 到 A 不一样),数值可以无限大。

正则项(regularizer)ψ:一种"惩罚函数",加在优化目标里防止解跑偏。论文核心创新是设计了一个新的正则项 ψ_GA,使得 ψ_GA 的共轭恰好对应 JS 散度。

它在干什么

  • 选一个特殊形状的代价正则项 ψ_GA(公式 13),让最终的目标函数(公式 15)等价于"最小化 JS 散度 + 鼓励策略保持随机性"。
  • 这个 ψ_GA 的厉害之处:它不像旧的"线性特征"那样把代价函数限制成几个固定形状的组合,而是允许任何形状的代价函数(只要保持负值)。

关键公式翻译成人话

原文 (15):min_π D_JS(ρπ, ρπE) − λH(π)

人话:"最小化 (我和专家的占用度量差距) 减去 (我自己的随机性奖励)"。前一项让你像专家,后一项防你过早把所有动作都压成一个死板的选择。

为什么这步有用

  • 选 JS 散度不是巧合:GAN 论文已经证明 GAN 鉴别器训到极致时,等价于在测 JS 散度。所以一旦选了 JS,和 GAN 的连接就立起来了——可以照搬 GAN 的训练机器。
  • 旧的学徒学习用"线性特征"刻出来的代价函数表达力有限;这套新正则项允许任意复杂的鉴别器(神经网络),表达力一下子拉满。

所以这一节是想说:作者挑了 JS 散度作为"距离尺子",因为它正好打通了 GAN 的训练机器。


3. GAN 化的对抗训练

算法示意(论文 Figure 1 占位)
Plate Nº II算法示意(论文 Figure 1 占位)

类比

教练让两个学生对抗:

  • A(鉴别器):努力分辨"这段录像是大厨拍的,还是学徒拍的"。看完后给 0-1 之间一个分数:1 代表"我笃定是大厨",0 代表"我笃定是学徒"。
  • B(学徒,也就是策略):努力让自己的录像被 A 误认成"大厨拍的"。

两人轮流升级:A 越敏锐,B 就要更像大厨;B 越像大厨,A 又要练出更刁钻的眼力。最后达到平衡时,A 已经分不清了——这意味着 B 的行为分布和大厨几乎一样

它在干什么

GAIL 把策略 π_θ 当生成器,再训练一个神经网络 D_w 当鉴别器。两者交替更新:

  1. 让 π_θ 在环境里跑一遍,收集一批 (状态, 动作) 对。
  2. 更新鉴别器 D_w:在专家数据上让 D 输出接近 0("是专家"),在 π_θ 的数据上让 D 输出接近 1("是学徒")。这就是普通的二分类训练。
  3. 更新策略 π_θ:把 log D_w(s, a) 当成"代价函数"——D 觉得这是学徒的行为,代价就高。用 TRPO(信任区域策略优化)按这个代价来更新策略。
  4. 回到第 1 步,反复迭代。

鉴别器(discriminator):一个二分类神经网络,输入 (s, a),输出 0-1 之间一个分数。

TRPO(Trust Region Policy Optimization):一种 RL 优化器。每次更新策略时限制"新策略和旧策略不能差太远",防止训练崩盘。这里只要把它当一个稳健的 RL 工具就行。

熵正则(entropy regularization)λH(π):在目标里加一个"鼓励策略保持随机"的项。防止策略一上来就把所有动作压成一个固定值——那就没法探索了。

关键公式翻译成人话

原文 (16):min_π max_D Eπ[log D] + EπE[log(1−D)] − λH(π)

人话:外层 π 在求"让总损失最小",内层 D 在求"让总损失最大"——两人对着干。 D 想看清谁是谁;π 想模糊这个边界。

为什么这步有用

  • 端到端:不再有"先恢复代价、再 RL"的两层套娃。鉴别器直接给策略提供学习信号。
  • 表达力强:D 可以是任意神经网络,所以能刻画极复杂的"什么叫像专家"。
  • 同时训练,互相制约:D 太强 π 学不到东西;D 太弱 π 学到的不像专家。两个一起进步,比单边训练稳得多。

所以这一节是想说:把策略和鉴别器架成 GAN 那种对抗结构,让"模仿专家"变成"骗过鉴别器"。


4. 高维控制任务上的实测

它在干什么

作者在 9 个 MuJoCo 物理仿真任务上测:从简单的 Cartpole(让一根杆子立起来)到 Humanoid(376 维状态、17 维动作的 3D 人形机器人走路)。

实验流程:

  1. 先用真实奖励函数 + TRPO 训出"专家策略"。
  2. 让专家在环境里跑几条轨迹,每条约 50 步,作为"录像"。
  3. 把录像交给 GAIL(以及三个对手:行为克隆、FEM、GTAL)。所有方法都不知道真实奖励,只能看录像。
  4. 训完后看:学到的策略在真实奖励上能拿多少分。

策略和鉴别器都用 2 层 100 单元的 tanh 神经网络,简单但够用。

为什么这步有用

  • 是第一次有人在 Humanoid 这种 376 维的怪兽任务上做模仿学习还能拿到接近专家的水平。
  • 证明对抗式的学习信号在高维连续控制上可行——这之后机器人界的模仿学习几乎都跟着这条路。

所以这一节是想说:作者把方法放在 9 个仿真物理任务上验证,最难的连人形机器人走路都能学会。


Generative Adversarial Imitation Learning — 方法示意:核心 pipeline
Plate Nº IIIGenerative Adversarial Imitation Learning — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你"哪条设计选择真的有效"。

数字 1:Humanoid 任务用 80 条轨迹达到 10200 分

  • 怎么算的:在 376 维状态、17 维动作的 3D 人形机器人上,给 GAIL 80 条专家轨迹(每条 50 步)。专家本身得 9575 分。
  • 对比:行为克隆只有 1397 分;FEM 是 5093 分。GAIL 反而比专家还高一点
  • 生活语言:在最难的任务上,看 80 段录像就学会走路,且走得比"教练"还稳。这在 2016 年是炸裂的——之前模仿学习从没在这么高维的任务上跑通过。

数字 2:HalfCheetah 25 条轨迹得 4840 分

  • 怎么算的:HalfCheetah(17 维状态、6 维动作的奔跑半人马)。专家 4463 分。
  • 对比:FEM 502 分、GTAL 869 分、行为克隆 3718 分。
  • 生活语言:GAIL 大幅领先所有对手。FEM 和 GTAL 因为受限于线性代价函数,复杂任务直接崩。

数字 3:Ant 任务上 FEM/GTAL 都崩盘(负分)

  • 怎么算的:Ant(111 维状态、8 维动作的四足蚂蚁)。
  • 对比:FEM −5148、GTAL −3271,比随机策略还差。GAIL 拿到 4132 分(专家 4228 分)。
  • 生活语言:旧式学徒学习不光不行,还会自己作死。GAIL 在同样数据上拿到接近专家的水平。

数字 4:Hopper 4 条轨迹达到 3614 分

  • 怎么算的:Hopper 是个单腿跳跃的机器人。专家 3571 分。
  • 对比:行为克隆 50 分(几乎学不到东西)。
  • 生活语言:在样本极少(只看 4 段录像)时,GAIL 已经超过专家水平;行为克隆几乎抓瞎。说明 GAIL 对专家数据效率极高。

数字 5:环境交互成本 ≈ 训练 TRPO 专家本身的成本

  • 怎么算的:作者承认 GAIL 和环境互动的次数和"从零用真奖励训 TRPO"差不多。
  • 对比:行为克隆完全不和环境交互。
  • 生活语言:GAIL 省的是专家数据(只要看几段录像),但训练时还要让机器人在仿真器里跑很多次。这是它的成本——不是想象中的"零成本模仿"。

数字 6:网络结构很简单(2 层 100 单元)

  • 怎么算的:策略和鉴别器都是 2 层全连接 + tanh 激活。
  • 生活语言:性能好不是靠堆模型大小,靠的是"对抗训练这套机制"。这跟 LLaVA 的故事很像——结构能简就简,重点在训练框架。

所以这一节是想说:数据告诉我们 GAIL 在高维任务上把所有对手按在地上摩擦,但代价是仿真交互很贵。


你应该懂的几个新词

模仿学习(Imitation Learning, IL):让 AI 看着专家示范学会做事的整套范式。GAIL 是其中一种。

行为克隆(Behavioral Cloning, BC):最朴素的 IL。把 (状态, 动作) 当监督学习样本。简单但脆。

逆强化学习(Inverse Reinforcement Learning, IRL):先反推专家心里的奖励函数,再用 RL 学策略。两步走,慢。

占用度量(occupancy measure):策略在状态-动作空间上的分布。模仿专家=匹配占用度量。

奖励 / 代价函数(reward / cost function):评价"在这个状态做这个动作有多好/多差"的数字函数。RL 的核心。GAIL 里用的是"代价"——值越大越坏。

GAN(Generative Adversarial Network):Goodfellow 2014 提出的对抗式生成模型。一个生成器、一个鉴别器,互相博弈。GAIL 是它在 RL/IL 领域的化身。

鉴别器(discriminator):二分类网络,分辨"专家 vs 学徒"。在 GAIL 中给策略提供学习信号,相当于"实时打分老师"。

JS 散度(Jensen-Shannon divergence):测两个分布有多不一样的指标。最小化 JS 散度 = 让两个分布几乎重合。

TRPO(Trust Region Policy Optimization):一种"小步慢走"式的 RL 优化器。每次只让策略变一点点,防止训练飞掉。GAIL 用它来更新策略。

熵 / 熵正则(entropy / entropy regularization):策略的"随机性程度"。在目标里加上 −H(π) 鼓励策略不要过早收敛到死板单选。

复合误差(compounding error):行为克隆的老毛病——预测有偏差→进入没见过的状态→再次偏差→雪球越滚越大。

学徒学习(Apprenticeship Learning):IRL 简化版,把代价限制成几个手工特征的线性组合。能跑但表达力差。

所以这一节是想说:上面这些词以后看 RL/IL 论文会反复见,先把它们和"教徒弟做菜"这套类比挂钩。


它有什么搞不定的

GAIL 不是万能的,论文自己也老实交代了几个翻车场景:

  • 环境交互巨贵:算法本身省的是专家数据,但训练时机器人要在仿真器里跑很多次(大概和"从零训 TRPO 专家"一样多)。所以真机器人上跑,是危险且烧钱的——后续工作(如 GAIL 改进版、AIRL、SQIL)都在想办法降低这个成本。
  • 看不到专家:和 IRL 一样,GAIL 训练时不能问专家"我现在该怎么动"——只能靠自己探索。如果允许专家在线指点(比如 DAgger),效率会高很多。
  • 对抗训练本身不稳:GAN 圈的老问题——鉴别器太强或太弱都会让生成器学不到东西。GAIL 同样继承这个毛病,调超参很麻烦。
  • 没有显式的奖励函数:训完模型后,你没法把"学到的奖励"导出来给别的任务用。这是和经典 IRL 的本质差异——GAIL 学的是策略,不是奖励。

所以这一节是想说:GAIL 在仿真交互成本、训练稳定性、可迁移性上都有硬伤,需要后续工作来补。


它和别的几篇是什么关系

  • 时间线:GAN(2014)→ GAIL(2016)→ AIRL / GAIfO / SQIL(2018-2019)→ Diffusion Policy(2023,imitation 的另一支)→ OpenVLA(2024,基础模型时代的 IL)。
  • 集合关系:把"模仿学习"想成一个大集合 IL。这个集合分两支:BC 派(直接监督学动作)和 IRL 派(先学奖励再 RL)。GAIL 开创了第三条路:对抗式直接学策略。这条路后来又分裂出 AIRL、GAIfO 等亲戚。
  • 因果关系
    • GAN 出现 导致 GAIL 这种思路成为可能——没有 GAN 就没人想到用鉴别器替代代价函数。
    • GAIL 出现 导致 后续机器人界对模仿学习信心大增,连 OpenVLA、Cosmos-Policy 这类基础模型时代的具身 AI 也大量用 IL 数据。
  • 对比关系
    • Cosmos-Policy 比:Cosmos-Policy 也是模仿学习路线,但是用扩散模型直接生成动作分布,不需要对抗鉴别器——是 GAIL 的"非对抗"后继。
    • OpenVLA 比:OpenVLA 用 token 化 + 大模型微调来做 IL,规模上和 GAIL 完全两个时代。但底层都是"看着专家轨迹学策略"。
    • SayCan 比:SayCan 用 LLM 做高层规划 + 学好的低层技能。那些低层技能很多就是用 GAIL 这类 IL 方法训出来的。

所以这一节是想说:GAIL 是模仿学习里"对抗派"的祖宗,10 年后机器人界的具身大模型路线(OpenVLA、Cosmos-Policy)的策略训练机制都能追溯到它。


我建议这样读这篇

零基础读者不要从头啃公式。建议这样走:

  1. 看 Abstract + Section 1 引言(5 分钟):明确"绕开 IRL 直接学策略"是这篇要解决的事。
  2. 跳到 Section 5 算法部分(15 分钟):直接读 Algorithm 1 伪代码——3 行循环就讲清楚了核心思路。这是论文最实用的部分。
  3. 回头读 Section 4 末尾的"对抗式正则"动机(10 分钟):理解为什么要用 ψ_GA 这个特殊形状的正则。
  4. 跳过 Section 3 的证明细节(除非你想自己推):知道"IRL 等价于占用度量匹配"这个结论就够了。
  5. 看 Figure 1 和 Table 3 实验数据(5 分钟):感受高维任务上 GAIL 比对手强多少。
  6. 附录 A 全跳:除非你打算自己证明,否则不需要看那些 saddle point、convex conjugate 推导。

读完这 5 步约 40 分钟,已经能在和别人讨论 IL 时报出 GAIL 的核心思路。

所以这一节是想说:核心精华在算法伪代码 + 实验表,公式细节和证明可以略读。


一些好奇心问答(FAQ)

Q1:GAIL 和 GAN 的对应关系到底有多紧?

非常紧。GAN 里:生成器造图、鉴别器辨真假;GAIL 里:策略造轨迹、鉴别器辨"专家 vs 学徒"。唯一的差异是:GAN 里生成器可以直接对鉴别器反向传播;GAIL 里策略产生的动作要在环境里"实际跑"才能拿到反馈,没法直接反向传播——所以中间得用 RL(具体是 TRPO)来桥接。

Q2:为什么不直接用 KL 散度?非要 JS?

KL 散度不对称且无界,对抗训练很容易爆炸。JS 散度对称、有界 (0 到 log 2),且能直接对应到 GAN 鉴别器的最优解。所以选 JS 是为了让 GAN 那套训练机器能直接搬过来

Q3:GAIL 要不要真实奖励?

不要。这是它的核心卖点——只要专家轨迹,不要任何标量奖励信号。但训练时要能在环境里跑(仿真器或真机)。

Q4:要多少专家数据?

少得惊人。论文显示 Hopper 任务上 4 条轨迹(每条 50 步=200 个 (s, a) 对)就能学到接近专家水平。Humanoid 用 80 条,对比下行为克隆要至少 240 条才勉强能用。

Q5:训练能跑多久?

每个任务 300-1500 次迭代,每次约 5000-50000 个环境交互。Humanoid 最贵:1500 次 × 50000 步 = 7500 万次仿真。在 2016 年的硬件上要好几天——但都是 CPU 上跑的物理仿真,2026 年用现代 GPU 仿真器(如 Isaac Sim)会快很多。

Q6:能不能用 GAIL 训真机器人?

理论上可以,但仿真交互成本是大问题——真机器人不能像仿真那样疯跑几千万步。后续工作(如 GAIL+BC 初始化、IRL 蒸馏、SQIL 把 GAIL 改成 off-policy)都在攻这个。

Q7:鉴别器太强了会怎样?

策略学不到东西,因为它收到的"代价信号"全是 1(鉴别器笃定它是学徒),梯度饱和。这是 GAN 通病。论文里靠 TRPO 的小步约束 + Adam 的自适应学习率来缓解,但仍需要调超参。

Q8:和 DAgger 比有啥区别?

DAgger 也是解决 BC 的复合误差问题,但它要专家在线提供反馈——学徒走到一个新状态,就问专家"你会怎么动",把答案补进训练集。GAIL 不需要这种在线访问,只要一份预先录好的专家轨迹。代价是 GAIL 自己探索效率不如有专家指点的 DAgger 高。

所以这一节是想说:GAIL 的关键定位——只要离线专家数据 + 仿真器,不要在线访问专家,不要真实奖励。


如果你想再深入

按"前传 → 同期 → 续作 → 衍生"四类排序:

  1. 前传:GAN(Goodfellow 2014) — 这篇必读。理解了 GAN 的对抗训练,再看 GAIL 就豁然开朗。论文:arxiv 1406.2661
  2. 前传:Maximum Entropy IRL(Ziebart 2008) — GAIL 的理论起点。讲清楚"为什么 IRL 等价于分布匹配"的最早工作。
  3. 续作:AIRL(Adversarial Inverse RL, Fu 2018) — GAIL 的"可迁移版"。AIRL 显式恢复一个奖励函数,可以在新环境里复用,弥补了 GAIL 不输出奖励的硬伤。
  4. 续作:SQIL(Soft Q Imitation Learning, Reddy 2019) — GAIL 的"简化版"。把 GAIL 的对抗训练换成"专家=奖励 1、自己=奖励 0"的固定二值奖励,效果接近但更稳。
  5. 续作:Cosmos-Policy(2025) — 现代具身 AI 的模仿学习。完全不用对抗,改用扩散模型直接生成动作分布。代表"非对抗 IL"在大模型时代的崛起。
  6. 衍生:OpenVLA(2024) — 把 IL 拉到基础模型尺度。底层逻辑还是 GAIL 那套"看专家轨迹学策略",但模型大了 1000 倍、数据多了 10000 倍。

所以这一节是想说:把 GAN + GAIL + AIRL 这三篇连起来读,就能看到对抗式 IL 的完整脉络;想看现代版直接跳 Cosmos-Policy 和 OpenVLA。


最后一个画面

想象 10 年后(也就是 2026 年)的具身 AI 训练场:一个 17 维动作的人形机器人在 Isaac Sim 里反复练习走路。它的奖励信号不是工程师手写的"摔倒 −10 / 走稳 +1",而是一个鉴别器神经网络在实时打分——每一步都比对:"这看起来像不像人类专家走路的样子?"

这个画面,2016 年由两位斯坦福研究生在 NeurIPS 论文里第一次画出来。10 年后它已经是机器人 IL 训练的标配模板。

所以最后一节是想说:GAIL 不只是一个算法,它把"对抗训练"作为模仿学习的范式钉进了这个领域——后续所有"看着专家学"的故事,都站在它的肩膀上。

引用本笔记 / Cite this note
BibTeX
@online{eai_gail_2026,
  title       = {(readable note) Generative Adversarial Imitation Learning},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2016 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/gail/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim