Generative Adversarial Imitation Learning
这是一份给"完全没接触过强化学习"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。
一句话讲什么(TL;DR)
让 AI 看大厨做菜的录像,再找个"挑刺老师"分辨它做得像不像,靠这种较劲学会做事,不用猜大厨心里的打分标准。
所以这一节是想说:这篇论文造了一个"看着专家学,少绕一道弯"的模仿学习算法。
这是个什么场景
想象你刚搬到一个陌生城市,想学本地老饕怎么挑早餐摊。你跟拍了他一周的视频:他先看牌子、再看人多不多、最后才点东西。现在轮到你自己出门了——你怎么照着学?
两个朴素思路:
- 抄作业:把录像每一帧切下来——"老饕看到这个招牌时,下一步是绕过去"——做成一张张"看到 X 就做 Y"的对照表。出门照搬。
- 猜老师心思:先反推"老饕心里的打分标准是什么"(他大概觉得"排队 5 人=好"、"招牌掉漆=差"),再用这个标准慢慢练自己挑摊。
机器人学走路也是一模一样的问题。给一段人类专家走路的录像,机器人要么"抄作业"——把每一帧的 (姿势, 动作) 拿去做监督学习;要么"猜心思"——先反推专家的评分函数。
抄作业看起来简单,但有个老毛病:录像里没拍过的姿势一旦出现,机器人立刻懵——它从没学过怎么"从摔倒的姿势爬起来",于是越走越偏,最后摔。术语叫复合误差(compounding error)。就像你照着视频学挑摊,结果某天看到一家视频里没出现过的招牌,你完全不知道该绕还是该上。
猜老师心思(这就是逆强化学习 IRL)能解决"录像没拍过"的问题,因为它学的是评分标准,不是具体动作。但代价是:每次更新这个评分标准,都要把机器人放进环境里反复练强化学习——算一次猜,要做完一整套强化学习,烧钱烧时间。
GAIL 想做的事:既要 IRL 那种"学评分标准"的鲁棒性,又不想真的跑两层循环。
所以这一节是想说:GAIL 想把"从专家学走路"这件事做得既稳又快。

之前的人怎么做的,为什么不够好
- 行为克隆(Behavioral Cloning):把专家轨迹拆成 (状态, 动作) 对,做监督学习。简单粗暴,但只在录像里见过的状态附近能用——一旦走偏,错误像滚雪球一样累计。要它学好,得喂海量数据。
- 逆强化学习(IRL):先反推一个"代价函数"(专家觉得啥行为好),然后基于这个代价用 RL 训出策略。问题是内层套着 RL,每次更新代价函数都得跑一遍完整 RL。在高维任务上慢到不可接受。
- 学徒学习(Apprenticeship Learning):IRL 的简化版,假设代价函数是"几个手工特征的线性组合"。能跑大任务,但特征要人工设计,复杂行为根本套不进去——比如人类走路涉及几百个肌肉关节,你给我用 5 个特征写代价函数?
- 共同毛病:"先恢复代价、再求策略"这个两步走是绕路。学习者最终要的是怎么动,不是"专家心里怎么想"。绕了一圈才回到动作上,又慢又容易丢信息。
所以这一节是想说:之前要么数据量小就垮,要么算得太慢,要么必须人工设计特征——没有哪条路又快又通用。
这篇论文的新想法
别费劲反推代价函数了。直接让 AI 和一个鉴别器对抗:鉴别器努力分辨"这是专家做的还是 AI 做的",AI 努力骗过鉴别器——学到最后,AI 的行为分布和专家几乎一样。
这个套路从 GAN(生成对抗网络)借来的:GAN 让生成器骗过鉴别器去合成以假乱真的图片;GAIL 让策略骗过鉴别器去合成以假乱真的"行为轨迹"。
所以这一节是想说:核心创新是把"模仿学习"翻译成"GAN",用对抗训练直接学策略,跳过 IRL 那一步。
它分几步做的(方法)
像学做一道菜:先想清楚"什么叫做得像大厨",再挑一把"尺子"量你和大厨差多少,然后请一位挑刺老师天天打分,最后把整套办法搬到 9 个真实任务上验证。整篇论文做了这 4 件事:定义"什么叫像专家"、证明 IRL 其实是分布匹配、设计 GAN 式的目标函数、给出落地算法。
1. 把"模仿专家"翻译成"匹配分布"
类比
你想模仿一位大厨。怎么算"模仿成功"?不是只学他切菜动作——是要学他整个做菜过程的全套路:他多久翻一次锅、什么时候加盐、油温多高时下肉。一句话,**他在厨房里"出现的全套场景统计"**和你出现的统计要长得一模一样。
GAIL 把这个"全套场景统计"叫占用度量(occupancy measure)。
占用度量(occupancy measure)ρπ(s, a):跟着策略 π 在世界里走一遍,"状态 s + 动作 a"这种组合出现的频率分布。可以理解成"这个策略一辈子里在每种 (情境, 反应) 上花了多少时间"。
状态(state)s:当前世界的样子。比如机器人此刻的关节角度、速度。
动作(action)a:策略对当前状态的反应。比如"左膝伸 5 度"。
策略(policy)π(a|s):一张"看到 s 我会怎么动 a"的概率表。
它在干什么
- 数学上证明(Proposition 3.2):IRL 看似在找代价函数,实际等价于在找一个策略,让它的占用度量贴近专家的占用度量。
- 换句话说,IRL 兜了一大圈,本质就在做一件事:让两个分布对齐。
为什么这步有用
- 有了这个等价性,问题被改写成:直接最小化"我和专家两个占用度量之间的距离"——不需要中间那个代价函数。
- 这一段是整篇论文的理论地基。后面所有算法都建在它之上。
所以这一节是想说:作者先证明"模仿专家"=="匹配占用度量",把绕弯路变成了直奔主题。
2. 选择一种"距离":Jensen-Shannon 散度
类比
两瓶饮料怎么比"像不像"?可以闻味道、可以化验成分、可以测密度。换不同的"测法"会得到不同的"距离值"。
GAIL 也要选一种测法,来量"我的占用度量和专家的占用度量"差多少。
散度(divergence):两个概率分布之间的"距离"——但不一定是几何上的距离,是各种衡量它们"不一样程度"的数值。
JS 散度(Jensen-Shannon divergence):一种对称的、有上界的散度。两个分布完全一样时是 0,完全不重合时是 log 2。GAN 论文证明:让生成器和鉴别器对抗到极致时,最优解恰好对应让 JS 散度最小。
KL 散度(Kullback–Leibler divergence):另一种常见散度。不对称(A 到 B 和 B 到 A 不一样),数值可以无限大。
正则项(regularizer)ψ:一种"惩罚函数",加在优化目标里防止解跑偏。论文核心创新是设计了一个新的正则项 ψ_GA,使得 ψ_GA 的共轭恰好对应 JS 散度。
它在干什么
- 选一个特殊形状的代价正则项 ψ_GA(公式 13),让最终的目标函数(公式 15)等价于"最小化 JS 散度 + 鼓励策略保持随机性"。
- 这个 ψ_GA 的厉害之处:它不像旧的"线性特征"那样把代价函数限制成几个固定形状的组合,而是允许任何形状的代价函数(只要保持负值)。
关键公式翻译成人话
原文 (15):min_π D_JS(ρπ, ρπE) − λH(π)
人话:"最小化 (我和专家的占用度量差距) 减去 (我自己的随机性奖励)"。前一项让你像专家,后一项防你过早把所有动作都压成一个死板的选择。
为什么这步有用
- 选 JS 散度不是巧合:GAN 论文已经证明 GAN 鉴别器训到极致时,等价于在测 JS 散度。所以一旦选了 JS,和 GAN 的连接就立起来了——可以照搬 GAN 的训练机器。
- 旧的学徒学习用"线性特征"刻出来的代价函数表达力有限;这套新正则项允许任意复杂的鉴别器(神经网络),表达力一下子拉满。
所以这一节是想说:作者挑了 JS 散度作为"距离尺子",因为它正好打通了 GAN 的训练机器。
3. GAN 化的对抗训练

类比
教练让两个学生对抗:
- A(鉴别器):努力分辨"这段录像是大厨拍的,还是学徒拍的"。看完后给 0-1 之间一个分数:1 代表"我笃定是大厨",0 代表"我笃定是学徒"。
- B(学徒,也就是策略):努力让自己的录像被 A 误认成"大厨拍的"。
两人轮流升级:A 越敏锐,B 就要更像大厨;B 越像大厨,A 又要练出更刁钻的眼力。最后达到平衡时,A 已经分不清了——这意味着 B 的行为分布和大厨几乎一样。
它在干什么
GAIL 把策略 π_θ 当生成器,再训练一个神经网络 D_w 当鉴别器。两者交替更新:
- 让 π_θ 在环境里跑一遍,收集一批 (状态, 动作) 对。
- 更新鉴别器 D_w:在专家数据上让 D 输出接近 0("是专家"),在 π_θ 的数据上让 D 输出接近 1("是学徒")。这就是普通的二分类训练。
- 更新策略 π_θ:把 log D_w(s, a) 当成"代价函数"——D 觉得这是学徒的行为,代价就高。用 TRPO(信任区域策略优化)按这个代价来更新策略。
- 回到第 1 步,反复迭代。
鉴别器(discriminator):一个二分类神经网络,输入 (s, a),输出 0-1 之间一个分数。
TRPO(Trust Region Policy Optimization):一种 RL 优化器。每次更新策略时限制"新策略和旧策略不能差太远",防止训练崩盘。这里只要把它当一个稳健的 RL 工具就行。
熵正则(entropy regularization)λH(π):在目标里加一个"鼓励策略保持随机"的项。防止策略一上来就把所有动作压成一个固定值——那就没法探索了。
关键公式翻译成人话
原文 (16):min_π max_D Eπ[log D] + EπE[log(1−D)] − λH(π)
人话:外层 π 在求"让总损失最小",内层 D 在求"让总损失最大"——两人对着干。 D 想看清谁是谁;π 想模糊这个边界。
为什么这步有用
- 端到端:不再有"先恢复代价、再 RL"的两层套娃。鉴别器直接给策略提供学习信号。
- 表达力强:D 可以是任意神经网络,所以能刻画极复杂的"什么叫像专家"。
- 同时训练,互相制约:D 太强 π 学不到东西;D 太弱 π 学到的不像专家。两个一起进步,比单边训练稳得多。
所以这一节是想说:把策略和鉴别器架成 GAN 那种对抗结构,让"模仿专家"变成"骗过鉴别器"。
4. 高维控制任务上的实测
它在干什么
作者在 9 个 MuJoCo 物理仿真任务上测:从简单的 Cartpole(让一根杆子立起来)到 Humanoid(376 维状态、17 维动作的 3D 人形机器人走路)。
实验流程:
- 先用真实奖励函数 + TRPO 训出"专家策略"。
- 让专家在环境里跑几条轨迹,每条约 50 步,作为"录像"。
- 把录像交给 GAIL(以及三个对手:行为克隆、FEM、GTAL)。所有方法都不知道真实奖励,只能看录像。
- 训完后看:学到的策略在真实奖励上能拿多少分。
策略和鉴别器都用 2 层 100 单元的 tanh 神经网络,简单但够用。
为什么这步有用
- 是第一次有人在 Humanoid 这种 376 维的怪兽任务上做模仿学习还能拿到接近专家的水平。
- 证明对抗式的学习信号在高维连续控制上可行——这之后机器人界的模仿学习几乎都跟着这条路。
所以这一节是想说:作者把方法放在 9 个仿真物理任务上验证,最难的连人形机器人走路都能学会。

关键数字(What works)
数字本身不重要,重要的是它们告诉你"哪条设计选择真的有效"。
数字 1:Humanoid 任务用 80 条轨迹达到 10200 分
- 怎么算的:在 376 维状态、17 维动作的 3D 人形机器人上,给 GAIL 80 条专家轨迹(每条 50 步)。专家本身得 9575 分。
- 对比:行为克隆只有 1397 分;FEM 是 5093 分。GAIL 反而比专家还高一点。
- 生活语言:在最难的任务上,看 80 段录像就学会走路,且走得比"教练"还稳。这在 2016 年是炸裂的——之前模仿学习从没在这么高维的任务上跑通过。
数字 2:HalfCheetah 25 条轨迹得 4840 分
- 怎么算的:HalfCheetah(17 维状态、6 维动作的奔跑半人马)。专家 4463 分。
- 对比:FEM 502 分、GTAL 869 分、行为克隆 3718 分。
- 生活语言:GAIL 大幅领先所有对手。FEM 和 GTAL 因为受限于线性代价函数,复杂任务直接崩。
数字 3:Ant 任务上 FEM/GTAL 都崩盘(负分)
- 怎么算的:Ant(111 维状态、8 维动作的四足蚂蚁)。
- 对比:FEM −5148、GTAL −3271,比随机策略还差。GAIL 拿到 4132 分(专家 4228 分)。
- 生活语言:旧式学徒学习不光不行,还会自己作死。GAIL 在同样数据上拿到接近专家的水平。
数字 4:Hopper 4 条轨迹达到 3614 分
- 怎么算的:Hopper 是个单腿跳跃的机器人。专家 3571 分。
- 对比:行为克隆 50 分(几乎学不到东西)。
- 生活语言:在样本极少(只看 4 段录像)时,GAIL 已经超过专家水平;行为克隆几乎抓瞎。说明 GAIL 对专家数据效率极高。
数字 5:环境交互成本 ≈ 训练 TRPO 专家本身的成本
- 怎么算的:作者承认 GAIL 和环境互动的次数和"从零用真奖励训 TRPO"差不多。
- 对比:行为克隆完全不和环境交互。
- 生活语言:GAIL 省的是专家数据(只要看几段录像),但训练时还要让机器人在仿真器里跑很多次。这是它的成本——不是想象中的"零成本模仿"。
数字 6:网络结构很简单(2 层 100 单元)
- 怎么算的:策略和鉴别器都是 2 层全连接 + tanh 激活。
- 生活语言:性能好不是靠堆模型大小,靠的是"对抗训练这套机制"。这跟 LLaVA 的故事很像——结构能简就简,重点在训练框架。
所以这一节是想说:数据告诉我们 GAIL 在高维任务上把所有对手按在地上摩擦,但代价是仿真交互很贵。
你应该懂的几个新词
模仿学习(Imitation Learning, IL):让 AI 看着专家示范学会做事的整套范式。GAIL 是其中一种。
行为克隆(Behavioral Cloning, BC):最朴素的 IL。把 (状态, 动作) 当监督学习样本。简单但脆。
逆强化学习(Inverse Reinforcement Learning, IRL):先反推专家心里的奖励函数,再用 RL 学策略。两步走,慢。
占用度量(occupancy measure):策略在状态-动作空间上的分布。模仿专家=匹配占用度量。
奖励 / 代价函数(reward / cost function):评价"在这个状态做这个动作有多好/多差"的数字函数。RL 的核心。GAIL 里用的是"代价"——值越大越坏。
GAN(Generative Adversarial Network):Goodfellow 2014 提出的对抗式生成模型。一个生成器、一个鉴别器,互相博弈。GAIL 是它在 RL/IL 领域的化身。
鉴别器(discriminator):二分类网络,分辨"专家 vs 学徒"。在 GAIL 中给策略提供学习信号,相当于"实时打分老师"。
JS 散度(Jensen-Shannon divergence):测两个分布有多不一样的指标。最小化 JS 散度 = 让两个分布几乎重合。
TRPO(Trust Region Policy Optimization):一种"小步慢走"式的 RL 优化器。每次只让策略变一点点,防止训练飞掉。GAIL 用它来更新策略。
熵 / 熵正则(entropy / entropy regularization):策略的"随机性程度"。在目标里加上 −H(π) 鼓励策略不要过早收敛到死板单选。
复合误差(compounding error):行为克隆的老毛病——预测有偏差→进入没见过的状态→再次偏差→雪球越滚越大。
学徒学习(Apprenticeship Learning):IRL 简化版,把代价限制成几个手工特征的线性组合。能跑但表达力差。
所以这一节是想说:上面这些词以后看 RL/IL 论文会反复见,先把它们和"教徒弟做菜"这套类比挂钩。
它有什么搞不定的
GAIL 不是万能的,论文自己也老实交代了几个翻车场景:
- 环境交互巨贵:算法本身省的是专家数据,但训练时机器人要在仿真器里跑很多次(大概和"从零训 TRPO 专家"一样多)。所以真机器人上跑,是危险且烧钱的——后续工作(如 GAIL 改进版、AIRL、SQIL)都在想办法降低这个成本。
- 看不到专家:和 IRL 一样,GAIL 训练时不能问专家"我现在该怎么动"——只能靠自己探索。如果允许专家在线指点(比如 DAgger),效率会高很多。
- 对抗训练本身不稳:GAN 圈的老问题——鉴别器太强或太弱都会让生成器学不到东西。GAIL 同样继承这个毛病,调超参很麻烦。
- 没有显式的奖励函数:训完模型后,你没法把"学到的奖励"导出来给别的任务用。这是和经典 IRL 的本质差异——GAIL 学的是策略,不是奖励。
所以这一节是想说:GAIL 在仿真交互成本、训练稳定性、可迁移性上都有硬伤,需要后续工作来补。
它和别的几篇是什么关系
- 时间线:GAN(2014)→ GAIL(2016)→ AIRL / GAIfO / SQIL(2018-2019)→ Diffusion Policy(2023,imitation 的另一支)→ OpenVLA(2024,基础模型时代的 IL)。
- 集合关系:把"模仿学习"想成一个大集合 IL。这个集合分两支:BC 派(直接监督学动作)和 IRL 派(先学奖励再 RL)。GAIL 开创了第三条路:对抗式直接学策略。这条路后来又分裂出 AIRL、GAIfO 等亲戚。
- 因果关系:
- GAN 出现 导致 GAIL 这种思路成为可能——没有 GAN 就没人想到用鉴别器替代代价函数。
- GAIL 出现 导致 后续机器人界对模仿学习信心大增,连 OpenVLA、Cosmos-Policy 这类基础模型时代的具身 AI 也大量用 IL 数据。
- 对比关系:
- 和 Cosmos-Policy 比:Cosmos-Policy 也是模仿学习路线,但是用扩散模型直接生成动作分布,不需要对抗鉴别器——是 GAIL 的"非对抗"后继。
- 和 OpenVLA 比:OpenVLA 用 token 化 + 大模型微调来做 IL,规模上和 GAIL 完全两个时代。但底层都是"看着专家轨迹学策略"。
- 和 SayCan 比:SayCan 用 LLM 做高层规划 + 学好的低层技能。那些低层技能很多就是用 GAIL 这类 IL 方法训出来的。
所以这一节是想说:GAIL 是模仿学习里"对抗派"的祖宗,10 年后机器人界的具身大模型路线(OpenVLA、Cosmos-Policy)的策略训练机制都能追溯到它。
我建议这样读这篇
零基础读者不要从头啃公式。建议这样走:
- 看 Abstract + Section 1 引言(5 分钟):明确"绕开 IRL 直接学策略"是这篇要解决的事。
- 跳到 Section 5 算法部分(15 分钟):直接读 Algorithm 1 伪代码——3 行循环就讲清楚了核心思路。这是论文最实用的部分。
- 回头读 Section 4 末尾的"对抗式正则"动机(10 分钟):理解为什么要用 ψ_GA 这个特殊形状的正则。
- 跳过 Section 3 的证明细节(除非你想自己推):知道"IRL 等价于占用度量匹配"这个结论就够了。
- 看 Figure 1 和 Table 3 实验数据(5 分钟):感受高维任务上 GAIL 比对手强多少。
- 附录 A 全跳:除非你打算自己证明,否则不需要看那些 saddle point、convex conjugate 推导。
读完这 5 步约 40 分钟,已经能在和别人讨论 IL 时报出 GAIL 的核心思路。
所以这一节是想说:核心精华在算法伪代码 + 实验表,公式细节和证明可以略读。
一些好奇心问答(FAQ)
Q1:GAIL 和 GAN 的对应关系到底有多紧?
非常紧。GAN 里:生成器造图、鉴别器辨真假;GAIL 里:策略造轨迹、鉴别器辨"专家 vs 学徒"。唯一的差异是:GAN 里生成器可以直接对鉴别器反向传播;GAIL 里策略产生的动作要在环境里"实际跑"才能拿到反馈,没法直接反向传播——所以中间得用 RL(具体是 TRPO)来桥接。
Q2:为什么不直接用 KL 散度?非要 JS?
KL 散度不对称且无界,对抗训练很容易爆炸。JS 散度对称、有界 (0 到 log 2),且能直接对应到 GAN 鉴别器的最优解。所以选 JS 是为了让 GAN 那套训练机器能直接搬过来。
Q3:GAIL 要不要真实奖励?
不要。这是它的核心卖点——只要专家轨迹,不要任何标量奖励信号。但训练时要能在环境里跑(仿真器或真机)。
Q4:要多少专家数据?
少得惊人。论文显示 Hopper 任务上 4 条轨迹(每条 50 步=200 个 (s, a) 对)就能学到接近专家水平。Humanoid 用 80 条,对比下行为克隆要至少 240 条才勉强能用。
Q5:训练能跑多久?
每个任务 300-1500 次迭代,每次约 5000-50000 个环境交互。Humanoid 最贵:1500 次 × 50000 步 = 7500 万次仿真。在 2016 年的硬件上要好几天——但都是 CPU 上跑的物理仿真,2026 年用现代 GPU 仿真器(如 Isaac Sim)会快很多。
Q6:能不能用 GAIL 训真机器人?
理论上可以,但仿真交互成本是大问题——真机器人不能像仿真那样疯跑几千万步。后续工作(如 GAIL+BC 初始化、IRL 蒸馏、SQIL 把 GAIL 改成 off-policy)都在攻这个。
Q7:鉴别器太强了会怎样?
策略学不到东西,因为它收到的"代价信号"全是 1(鉴别器笃定它是学徒),梯度饱和。这是 GAN 通病。论文里靠 TRPO 的小步约束 + Adam 的自适应学习率来缓解,但仍需要调超参。
Q8:和 DAgger 比有啥区别?
DAgger 也是解决 BC 的复合误差问题,但它要专家在线提供反馈——学徒走到一个新状态,就问专家"你会怎么动",把答案补进训练集。GAIL 不需要这种在线访问,只要一份预先录好的专家轨迹。代价是 GAIL 自己探索效率不如有专家指点的 DAgger 高。
所以这一节是想说:GAIL 的关键定位——只要离线专家数据 + 仿真器,不要在线访问专家,不要真实奖励。
如果你想再深入
按"前传 → 同期 → 续作 → 衍生"四类排序:
- 前传:GAN(Goodfellow 2014) — 这篇必读。理解了 GAN 的对抗训练,再看 GAIL 就豁然开朗。论文:arxiv 1406.2661。
- 前传:Maximum Entropy IRL(Ziebart 2008) — GAIL 的理论起点。讲清楚"为什么 IRL 等价于分布匹配"的最早工作。
- 续作:AIRL(Adversarial Inverse RL, Fu 2018) — GAIL 的"可迁移版"。AIRL 显式恢复一个奖励函数,可以在新环境里复用,弥补了 GAIL 不输出奖励的硬伤。
- 续作:SQIL(Soft Q Imitation Learning, Reddy 2019) — GAIL 的"简化版"。把 GAIL 的对抗训练换成"专家=奖励 1、自己=奖励 0"的固定二值奖励,效果接近但更稳。
- 续作:Cosmos-Policy(2025) — 现代具身 AI 的模仿学习。完全不用对抗,改用扩散模型直接生成动作分布。代表"非对抗 IL"在大模型时代的崛起。
- 衍生:OpenVLA(2024) — 把 IL 拉到基础模型尺度。底层逻辑还是 GAIL 那套"看专家轨迹学策略",但模型大了 1000 倍、数据多了 10000 倍。
所以这一节是想说:把 GAN + GAIL + AIRL 这三篇连起来读,就能看到对抗式 IL 的完整脉络;想看现代版直接跳 Cosmos-Policy 和 OpenVLA。
最后一个画面
想象 10 年后(也就是 2026 年)的具身 AI 训练场:一个 17 维动作的人形机器人在 Isaac Sim 里反复练习走路。它的奖励信号不是工程师手写的"摔倒 −10 / 走稳 +1",而是一个鉴别器神经网络在实时打分——每一步都比对:"这看起来像不像人类专家走路的样子?"
这个画面,2016 年由两位斯坦福研究生在 NeurIPS 论文里第一次画出来。10 年后它已经是机器人 IL 训练的标配模板。
所以最后一节是想说:GAIL 不只是一个算法,它把"对抗训练"作为模仿学习的范式钉进了这个领域——后续所有"看着专家学"的故事,都站在它的肩膀上。
◼
引用本笔记 / Cite this note
@online{eai_gail_2026,
title = {(readable note) Generative Adversarial Imitation Learning},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2016 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/gail/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim