Imitation Learning · Plate Nº 50

Generative Adversarial Imitation Learning

18 min read · 6398 字 · ⭐⭐⭐⭐ · auto 摘要

#RL #imitation

这是一份给"完全没接触过强化学习"的读者看的精读笔记。语言尽量像聊天，公式全部翻译成人话。

一句话讲什么（TL;DR）

让 AI 看大厨做菜的录像，再找个"挑刺老师"分辨它做得像不像，靠这种较劲学会做事，不用猜大厨心里的打分标准。

所以这一节是想说：这篇论文造了一个"看着专家学，少绕一道弯"的模仿学习算法。

这是个什么场景

想象你刚搬到一个陌生城市，想学本地老饕怎么挑早餐摊。你跟拍了他一周的视频：他先看牌子、再看人多不多、最后才点东西。现在轮到你自己出门了——你怎么照着学？

两个朴素思路：

抄作业：把录像每一帧切下来——"老饕看到这个招牌时，下一步是绕过去"——做成一张张"看到 X 就做 Y"的对照表。出门照搬。
猜老师心思：先反推"老饕心里的打分标准是什么"（他大概觉得"排队 5 人=好"、"招牌掉漆=差"），再用这个标准慢慢练自己挑摊。

机器人学走路也是一模一样的问题。给一段人类专家走路的录像，机器人要么"抄作业"——把每一帧的 (姿势, 动作) 拿去做监督学习；要么"猜心思"——先反推专家的评分函数。

抄作业看起来简单，但有个老毛病：录像里没拍过的姿势一旦出现，机器人立刻懵——它从没学过怎么"从摔倒的姿势爬起来"，于是越走越偏，最后摔。术语叫复合误差（compounding error）。就像你照着视频学挑摊，结果某天看到一家视频里没出现过的招牌，你完全不知道该绕还是该上。

猜老师心思（这就是逆强化学习 IRL）能解决"录像没拍过"的问题，因为它学的是评分标准，不是具体动作。但代价是：每次更新这个评分标准，都要把机器人放进环境里反复练强化学习——算一次猜，要做完一整套强化学习，烧钱烧时间。

GAIL 想做的事：既要 IRL 那种"学评分标准"的鲁棒性，又不想真的跑两层循环。

所以这一节是想说：GAIL 想把"从专家学走路"这件事做得既稳又快。

Plate Nº IGenerative Adversarial Imitation Learning — 场景示意：这论文要解决的现实问题

之前的人怎么做的，为什么不够好

行为克隆（Behavioral Cloning）：把专家轨迹拆成 (状态, 动作) 对，做监督学习。简单粗暴，但只在录像里见过的状态附近能用——一旦走偏，错误像滚雪球一样累计。要它学好，得喂海量数据。
逆强化学习（IRL）：先反推一个"代价函数"（专家觉得啥行为好），然后基于这个代价用 RL 训出策略。问题是内层套着 RL，每次更新代价函数都得跑一遍完整 RL。在高维任务上慢到不可接受。
学徒学习（Apprenticeship Learning）：IRL 的简化版，假设代价函数是"几个手工特征的线性组合"。能跑大任务，但特征要人工设计，复杂行为根本套不进去——比如人类走路涉及几百个肌肉关节，你给我用 5 个特征写代价函数？
共同毛病："先恢复代价、再求策略"这个两步走是绕路。学习者最终要的是怎么动，不是"专家心里怎么想"。绕了一圈才回到动作上，又慢又容易丢信息。

所以这一节是想说：之前要么数据量小就垮，要么算得太慢，要么必须人工设计特征——没有哪条路又快又通用。

这篇论文的新想法

别费劲反推代价函数了。直接让 AI 和一个鉴别器对抗：鉴别器努力分辨"这是专家做的还是 AI 做的"，AI 努力骗过鉴别器——学到最后，AI 的行为分布和专家几乎一样。

这个套路从 GAN（生成对抗网络）借来的：GAN 让生成器骗过鉴别器去合成以假乱真的图片；GAIL 让策略骗过鉴别器去合成以假乱真的"行为轨迹"。

所以这一节是想说：核心创新是把"模仿学习"翻译成"GAN"，用对抗训练直接学策略，跳过 IRL 那一步。

它分几步做的（方法）

像学做一道菜：先想清楚"什么叫做得像大厨"，再挑一把"尺子"量你和大厨差多少，然后请一位挑刺老师天天打分，最后把整套办法搬到 9 个真实任务上验证。整篇论文做了这 4 件事：定义"什么叫像专家"、证明 IRL 其实是分布匹配、设计 GAN 式的目标函数、给出落地算法。

1. 把"模仿专家"翻译成"匹配分布"

类比

你想模仿一位大厨。怎么算"模仿成功"？不是只学他切菜动作——是要学他整个做菜过程的全套路：他多久翻一次锅、什么时候加盐、油温多高时下肉。一句话，**他在厨房里"出现的全套场景统计"**和你出现的统计要长得一模一样。

GAIL 把这个"全套场景统计"叫占用度量（occupancy measure）。

占用度量（occupancy measure）ρπ(s, a)：跟着策略 π 在世界里走一遍，"状态 s + 动作 a"这种组合出现的频率分布。可以理解成"这个策略一辈子里在每种 (情境, 反应) 上花了多少时间"。

状态（state）s：当前世界的样子。比如机器人此刻的关节角度、速度。

动作（action）a：策略对当前状态的反应。比如"左膝伸 5 度"。

策略（policy）π(a|s)：一张"看到 s 我会怎么动 a"的概率表。

它在干什么

数学上证明（Proposition 3.2）：IRL 看似在找代价函数，实际等价于在找一个策略，让它的占用度量贴近专家的占用度量。
换句话说，IRL 兜了一大圈，本质就在做一件事：让两个分布对齐。

为什么这步有用

有了这个等价性，问题被改写成：直接最小化"我和专家两个占用度量之间的距离"——不需要中间那个代价函数。
这一段是整篇论文的理论地基。后面所有算法都建在它之上。

所以这一节是想说：作者先证明"模仿专家"=="匹配占用度量"，把绕弯路变成了直奔主题。

2. 选择一种"距离"：Jensen-Shannon 散度

类比

两瓶饮料怎么比"像不像"？可以闻味道、可以化验成分、可以测密度。换不同的"测法"会得到不同的"距离值"。

GAIL 也要选一种测法，来量"我的占用度量和专家的占用度量"差多少。

散度（divergence）：两个概率分布之间的"距离"——但不一定是几何上的距离，是各种衡量它们"不一样程度"的数值。

JS 散度（Jensen-Shannon divergence）：一种对称的、有上界的散度。两个分布完全一样时是 0，完全不重合时是 log 2。GAN 论文证明：让生成器和鉴别器对抗到极致时，最优解恰好对应让 JS 散度最小。

KL 散度（Kullback–Leibler divergence）：另一种常见散度。不对称（A 到 B 和 B 到 A 不一样），数值可以无限大。

正则项（regularizer）ψ：一种"惩罚函数"，加在优化目标里防止解跑偏。论文核心创新是设计了一个新的正则项 ψ_GA，使得 ψ_GA 的共轭恰好对应 JS 散度。

它在干什么

选一个特殊形状的代价正则项 ψ_GA（公式 13），让最终的目标函数（公式 15）等价于"最小化 JS 散度 + 鼓励策略保持随机性"。
这个 ψ_GA 的厉害之处：它不像旧的"线性特征"那样把代价函数限制成几个固定形状的组合，而是允许任何形状的代价函数（只要保持负值）。

关键公式翻译成人话

原文 (15)：min_π D_JS(ρπ, ρπE) − λH(π)

人话："最小化 (我和专家的占用度量差距) 减去 (我自己的随机性奖励)"。前一项让你像专家，后一项防你过早把所有动作都压成一个死板的选择。

为什么这步有用

选 JS 散度不是巧合：GAN 论文已经证明 GAN 鉴别器训到极致时，等价于在测 JS 散度。所以一旦选了 JS，和 GAN 的连接就立起来了——可以照搬 GAN 的训练机器。
旧的学徒学习用"线性特征"刻出来的代价函数表达力有限；这套新正则项允许任意复杂的鉴别器（神经网络），表达力一下子拉满。

所以这一节是想说：作者挑了 JS 散度作为"距离尺子"，因为它正好打通了 GAN 的训练机器。

3. GAN 化的对抗训练

类比

教练让两个学生对抗：

A（鉴别器）：努力分辨"这段录像是大厨拍的，还是学徒拍的"。看完后给 0-1 之间一个分数：1 代表"我笃定是大厨"，0 代表"我笃定是学徒"。
B（学徒，也就是策略）：努力让自己的录像被 A 误认成"大厨拍的"。

两人轮流升级：A 越敏锐，B 就要更像大厨；B 越像大厨，A 又要练出更刁钻的眼力。最后达到平衡时，A 已经分不清了——这意味着 B 的行为分布和大厨几乎一样。

它在干什么

GAIL 把策略 π_θ 当生成器，再训练一个神经网络 D_w 当鉴别器。两者交替更新：

让 π_θ 在环境里跑一遍，收集一批 (状态, 动作) 对。
更新鉴别器 D_w：在专家数据上让 D 输出接近 0（"是专家"），在 π_θ 的数据上让 D 输出接近 1（"是学徒"）。这就是普通的二分类训练。
更新策略 π_θ：把 log D_w(s, a) 当成"代价函数"——D 觉得这是学徒的行为，代价就高。用 TRPO（信任区域策略优化）按这个代价来更新策略。
回到第 1 步，反复迭代。

鉴别器（discriminator）：一个二分类神经网络，输入 (s, a)，输出 0-1 之间一个分数。

TRPO（Trust Region Policy Optimization）：一种 RL 优化器。每次更新策略时限制"新策略和旧策略不能差太远"，防止训练崩盘。这里只要把它当一个稳健的 RL 工具就行。

熵正则（entropy regularization）λH(π)：在目标里加一个"鼓励策略保持随机"的项。防止策略一上来就把所有动作压成一个固定值——那就没法探索了。

关键公式翻译成人话

原文 (16)：min_π max_D Eπ[log D] + EπE[log(1−D)] − λH(π)

人话：外层 π 在求"让总损失最小"，内层 D 在求"让总损失最大"——两人对着干。 D 想看清谁是谁；π 想模糊这个边界。

为什么这步有用

端到端：不再有"先恢复代价、再 RL"的两层套娃。鉴别器直接给策略提供学习信号。
表达力强：D 可以是任意神经网络，所以能刻画极复杂的"什么叫像专家"。
同时训练，互相制约：D 太强 π 学不到东西；D 太弱 π 学到的不像专家。两个一起进步，比单边训练稳得多。

所以这一节是想说：把策略和鉴别器架成 GAN 那种对抗结构，让"模仿专家"变成"骗过鉴别器"。

4. 高维控制任务上的实测

它在干什么

作者在 9 个 MuJoCo 物理仿真任务上测：从简单的 Cartpole（让一根杆子立起来）到 Humanoid（376 维状态、17 维动作的 3D 人形机器人走路）。

实验流程：

先用真实奖励函数 + TRPO 训出"专家策略"。
让专家在环境里跑几条轨迹，每条约 50 步，作为"录像"。
把录像交给 GAIL（以及三个对手：行为克隆、FEM、GTAL）。所有方法都不知道真实奖励，只能看录像。
训完后看：学到的策略在真实奖励上能拿多少分。

策略和鉴别器都用 2 层 100 单元的 tanh 神经网络，简单但够用。

为什么这步有用

是第一次有人在 Humanoid 这种 376 维的怪兽任务上做模仿学习还能拿到接近专家的水平。
证明对抗式的学习信号在高维连续控制上可行——这之后机器人界的模仿学习几乎都跟着这条路。

所以这一节是想说：作者把方法放在 9 个仿真物理任务上验证，最难的连人形机器人走路都能学会。

Plate Nº IIIGenerative Adversarial Imitation Learning — 方法示意：核心 pipeline

关键数字（What works）

数字本身不重要，重要的是它们告诉你"哪条设计选择真的有效"。

数字 1：Humanoid 任务用 80 条轨迹达到 10200 分

怎么算的：在 376 维状态、17 维动作的 3D 人形机器人上，给 GAIL 80 条专家轨迹（每条 50 步）。专家本身得 9575 分。
对比：行为克隆只有 1397 分；FEM 是 5093 分。GAIL 反而比专家还高一点。
生活语言：在最难的任务上，看 80 段录像就学会走路，且走得比"教练"还稳。这在 2016 年是炸裂的——之前模仿学习从没在这么高维的任务上跑通过。

数字 2：HalfCheetah 25 条轨迹得 4840 分

怎么算的：HalfCheetah（17 维状态、6 维动作的奔跑半人马）。专家 4463 分。
对比：FEM 502 分、GTAL 869 分、行为克隆 3718 分。
生活语言：GAIL 大幅领先所有对手。FEM 和 GTAL 因为受限于线性代价函数，复杂任务直接崩。

数字 3：Ant 任务上 FEM/GTAL 都崩盘（负分）

怎么算的：Ant（111 维状态、8 维动作的四足蚂蚁）。
对比：FEM −5148、GTAL −3271，比随机策略还差。GAIL 拿到 4132 分（专家 4228 分）。
生活语言：旧式学徒学习不光不行，还会自己作死。GAIL 在同样数据上拿到接近专家的水平。

数字 4：Hopper 4 条轨迹达到 3614 分

怎么算的：Hopper 是个单腿跳跃的机器人。专家 3571 分。
对比：行为克隆 50 分（几乎学不到东西）。
生活语言：在样本极少（只看 4 段录像）时，GAIL 已经超过专家水平；行为克隆几乎抓瞎。说明 GAIL 对专家数据效率极高。

数字 5：环境交互成本 ≈ 训练 TRPO 专家本身的成本

怎么算的：作者承认 GAIL 和环境互动的次数和"从零用真奖励训 TRPO"差不多。
对比：行为克隆完全不和环境交互。
生活语言：GAIL 省的是专家数据（只要看几段录像），但训练时还要让机器人在仿真器里跑很多次。这是它的成本——不是想象中的"零成本模仿"。

数字 6：网络结构很简单（2 层 100 单元）

怎么算的：策略和鉴别器都是 2 层全连接 + tanh 激活。
生活语言：性能好不是靠堆模型大小，靠的是"对抗训练这套机制"。这跟 LLaVA 的故事很像——结构能简就简，重点在训练框架。

所以这一节是想说：数据告诉我们 GAIL 在高维任务上把所有对手按在地上摩擦，但代价是仿真交互很贵。

你应该懂的几个新词

模仿学习（Imitation Learning, IL）：让 AI 看着专家示范学会做事的整套范式。GAIL 是其中一种。

行为克隆（Behavioral Cloning, BC）：最朴素的 IL。把 (状态, 动作) 当监督学习样本。简单但脆。

逆强化学习（Inverse Reinforcement Learning, IRL）：先反推专家心里的奖励函数，再用 RL 学策略。两步走，慢。

占用度量（occupancy measure）：策略在状态-动作空间上的分布。模仿专家=匹配占用度量。

奖励 / 代价函数（reward / cost function）：评价"在这个状态做这个动作有多好/多差"的数字函数。RL 的核心。GAIL 里用的是"代价"——值越大越坏。

GAN（Generative Adversarial Network）：Goodfellow 2014 提出的对抗式生成模型。一个生成器、一个鉴别器，互相博弈。GAIL 是它在 RL/IL 领域的化身。

鉴别器（discriminator）：二分类网络，分辨"专家 vs 学徒"。在 GAIL 中给策略提供学习信号，相当于"实时打分老师"。

JS 散度（Jensen-Shannon divergence）：测两个分布有多不一样的指标。最小化 JS 散度 = 让两个分布几乎重合。

TRPO（Trust Region Policy Optimization）：一种"小步慢走"式的 RL 优化器。每次只让策略变一点点，防止训练飞掉。GAIL 用它来更新策略。

熵 / 熵正则（entropy / entropy regularization）：策略的"随机性程度"。在目标里加上 −H(π) 鼓励策略不要过早收敛到死板单选。

复合误差（compounding error）：行为克隆的老毛病——预测有偏差→进入没见过的状态→再次偏差→雪球越滚越大。

学徒学习（Apprenticeship Learning）：IRL 简化版，把代价限制成几个手工特征的线性组合。能跑但表达力差。

所以这一节是想说：上面这些词以后看 RL/IL 论文会反复见，先把它们和"教徒弟做菜"这套类比挂钩。

它有什么搞不定的

GAIL 不是万能的，论文自己也老实交代了几个翻车场景：

环境交互巨贵：算法本身省的是专家数据，但训练时机器人要在仿真器里跑很多次（大概和"从零训 TRPO 专家"一样多）。所以真机器人上跑，是危险且烧钱的——后续工作（如 GAIL 改进版、AIRL、SQIL）都在想办法降低这个成本。
看不到专家：和 IRL 一样，GAIL 训练时不能问专家"我现在该怎么动"——只能靠自己探索。如果允许专家在线指点（比如 DAgger），效率会高很多。
对抗训练本身不稳：GAN 圈的老问题——鉴别器太强或太弱都会让生成器学不到东西。GAIL 同样继承这个毛病，调超参很麻烦。
没有显式的奖励函数：训完模型后，你没法把"学到的奖励"导出来给别的任务用。这是和经典 IRL 的本质差异——GAIL 学的是策略，不是奖励。

所以这一节是想说：GAIL 在仿真交互成本、训练稳定性、可迁移性上都有硬伤，需要后续工作来补。

它和别的几篇是什么关系

时间线：GAN（2014）→ GAIL（2016）→ AIRL / GAIfO / SQIL（2018-2019）→ Diffusion Policy（2023，imitation 的另一支）→ OpenVLA（2024，基础模型时代的 IL）。
集合关系：把"模仿学习"想成一个大集合 IL。这个集合分两支：BC 派（直接监督学动作）和 IRL 派（先学奖励再 RL）。GAIL 开创了第三条路：对抗式直接学策略。这条路后来又分裂出 AIRL、GAIfO 等亲戚。
因果关系：
- GAN 出现导致 GAIL 这种思路成为可能——没有 GAN 就没人想到用鉴别器替代代价函数。
- GAIL 出现导致后续机器人界对模仿学习信心大增，连 OpenVLA、Cosmos-Policy 这类基础模型时代的具身 AI 也大量用 IL 数据。
对比关系：
- 和 Cosmos-Policy 比：Cosmos-Policy 也是模仿学习路线，但是用扩散模型直接生成动作分布，不需要对抗鉴别器——是 GAIL 的"非对抗"后继。
- 和 OpenVLA 比：OpenVLA 用 token 化 + 大模型微调来做 IL，规模上和 GAIL 完全两个时代。但底层都是"看着专家轨迹学策略"。
- 和 SayCan 比：SayCan 用 LLM 做高层规划 + 学好的低层技能。那些低层技能很多就是用 GAIL 这类 IL 方法训出来的。

所以这一节是想说：GAIL 是模仿学习里"对抗派"的祖宗，10 年后机器人界的具身大模型路线（OpenVLA、Cosmos-Policy）的策略训练机制都能追溯到它。

我建议这样读这篇

零基础读者不要从头啃公式。建议这样走：

看 Abstract + Section 1 引言（5 分钟）：明确"绕开 IRL 直接学策略"是这篇要解决的事。
跳到 Section 5 算法部分（15 分钟）：直接读 Algorithm 1 伪代码——3 行循环就讲清楚了核心思路。这是论文最实用的部分。
回头读 Section 4 末尾的"对抗式正则"动机（10 分钟）：理解为什么要用 ψ_GA 这个特殊形状的正则。
跳过 Section 3 的证明细节（除非你想自己推）：知道"IRL 等价于占用度量匹配"这个结论就够了。
看 Figure 1 和 Table 3 实验数据（5 分钟）：感受高维任务上 GAIL 比对手强多少。
附录 A 全跳：除非你打算自己证明，否则不需要看那些 saddle point、convex conjugate 推导。

读完这 5 步约 40 分钟，已经能在和别人讨论 IL 时报出 GAIL 的核心思路。

所以这一节是想说：核心精华在算法伪代码 + 实验表，公式细节和证明可以略读。

一些好奇心问答（FAQ）

Q1：GAIL 和 GAN 的对应关系到底有多紧？

非常紧。GAN 里：生成器造图、鉴别器辨真假；GAIL 里：策略造轨迹、鉴别器辨"专家 vs 学徒"。唯一的差异是：GAN 里生成器可以直接对鉴别器反向传播；GAIL 里策略产生的动作要在环境里"实际跑"才能拿到反馈，没法直接反向传播——所以中间得用 RL（具体是 TRPO）来桥接。

Q2：为什么不直接用 KL 散度？非要 JS？

KL 散度不对称且无界，对抗训练很容易爆炸。JS 散度对称、有界 (0 到 log 2)，且能直接对应到 GAN 鉴别器的最优解。所以选 JS 是为了让 GAN 那套训练机器能直接搬过来。

Q3：GAIL 要不要真实奖励？

不要。这是它的核心卖点——只要专家轨迹，不要任何标量奖励信号。但训练时要能在环境里跑（仿真器或真机）。

Q4：要多少专家数据？

少得惊人。论文显示 Hopper 任务上 4 条轨迹（每条 50 步=200 个 (s, a) 对）就能学到接近专家水平。Humanoid 用 80 条，对比下行为克隆要至少 240 条才勉强能用。

Q5：训练能跑多久？

每个任务 300-1500 次迭代，每次约 5000-50000 个环境交互。Humanoid 最贵：1500 次 × 50000 步 = 7500 万次仿真。在 2016 年的硬件上要好几天——但都是 CPU 上跑的物理仿真，2026 年用现代 GPU 仿真器（如 Isaac Sim）会快很多。

Q6：能不能用 GAIL 训真机器人？

理论上可以，但仿真交互成本是大问题——真机器人不能像仿真那样疯跑几千万步。后续工作（如 GAIL+BC 初始化、IRL 蒸馏、SQIL 把 GAIL 改成 off-policy）都在攻这个。

Q7：鉴别器太强了会怎样？

策略学不到东西，因为它收到的"代价信号"全是 1（鉴别器笃定它是学徒），梯度饱和。这是 GAN 通病。论文里靠 TRPO 的小步约束 + Adam 的自适应学习率来缓解，但仍需要调超参。

Q8：和 DAgger 比有啥区别？

DAgger 也是解决 BC 的复合误差问题，但它要专家在线提供反馈——学徒走到一个新状态，就问专家"你会怎么动"，把答案补进训练集。GAIL 不需要这种在线访问，只要一份预先录好的专家轨迹。代价是 GAIL 自己探索效率不如有专家指点的 DAgger 高。

所以这一节是想说：GAIL 的关键定位——只要离线专家数据 + 仿真器，不要在线访问专家，不要真实奖励。

如果你想再深入

按"前传 → 同期 → 续作 → 衍生"四类排序：

前传：GAN（Goodfellow 2014） — 这篇必读。理解了 GAN 的对抗训练，再看 GAIL 就豁然开朗。论文：arxiv 1406.2661。
前传：Maximum Entropy IRL（Ziebart 2008） — GAIL 的理论起点。讲清楚"为什么 IRL 等价于分布匹配"的最早工作。
续作：AIRL（Adversarial Inverse RL, Fu 2018） — GAIL 的"可迁移版"。AIRL 显式恢复一个奖励函数，可以在新环境里复用，弥补了 GAIL 不输出奖励的硬伤。
续作：SQIL（Soft Q Imitation Learning, Reddy 2019） — GAIL 的"简化版"。把 GAIL 的对抗训练换成"专家=奖励 1、自己=奖励 0"的固定二值奖励，效果接近但更稳。
续作：Cosmos-Policy（2025） — 现代具身 AI 的模仿学习。完全不用对抗，改用扩散模型直接生成动作分布。代表"非对抗 IL"在大模型时代的崛起。
衍生：OpenVLA（2024） — 把 IL 拉到基础模型尺度。底层逻辑还是 GAIL 那套"看专家轨迹学策略"，但模型大了 1000 倍、数据多了 10000 倍。

所以这一节是想说：把 GAN + GAIL + AIRL 这三篇连起来读，就能看到对抗式 IL 的完整脉络；想看现代版直接跳 Cosmos-Policy 和 OpenVLA。

最后一个画面

想象 10 年后（也就是 2026 年）的具身 AI 训练场：一个 17 维动作的人形机器人在 Isaac Sim 里反复练习走路。它的奖励信号不是工程师手写的"摔倒 −10 / 走稳 +1"，而是一个鉴别器神经网络在实时打分——每一步都比对："这看起来像不像人类专家走路的样子？"

这个画面，2016 年由两位斯坦福研究生在 NeurIPS 论文里第一次画出来。10 年后它已经是机器人 IL 训练的标配模板。

所以最后一节是想说：GAIL 不只是一个算法，它把"对抗训练"作为模仿学习的范式钉进了这个领域——后续所有"看着专家学"的故事，都站在它的肩膀上。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_gail_2026,
  title       = {(readable note) Generative Adversarial Imitation Learning},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2016 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/gail/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)