A3C — 多个 CPU 同时跑游戏，让 RL 不再吃 GPU

是什么

A3C（Asynchronous Advantage Actor-Critic）是 DeepMind 2016 年提出的一套让多个 CPU 线程同时打游戏、同时训练同一个神经网络的强化学习方法。

日常类比：以前训练 dqn 像让一个学徒一个人玩 8 天 Atari，期间还要把所有玩过的画面录下来反复回放。A3C 的做法是：雇 16 个学徒，一人一台模拟器同时玩，玩出心得就直接告诉师傅（共享参数），不录像不回放。结果半小时就达到学徒一个人 8 天的水平，而且师傅那台机器根本不用 GPU。

论文一次提了四种异步变体（one-step Q-learning / one-step Sarsa / n-step Q-learning / A3C），其中 A3C 是最出名的一个，所以整篇论文常被简称”A3C”。

为什么重要

理解 A3C 才能理解 2016 之后整个分布式 RL 生态：

它第一次证明 RL 不必上 GPU——CPU 多核就能 SOTA，工业界部署成本断崖下降
它干掉了 experience replay——并行天然去相关，不再需要 GB 级回放缓冲
它确立了”actor-learner 分离”的范式——后来的 IMPALA、Ape-X、SEED RL 都是这个骨架的进化
PPO 论文里那个 “A2C” 基线就是 A3C 的同步版，今天写 RL 入门代码十有八九还在用

核心要点

A3C 把三件原本独立的事拧在一起：

异步并行（Asynchronous）：开 N 个线程，每个线程有自己的环境副本和自己的网络副本。线程独立采样、独立算梯度，算完直接加到共享参数上——不等任何人，也不加锁（Hogwild! 风格）。
优势函数（Advantage）：actor-critic 训练里，actor 学策略 π(a|s)，critic 学价值 V(s)。更新 actor 的信号不是裸奖励，而是 A(s,a) = R - V(s)——“这个动作比平均值好多少”。减去基线方差大幅下降，训练更稳。
Actor-Critic 结构：一个共享卷积主干，两个头：
- Policy head：输出动作概率分布（actor）
- Value head：输出当前状态的价值估计（critic）

每个线程跑 t_max 步（论文里 5 步）后，用 n-step return 算梯度推回去更新共享网络，然后清空本地 trajectory，重来。

实践案例

案例 1：A3C 一次更新长什么样

伪代码（每个线程在跑）：

while True:
    # 把共享参数同步到本地
    sync_local_from_global()

    # 采 t_max 步
    trajectory = []
    for _ in range(t_max):
        a = local_policy(s)
        s_next, r, done = env.step(a)
        trajectory.append((s, a, r))
        if done: break

    # 从尾往前算 n-step return
    R = 0 if done else local_value(s_next)
    for s, a, r in reversed(trajectory):
        R = r + gamma * R
        advantage = R - local_value(s)
        # 累加 actor / critic 梯度
        ...

    # 一次性把累加的梯度直接加到共享参数（异步、无锁）
    apply_gradients_to_global()

注意最后一步：没有 lock，也没有 averaging。多个线程可能同时写同一个权重，但实践中冲突概率小，神经网络对小扰动鲁棒。

案例 2：为什么不用 replay buffer 也行

dqn 有一个核心问题：连续几帧画面高度相关，神经网络如果按时间顺序学就会忘了之前学的（catastrophic forgetting）。DQN 的解法是把过去几百万帧塞进 replay buffer，每次从里面随机抽。

A3C 的洞察：16 个线程同时玩 16 局不同游戏（或同一游戏的不同阶段），它们采到的样本天然就是去相关的——线程 A 在第 1 关，线程 B 在 boss 战，线程 C 刚开局。把这些梯度交叉加到共享参数上，效果等价于 replay 抽样，但不占内存、不需要保存历史。

案例 3：A3C 数据 vs DQN 数据

论文 Table 1 / Figure 1 的关键数字：

算法	硬件	训练时间	Atari 49 游戏中位数（人类归一化）
DQN	Nvidia K40 GPU	8 天	121%
Gorila（分布式 DQN）	100+ 机器	4 天	215%
A3C, 16 线程	16 CPU 核	半天	344%

一台 16 核工作站 → 在精度和速度上同时碾压 100+ 机器的分布式 DQN。这是 A3C 当年的轰动点。

踩过的坑

异步 = 不可复现：随机线程调度让每次训练曲线都不同，论文报的也是多次平均。如果你写 paper 想要可复现，别用 A3C，用 A2C（同步版）。
线程太多反而崩：超过 32 线程后，梯度延迟（staleness） 越来越严重——一个线程基于旧参数算的梯度被加到已经更新过的新参数上，方向就跑偏。论文里 16 是甜点。
A3C 在 GPU 上不香：异步需要每个线程一份网络副本独立 forward/backward，CPU 上一人一份没问题，GPU 上每个 kernel launch 都有开销，反而不如同步批处理。所以A3C 的”省 GPU”既是优点也是它的边界。
工业界后来都用 A2C / PPO：A3C 启发了大家”并行是 RL 的关键”，但今天打开 PPO / Stable-Baselines3 的代码，会发现默认是 A2C（同步收集 + 一次大批更新）——同步在现代硬件上反而更快更稳。
熵正则容易忘：论文目标里有一项 + β·H(π)——鼓励策略保持随机性，避免过早收敛到次优动作。复现 A3C 时常见 bug 是漏了这一项，结果 agent 早早卡死在某个固定策略上。

适用 vs 不适用场景

适用：

没有 GPU 但有很多 CPU 核的机器（学校机房、老服务器）
环境模拟很便宜（Atari、Mujoco、棋类）—— CPU 跑环境比 GPU 跑神经网络更瓶颈
想避开 replay buffer 的内存压力（GB 级历史保存）
教学：A3C 是理解 actor-critic + 并行 RL 最经典的入门

不适用：

想要可复现实验结果（异步天生不可复现 → 用 A2C / PPO）
环境模拟极慢（如 LLM-as-env、机器人物理仿真）—— 此时瓶颈在环境而非梯度，并行采样收益小
想跑大模型 RL（GPT-4 级别 RLHF）—— 这种规模直接上 IMPALA / SEED RL 的 actor-learner 分离架构

历史小故事（可跳过）

2013-2015：DQN 让 RL + 深度学习火起来，但训练慢、吃 GPU、需要海量 replay
2016 年初：Volodymyr Mnih（DQN 作者之一）和 DeepMind 团队提交 A3C 到 ICML 2016，论文 12 页
2016 年末：OpenAI 发现 A3C 的同步版 A2C 在 GPU 上更快更稳，自此社区两种版本并存
2017 年：Schulman 等人提出 PPO，把 A2C 的更新规则做了 clip——成为今天 RLHF / 大模型对齐的工业标准

A3C 自己在 2018 年后被 IMPALA（V-trace 修正 staleness）和 Ape-X（分布式 replay）超过，但所有这些后辈都共享 A3C 提出的”actor-learner 分离 + 多 worker 并行”骨架。

学到什么

并行能去相关，不必专门维护 replay buffer——这个洞察被后来所有大规模 RL 系统继承
Actor-Critic + Advantage 是策略梯度方法的现代基线——比纯 REINFORCE 方差低一个数量级
异步在 CPU 黄金、在 GPU 鸡肋——硬件改变会让算法的最优解换一个
2016 年的”省钱方法”，今天读起来仍然有工业价值——很多场景不需要最快的算法，需要在现有硬件上能跑的算法

关联

dqn —— A3C 直接对标的前作；A3C 用并行替代了 DQN 的 replay
rlhf-christiano —— RLHF 用的 PPO 是 A2C 的进化；血缘上 A3C 是 PPO 的祖父
alphago —— 同样是 DeepMind 出品的 RL 里程碑，但走了 MCTS + 自我对弈的另一条路
ssa —— 完全无关，仅作占位

反向链接

alphago —— AlphaGo — 击败围棋世界冠军
dqn —— DQN — Deep Q-Network
rlhf-christiano —— RLHF Christiano 2017 — 人类偏好做奖励
ssa —— SSA — 静态单赋值形式