AlphaGo — 击败围棋世界冠军

是什么

AlphaGo 是 DeepMind 2016 年用神经网络 + 蒙特卡洛树搜索（MCTS）训出的围棋程序，在首尔 4:1 击败世界冠军李世石。

日常类比：

以前的下棋程序像死记棋谱 + 暴力穷举——把每一步未来 20 步都算一遍，靠算力压死对手。这一招在国际象棋有用（Deep Blue 1997），在围棋失效，因为围棋分支太多，宇宙的原子都不够数。
AlphaGo 像会”感觉”哪步好的高手 + 在脑子里小规模沙盘推演：先扫一眼局面”觉得”哪几步值得算，再针对那几步往后推几十步看胜率，最后挑数据上最稳的那一步。

“感觉” + “推演” 这两件事各对应一个神经网络 + 一套搜索算法。整套合体，是第一个在 19×19 标准围棋打败 9 段职业棋手的 AI。

为什么重要

不理解 AlphaGo，下面这些事都讲不清：

为什么围棋长期被认为”AI 至少还要 10 年才能赢人类”，2016 年一夜之间预测全错
为什么后来的 muzero / OpenAI Five / deepseek-r1 都在沿用”神经网络 + 搜索”的混合套路
为什么”Move 37”（vs 李世石第二局第 37 手）成了 AI 圈的标志事件——一手人类觉得”业余错误”的棋，AlphaGo 算出胜率最高，最后真的赢了
为什么 DeepMind 估值能从 4 亿涨到 80 亿——AlphaGo 是 Google 那笔 2014 年 5 亿美元收购的”决策正确性证明”

简单说：AlphaGo 改变了人类对”AI 能不能在创造性领域超过人类”的判断。

核心要点

整个系统由 三个角色 组成，可以想成一个团队：

策略网络（Policy Network）— 直觉派 看一眼棋盘，立刻给 19×19 每个位置打一个”该下这里的概率”。类比：老棋手扫一眼盘面，“这几个点能下，那一片不用看”。
价值网络（Value Network）— 评估派 看一眼棋盘，输出一个数字：“黑方现在赢的概率是 0.62”。类比：观战者不算具体下法，只判断”这盘谁占优势”。
MCTS（蒙特卡洛树搜索）— 沙盘推演 用策略网络挑出”值得算的几步”，往下推几十步，每个分支用价值网络估胜率，最后选被推演次数最多的那一步作为真正落子。

为什么是”次数最多”而不是”胜率最高”？因为搜索预算被花在好分支上，访问次数高的分支已经被反复验证；只看一次就胜率高的分支可能只是运气。

实践案例

训练流程：先模仿、再自我对弈、最后学评估

AlphaGo 不是一步训出来的，而是 三阶段课程表：

监督学习：用 KGS 围棋服务器上 3000 万盘业余高手对局，训练策略网络模仿”人类高手会怎么下”。准确率约 57%（top-1 命中专家落子）。
强化学习：让策略网络的当前版本和过去版本自我对弈（不让两个一样的版本对，避免陷入”猜拳”循环）。赢了正向更新，输了负向更新。
训价值网络：用强化后的策略再自我对弈 3000 万盘，每盘随机抽一个局面 + 终局胜负，让价值网络学”看局面就估胜率”。

这个三阶段范式后来被 RLHF（rlhf-2017 / ChatGPT 的训练流程）几乎原封不动复用：SFT（模仿）→ RM（评估）→ PPO（强化）。

Move 37：人类看不懂、AI 算赢的一手

vs 李世石第二局第 37 手，AlphaGo 在五线（远离中央）下了一颗子。

人类解说现场判断：“这是业余棋手才会犯的错误”
AlphaGo 内部算出：这一手让胜率最高
几十手之后，那颗五线的子开始与全局联动，李世石认输

这一手震撼了围棋界，因为它不在人类几千年总结的定式里，但事后复盘是好棋。这是第一次大众层面感受到”AI 可能有人类没想到的创造力”。

AlphaGo Zero：扔掉人类棋谱、从零自学

2017 年 DeepMind 发表 AlphaGo Zero：

不用任何人类棋谱——从随机权重开始纯自我对弈
不用手工特征——只看 3 通道原始棋盘（黑/白/空）
40 天后反超 2016 击败李世石的版本，强 1500 ELO（差距相当于业余 1 段对职业 9 段）

启示：人类知识不是越多越好，有时候反而把模型限制在”人类风格”里。AlphaGo Zero 的开局经常不像人类（比如开局直接脱先三连星），却更强。

踩过的坑

价值网络容易过拟合自我对弈数据：自我对弈生成的局面分布有偏（只走 AI 自己偏好的下法）。AlphaGo Lee Sedol 版用了”价值网络估值 + 快速走子模拟胜负”的混合（λ = 0.5）做正则化。AlphaGo Zero 训得更好后，把模拟那部分扔了。
MCTS 的先验用监督策略反而比强化策略好：强化策略本身更强，但作”先验”时太自信，让搜索卡在自己偏好的几个分支。监督策略熵更高、给探索留余地，反而更适合做先验。这个反直觉发现说明 MCTS 需要的不是”最强 player”，而是”最 informative 的分布”。
训练成本天文数字：AlphaGo Lee Sedol 版用了 50 GPU × 几个月，比赛时用 1920 CPU + 280 GPU 分布式搜索。AlphaGo Zero 用 64 TPU × 40 天。这种 compute 门槛把同级别研究锁定在 DeepMind / OpenAI / Google 等少数机构。

适用 vs 不适用场景

适用：

完美信息棋类（围棋 / 国际象棋 / 将棋）—— AlphaZero 已经把这条路走到极致
离散动作空间（每步可选项有限且能枚举）
有明确胜负或回报信号

不适用：

不完全信息（扑克 / 麻将）—— SOTA 是 CFR 和 DeepStack，不是 MCTS
连续动作（机器人控制 / 自动驾驶）—— 用 PPO / SAC 这类策略梯度方法
实时多智能体（StarCraft / Dota）—— AlphaStar / OpenAI Five 用的是 PPO + self-play league，不是 AlphaZero 风格 MCTS

历史小故事（可跳过）

1997：IBM Deep Blue 用暴力剪枝击败国际象棋冠军 Kasparov。围棋因为分支太多，这条路不通。
2006：Rémi Coulom 把蒙特卡洛树搜索（MCTS）引入围棋，让 AI 从业余初学者跳到业余 5-6 段，但卡在那个水平 8 年。
2014：DeepMind 开始研究围棋。
2015-10：闭门赛 5:0 击败欧洲冠军樊麾（首次 AI 在 19×19 不让子击败职业棋手）。结果保密 5 个月。
2016-01：Nature 论文发表 + 樊麾对局公开。
2016-03：首尔 4:1 击败李世石。Move 37 成为传奇。
2017：AlphaGo Master 60:0 横扫顶级职业；3:0 击败柯洁；AlphaGo Zero 从零自学反超所有版本；AlphaZero 把同一套算法迁到国际象棋 / 将棋。
2019：muzero 连游戏规则都不需要知道。

学到什么

神经网络 + 经典搜索 > 单独用任何一个：AlphaGo 没有扔掉 MCTS，而是用神经网络给它装上”直觉”和”评估”。这种”老算法 + 新组件”的思路在 gpt-3 / t5 也成立——不是从零设计架构，而是把已有方法 scale 到极致。
三阶段训练（模仿 → 强化 → 评估）是可迁移范式：RLHF 直接复用了这套 curriculum。
自我对弈是 RL 的核心解锁：有了 self-play，不需要外部 reward signal，player vs player 自然定义胜负。这套范式在 AlphaStar / OpenAI Five / Pluribus 都成功。
领域知识注入是工程妥协，不是终极方案：AlphaGo 用了 48 个手工特征通道、快速走子策略、人类棋谱启动；AlphaGo Zero 全部扔掉，反而更强。
算法和算力永远在博弈：很多”训练 trick” 在 scale 增大后会逐渐失效。AlphaGo Lee Sedol 版的工程巧思，本质是 2015 年 compute 限制下的妥协。
Move 37 是评估模型 vs 策略模型分歧的产物：策略网络给的概率很低，评估网络说”如果走它，最终胜率反而更高”——这种”统计直觉”突破人类几千年棋谱共识，是 ML 价值最戏剧性的展示
AlphaGo Zero 的反向启示：把人类棋谱、手工特征、快速走子全部扔掉，反而更强——领域知识的注入是工程妥协，scale 够了之后是负收益。今天 LLM “data + compute > inductive bias” 的潜规则，AlphaGo Zero 是教材级先例。
三位一体可迁移：神经网络 + 蒙特卡洛搜索 + 自我对弈是一套通用模板，从围棋迁到国际象棋、将棋、Atari、蛋白质折叠都成立——AlphaGo / AlphaZero / MuZero / AlphaFold 共享同一个骨架。
保密的力量：DeepMind 把樊麾对局保密 5 个月才公开，让”AI 击败围棋职业棋手” 变成一记重锤新闻——同样的成果如果分散在几个月里碎片公布，影响力会差几个数量级。
MCTS 不是被替代是被装电：搜索算法 1948 年就有，AlphaGo 的贡献不是发明新搜索，而是给老 MCTS 装上策略网络当”直觉”——很多领域的下一步突破不在新算法，在给经典框架配新引擎。

关联

dqn —— DeepMind 之前的 deep RL 起点；AlphaGo 继承了 CNN 处理棋盘的思路，但加了 self-play
ppo —— 后来更轻量的 RL 算法；StarCraft / Dota 这类不完全信息环境用 PPO 而不是 AlphaZero 风格 MCTS
muzero —— AlphaGo 家族的下一步：连游戏规则都不需要知道
attention —— Transformer 起点；AlphaGo 用 CNN，AlphaStar / MuZero 后续逐步换成 Transformer
rlhf-2017 —— ChatGPT 那条路线的源头；三阶段训练范式与 AlphaGo 一脉相承

反向链接

a3c-2016 —— A3C — 多个 CPU 同时跑游戏，让 RL 不再吃 GPU
attention —— Attention Is All You Need
chatbot-arena-2024 —— Chatbot Arena — 让真人盲投，给 LLM 排出公允座次
debate-2018 —— AI safety via debate — 让两个 AI 互辩，人类只当评委
decision-transformer-2021 —— Decision Transformer — 把强化学习当成”文字接龙”
deepseek-r1 —— DeepSeek R1 — 强化学习推理模型
dqn —— DQN — Deep Q-Network
gpt-3 —— GPT-3 — Language Models are Few-Shot Learners
muzero —— MuZero — 不用规则也能下棋
ntk-2018 —— NTK — 把无限宽的神经网络变成一个可解的核方法
ppo —— PPO — Proximal Policy Optimization
quantum-supremacy-2019 —— Quantum Supremacy 2019 — 量子机用 200 秒做完超算 1 万年的事
sac-2018 —— Soft Actor-Critic — 让强化学习既会拿分又愿意多试
t5 —— T5 — Text-to-Text Transfer Transformer