Quantum Supremacy 2019 — 量子机用 200 秒做完超算 1 万年的事
是什么
量子霸权(quantum supremacy)是 2012 年 Preskill 起的名字,指量子计算机第一次在某个具体任务上明显超过当时最强的经典超算。Google 的 Sycamore 论文是首个公开宣称做到这件事的硬件实验。
日常类比:以前一直说”量子机理论上更快”,但谁也没真跑过。这篇论文是第一次把”理论上”换成”我们机器跑了 200 秒,超算要跑 1 万年”。
机器名叫 Sycamore(一种无花果树),是块超导量子芯片,上面有 53 个工作 qubit(原本设计 54 个,造出来 1 个坏的)。每个 qubit 排在 2D 矩形栅格里,和上下左右 4 个邻居用可调耦合器相连。
它跑的具体任务叫 随机电路采样(Random Circuit Sampling,RCS):
- 随机生成一串量子门序列(深度约 20 层)
- 用这串门把 53 个 qubit 的初态搅成一个高维叠加态
- 测量一次,得到一个 53 位的 0/1 字符串
- 重复 100 万次,统计字符串的分布
任务本身没实用价值,但经典电脑要复现这个分布极其费力——这就是它能用来证明差距的原因。
为什么重要
不理解这篇论文,下面几件事都说不清:
- 为什么 2019 年开始所有大厂(IBM / 阿里 / Microsoft / 中国科大)都在抢量子硬件,资本市场也跟着热
- 为什么 53 个 qubit 是分水岭——再少经典能模拟,再多噪声就盖过信号
- 为什么后来 IBM 反驳”1 万年”是夸张,但学界仍承认这是个里程碑
- 为什么”量子霸权达成”和”量子机能解决你日常问题”完全是两回事
核心要点
把 53 qubit 想成”同时摁住 0 和 1 两个键的钢琴”——53 个键一起摁,能并行表达 2^53 ≈ 9000 万亿种和弦的叠加。经典电脑要把这 9000 万亿个复数振幅都存下来才能精确模拟,内存就先爆了。这就是 53 是分水岭的原因:再少几个 qubit,超算还能勉强存下;再多几个,2^n 翻倍翻到内存彻底爆,连”用多久能算完”这种问题都没意义。
论文的三个工程关键:
- 门保真度:单 qubit 门约 99.85%、双 qubit 门约 99.64%、读出约 96.2%。每多一层门误差累乘,所以深度只能做到 20 层左右。
- 极低温:芯片要放在稀释制冷机里冷到 20 mK(约 -273.13°C),比宇宙微波背景还冷。否则热噪声直接淹没量子态。
- XEB 验证(Cross-Entropy Benchmarking):用线性交叉熵估算”测出来的分布逼近理想分布的程度”。这一步是实验能不能算数的核心。
最后的对比数字:Sycamore 200 秒采样 100 万次 vs Summit 超算估算 1 万年。
实践案例
案例 1:随机电路采样在做什么
每一层电路结构如下:
1. 给每个 qubit 随机选一个单 qubit 门(X^(1/2) / Y^(1/2) / W^(1/2))2. 在某一组相邻 qubit 对上同时施加双 qubit 纠缠门(iSWAP-like)3. 重复 1-2 共 20 层4. 同时测量所有 53 qubit读出结果是个 53 位字符串。重复 100 万次,得到一个分布。这个分布的形状由那串随机门决定——经典机要复现就得算 2^53 个振幅,量子机一遍跑完。
案例 2:怎么证明真的不是噪声
XEB(Cross-Entropy Benchmarking)的直觉:
- 理论上有些字符串”应该”高频出现,有些”应该”低频
- 真量子机如果保真,会按理论分布出结果——高频字符串采样得多
- 噪声越大越接近均匀分布——所有字符串频率拉平
- 用一个数(线性交叉熵 F_XEB)量化”实际有多接近理论分布”
Sycamore 的 F_XEB 约 0.2%——听着小,但已是”纯噪声基线”的好几个标准差以外,统计上可信。这一步是实验能否被同行接受的关键。
案例 3:经典对手为什么追不上(也为什么一直在追)
经典模拟有两条路:
- 薛定谔法:存全部 2^53 振幅。内存爆炸。
- 费曼路径求和:枚举所有路径求和。深度 20 层时路径数也爆炸。
IBM 后来用张量网络 + 二级存储把估计压到 2.5 天——但仍远慢于 200 秒。后续算法(如 Pan-Zhang 张量收缩)继续蚕食边界。这就是为什么”霸权”是动态战线,不是一锤定音。
踩过的坑
- 量子霸权 ≠ 量子机有用。RCS 这个任务本身没实用价值,纯粹为了证明差距而设计。别把它和”能解决我的问题”画等号。
- qubit 数不是唯一指标。53 个高保真远好于 1000 个噪声大的。看新闻”某公司 1000 qubit”先问保真度和连通性。
- 保真度乘起来掉得很快。99.64% 的双 qubit 门,过 430 个就掉到 21%。所以电路深度上不去。
- 经典对手会反扑。“1 万年” 是给定算法 + 硬件下的估算,换算法或上更大磁盘可以缩到几天。论文发表后 IBM 当周就发文反驳。
- NISQ 时代没纠错。Sycamore 是噪声中等规模量子(Noisy Intermediate-Scale Quantum)设备,没逻辑 qubit、没纠错码。Shor 破 RSA 这种事还要等百万级物理 qubit。
量子-经典异构计算
这篇论文常被拿来和 GPU 类比,因为它们都是异构计算的范式:
| 维度 | GPU 异构 | 量子异构 |
|---|---|---|
| 主控 | CPU 串行调度 | 经典机串行编排 |
| 加速器 | GPU 并行核 | QPU 量子电路 |
| 任务边界 | 数据并行算子 | 采样/相位估计 |
| 数据传输 | PCIe 内存映射 | 测量结果(经典比特) |
| 开销 | kernel launch 微秒 | 制冷+读出毫秒 |
读法:真正的算力革命都不是替换,而是分工。CPU 没被 GPU 替换,CPU 被 GPU 加速器化;类似地,经典机不会被量子机替换,量子机会变成经典机的协处理器。Sycamore 论文里量子部分只跑采样,所有验证、纠错、控制脉冲生成都还是经典做的。
适用 vs 不适用场景
适用(思维可借鉴):
- 异构计算:量子部分采样 + 经典部分验证/控制——和 CPU+GPU 分工同构
- 基准设计:XEB 给”输出分布类任务”提供了可复用的评测套路
- 硬件工程极限:极低温、毫秒级控制脉冲、芯片良率——硬核工程的标本
不适用(别误用):
- 日常算力(神经网络训练 / 数据库查询):当前 NISQ 不能跑
- 破 RSA:需要 Shor + 几千逻辑 qubit,行业估计还要 10-20 年
- 经典 ML 加速:变分量子电路目前在公认基准上没稳定胜过 GPU
历史小故事(可跳过)
- 1981:Feynman 提出”量子机模拟量子系统会比经典快”,量子计算思想起源
- 1994:Shor 证明量子机能多项式时间分解大数,理论威胁 RSA
- 2012:Preskill 创造 quantum supremacy 一词,定义”量子机做经典做不到的事”
- 2019-10:Google Sycamore 论文发表,首次宣布达成
- 2020-12:中国科大 九章 用光子玻色采样在另一任务上达到量子优势
- 2021+:IBM Eagle 127 qubit、Condor 1121 qubit,行业转向逻辑 qubit 与纠错
学到什么
- 算力差距需要被实验证明——理论说”快”和真硬件跑出来不是一回事
- 门保真度比 qubit 数更难——多个一倍 qubit 容易,把保真度多两个 9 极难
- 基准任务可以专门为证明差距设计——RCS 没实用价值但完美胜任此目的
- 里程碑是动态的——经典对手会改进,所以”霸权”不是一锤子事件而是连续的战线
延伸阅读
- 论文原文:Nature 574, 505-510 (2019)
- IBM 反驳:On Quantum Supremacy(把 1 万年压到 2.5 天的论证)
- 入门讲座:Scott Aaronson — Quantum Supremacy: the gloves are off
- feynman-simulating-physics-1982 — 量子计算思想起源
- shor-1994 — 量子分解算法
关联
- feynman-simulating-physics-1982 —— 量子机思想起点,1981 年 Feynman 的提议
- shor-1994 —— 量子算法第一个杀手级用例(破 RSA)
- ampere-architecture-2020 —— 经典异构计算(GPU)对照,分工思路同构
- alphago —— 同样是 Google 投巨资做的标志性算力工程
反向链接
- alphago —— AlphaGo — 击败围棋世界冠军