Mode Connectivity — 神经网络的两个最优解之间有低洼走廊
是什么
这篇论文回答一个反直觉问题:你训两次同样的神经网络(不同随机种子),最后落在两个不同的”最优点”。这两个点之间,loss 长什么样?
老答案:每个最优点是一个孤立的坑,两点之间隔着一座高山。 新答案:根本没有山。两个点之间存在一条几乎恒定低 loss 的曲线,loss 全程不超过端点。
日常类比:你以为山谷里散落着一堆独立的湖(每个湖是一个最优解),翻山才能从一个湖到另一个。论文证明:这些湖其实是地下河连通的——你只是没找到那条隧道。
为什么重要
不理解 mode connectivity,下面这些事都没法解释:
- 为什么 ensemble 多个独立训的模型有效——它们其实在同一个连通区域
- 为什么 SWA(随机权重平均)能涨点——平均路径上的点等于走那条隧道
- 为什么 Git Re-Basin(2022)能直接合并两个独立训练的模型——前提就是 mode 之间可达
- 为什么”loss landscape 全是局部极小值陷阱”这个 1990s 的担忧后来不成立
这篇论文是 2018 年之后深度学习几何直觉的拐点——loss surface 不是月球表面,是高维连通流形。
核心要点
论文做的事可以拆成 三步:
-
找一条曲线连两点:固定起点 w1 和终点 w2(两个独立训好的网络权重),中间用一条参数化曲线 φ(t) 连起来。最简单的两种:两段折线(中间一个控制点 θ),或贝塞尔曲线。
-
优化曲线:让曲线参数 θ 可学习。目标函数是”沿曲线随机采点 t,平均 loss 最小”。用 SGD 训这条曲线本身——端点不动,中间被拉到低 loss 区域。
-
观察结果:训出来的曲线,沿路径的 loss 几乎和端点一样低。不是平均低,是峰值都低。
副产品:Fast Geometric Ensembling (FGE)——沿这条曲线采样多个权重做 ensemble,几乎免费获得集成效果。
实践案例
案例 1:CIFAR-10 上 ResNet 的两个 mode 连通
实验:两个 ResNet-164 在 CIFAR-10 上独立训到收敛,得到 w1、w2。直线连接它们,loss 中间会飙到 4-5(接近随机猜);学一条折线(一个中间控制点),loss 中间只有 0.2 左右——和两端持平。
直线插值: w1 ──── 高 loss 山峰 ──── w2 ↑ loss 4.5
学到的折线: w1 ────╲ ╱──── w2 ╲ ╱ θ ← loss 0.2启示:高 loss 山峰是直线插值的幻觉,不是真实地形。
案例 2:FGE 集成——免费的午餐
传统 ensemble 要训 N 个独立模型(成本 ×N)。FGE 流程:
- 训一个起点 w1(正常训练)
- 微调几个 epoch 得到 w2
- 用上面的方法学一条连通曲线
- 沿曲线均匀采 N 个权重,每个权重做一次 forward
- 平均预测
成本:约等于 1.2× 单模型训练。效果:在 CIFAR-100 上接近 5 个独立模型的 ensemble。
案例 3:和 SWA 的关系
SWA(Stochastic Weight Averaging,同作者 Izmailov 的另一篇)做的事是:训练后期高 lr 跑一段 SGD,把途中权重平均起来。
mode connectivity 给 SWA 一个几何解释:SGD 在低 loss 区域跑,相当于在一个连通流形上游走;平均这些点等于落在流形的”重心”——往往泛化更好(loss 曲面在该处更平)。
案例 4:曲线长什么样(直观图示)
论文画了一张二维投影图。横轴是从 w1 到 w2 的方向,纵轴是垂直于这条直线、且能看到学到的曲线起伏的方向。背景是 loss 等高线:
直线插值线(高 loss 区域,红色等高线穿过) w1 ●━━━━━━━━━━━━━━━━━━━━━━━━━━━ ● w2 ╲ ╱ ╲ 学到的曲线 ╱ ╲ (低 loss 谷地) ╱ ╲___________________╱ θ直线穿越红色高 loss 区域;学到的曲线绕到下面,全程在蓝色低 loss 区域里。这张图是这篇论文最直观的”证据”。
踩过的坑
-
连通不等于直线可达:直线插值大概率失败(中间是高 loss 山峰)。需要学一条非直线的曲线,否则结论看不出来。
-
不是任意两点都连通:必须同架构、同任务、同数据集。不同架构(ResNet vs VGG)的 mode 不在同一个流形里,连通性失败。
-
大模型尚未充分验证:论文实验主要在 CV 中等规模(ResNet-164 / VGG-16 / Wide-ResNet-28-10)。LLM 规模下 mode 是否依然连通是开放问题(后续 Linear Mode Connectivity 论文部分回答)。
-
permutation symmetry 是隐藏功臣:神经网络对神经元置换天然不变,两个 mode 看起来不同往往只是排列不同。Git Re-Basin(2022)证明:先做 permutation 对齐,连直线插值都能低 loss 通过。
-
曲线参数化方式影响结论:贝塞尔曲线和折线效果接近,但用更复杂的曲线(多控制点)边际收益递减。论文经验是 1-2 个中间控制点已经够用——这暗示”连通”是一个相当宽松的几何性质。
-
不要把”低 loss 路径”等同于”模型行为相同”:路径上两个相邻点 loss 都低,不代表它们在每个样本上预测一致。FGE 之所以涨点,恰恰因为它们预测有差异才能集成。
适用 vs 不适用场景
适用:
- 想理解 loss landscape 几何结构(教学、理论)
- 训练成本敏感、想做 ensemble → FGE / SWA
- 模型平均、模型合并(model soup, Git Re-Basin 的前置)
- 不确定性估计 / 贝叶斯深度学习(SWAG)
不适用:
- 不同架构之间合并 → 维度都不同,不在一个空间
- 微调 LLM 后想合并多个 checkpoint → 需要谨慎,规模差异未充分验证
- 需要严格收敛证明的理论场景 → 这是经验观察,不是定理
历史小故事(可跳过)
- 1990s:神经网络冷遇期,主流观点”loss surface 全是局部极小值陷阱,所以 NN 没救”
- 2014-2015:Choromanska 等用统计物理论证”高维下局部极小值大多数和全局接近”
- 2017:Freeman & Bruna 在两层网络证明 mode 之间存在低 loss 路径(理论)
- 2018:本论文用实验证明深网络也成立,并给出可工程化的算法 → NeurIPS oral
- 2020:Frankle 等提出 Linear Mode Connectivity——同初始化训出的两个 mode 连直线都低
- 2022:Git Re-Basin——permutation 对齐后任何两个 mode 直线连通
学到什么
- 直觉错了:高维 loss surface 不是孤立坑,是连通的低 loss 流形。我们看到的山峰大多是低维投影的伪影
- 算法很简单:把曲线参数化、用 SGD 优化曲线本身、目标是路径 loss 期望——三句话讲完
- 几何直觉指导工程:连通性 → FGE → SWA → SWAG → model soup → Re-Basin,这条线索十年没断
- 理论和实验对话:1990s 的悲观、2014 的物理近似、2018 的经验验证、2022 的对称性消除——一个直觉的修正花了 30 年
延伸阅读
- 论文 PDF:arXiv:1802.10026(10 页正文 + 附录,实验图表很直观)
- 后续 Linear Mode Connectivity:Frankle et al. 2020(同初始化下连直线都低)
- Git Re-Basin:Ainsworth et al. 2022(permutation 对齐后直线连通)
- SWA 原论文:Izmailov et al. 2018(同作者团队,姊妹篇)
- 3d-gaussian-splatting —— 同样靠”参数化几何 + 梯度优化”
- adam-2014 —— 训 mode 端点用的优化器
关联
- adam-2014 —— 训出端点 mode 的优化器,本论文假设端点是 SGD/Adam 收敛的
- adamw-2017 —— 现代训练默认优化器,端点选择影响连通性
- 3d-gaussian-splatting —— 同样把”几何对象”参数化后端到端优化的范式
反向链接
- 3d-gaussian-splatting —— 3D Gaussian Splatting — 用一堆 3D 模糊光斑重建场景
- adam-2014 —— Adam — 让深度学习自己挑步长的优化器
- adamw-2017 —— AdamW — 把 weight decay 从梯度里拆出来