KinectFusion — 用消费级深度相机实时重建三维世界

是什么

KinectFusion 是一套让你拿着一台 150 美元的 Kinect，扫一圈房间，屏幕上就实时长出一个完整三维模型的系统。日常类比：像往一块透明果冻里挤一只鸡蛋。每挤一次，果冻就把鸡蛋形状记下一点；扫一圈以后，果冻里就浮现出鸡蛋的完整 3D 模型。

具体说：

Kinect 每秒发 30 帧深度图（每个像素带一个『离相机多远』的数）
系统把每帧融合进 GPU 上的体素网格，越扫越完整
同时它自己估计相机怎么移动的（不用任何外部传感器）
屏幕实时显示重建出来的网格

把以前需要专业激光扫描仪 + 离线工作站的活，变成手举着相机就能做。

为什么重要

不知道 KinectFusion，下面这些都没法理解：

为什么 ARKit 把手机往房间里晃一圈就能放虚拟家具——核心算法是 KinectFusion 的徒孙
为什么 HoloLens / Quest 的『空间映射』能秒级生效——同一条体素融合的血脉
为什么 SLAM 在 2011 年之后突然进入『稠密时代』——之前主流是只追踪几百个稀疏点
为什么一台 150 美元的游戏配件成了 3D 视觉研究的引爆点

核心要点

KinectFusion 的循环每帧做四件事：

测表面：拿到 Kinect 这一帧的深度图，去噪 + 算每像素法向量
追相机：用 ICP（迭代最近点）把这一帧和『从模型预测的样子』对齐，反推相机移动了多少
融进体素：把当前帧按算出来的相机位姿，融合进 TSDF 体素网格
反投影预测：从新位姿往体素网格里发射光线，生成『下一轮 ICP 的参考帧』

四步在 GPU 上 30 FPS 跑完。

关键数据结构是 TSDF（截断符号距离函数）：把空间切成几百万个小立方体（体素），每个体素记一个数——到最近表面的距离。表面前是负，表面后是正，0 就是表面。截断 = 离得太远的体素不参与。

实践案例

案例 1：TSDF 是怎么记忆表面的

想象房间被切成 5mm × 5mm × 5mm 的小立方格，一共 10 亿个。每个格子里记一个数：

某格距离最近墙壁 +3cm  → 这格在墙后面 3cm
某格距离最近墙壁 -2cm  → 这格在墙前面 2cm
某格距离 = 0          → 这格正好在墙上

每来一帧深度图，被射线扫过的格子都更新一下这个数（加权平均）。多帧后噪声平均掉，表面变光滑。

最后要看表面，就找所有 0 等值面——那就是重建出来的几何。

案例 2：ICP 怎么追踪相机

当前帧深度图：一堆 3D 点
模型预测帧（从 TSDF 光线投射）：另一堆 3D 点

ICP 的步骤：

给当前帧的每个点找『预测帧里最近的点』
算一个旋转 + 平移，让对应点尽量靠近
重复 5 ~ 20 次，直到两堆点贴合
输出的旋转 + 平移就是『相机移动了多少』

这一步不用 GPS、不用 IMU，纯靠几何对齐。

案例 3：为什么必须 GPU

10 亿个体素，每帧每个都要更新——CPU 串行做不完。但每个体素的更新互不依赖，正好是 GPU 拿手好戏：

CPU = 一个超级厨师做一千道菜
GPU = 一千个普通厨师每人做一道

2011 年的 GPU 刚好够 30 FPS 跑完整套循环，这是工程上的临界点。

踩过的坑

体素网格固定尺寸：论文里 5m × 5m × 5m。扫不出长走廊或大场景。后来 Voxel Hashing（2013）、BundleFusion（2017）才解决。
ICP 累积漂移：每帧的小误差累加，扫一圈回原点会发现错位（loop closure 问题）。KinectFusion 不处理；ElasticFusion（2015）才解决。
假设场景静态：人走过去会被融成模糊的拖影。要扫动态物体得用 DynamicFusion（2015，Newcombe 本人后来做的）。
结构光相机的物理限制：强光下、玻璃、镜面、远距离都会失效——硬件层面就有上限。
显存吃紧：5m³ + 5mm 体素 = 10 亿格子。要扩展场景必须用稀疏表示（voxel hashing）。

适用 vs 不适用场景

适用：

中小场景实时三维重建（房间级、桌面级）
有 RGB-D 相机数据流（Kinect、RealSense、Azure Kinect、iPhone LiDAR）
AR 应用需要空间映射（IKEA Place 类）
静态场景扫描（文物数字化、术前扫描）

不适用：

纯单目 RGB → 用 ORB-SLAM / DSO / NeRF
大场景（城市、户外）→ 用 Voxel Hashing / BundleFusion
动态物体 / 非刚性 → 用 DynamicFusion / Co-Fusion
强光、玻璃、镜面、远距离 → 结构光相机本身失效
需要亚毫米精度 → KinectFusion 分辨率 5mm 量级

历史小故事（可跳过）

2010 年 11 月，微软发售 Kinect 给 Xbox 360，售价 150 美元。本意是体感游戏配件，结果 hacker 一周就破解驱动接到 PC，开源社区涌现各种实验。

微软研究院剑桥实验室也注意到了。Newcombe 当时是 Imperial College 博士生（导师 Andrew Davison，PTAM/MonoSLAM 作者），实习去了微软剑桥。Izadi 那边在做 AR 交互。两条线撞上：Newcombe 的 dense SLAM 想法 + Izadi 想要的实时 AR 平台 + Kinect 这台廉价深度相机 + GPU 的算力 = KinectFusion。

论文 2011 年 ISMAR 拿了最佳论文奖，演示视频比论文本身传播更广——观众第一次看到一台便宜相机实时扫出整个房间。这个组合直接定义了之后 10 年的 3D 视觉研究方向。

底层的 TSDF 数据结构其实 1996 年 Curless & Levoy 就在 SIGGRAPH 提出过，用于离线扫描。KinectFusion 把它实时化——好想法常常等十几年才等到合适的硬件。

学到什么

硬件廉价化是研究爆点：Kinect 把深度相机从 1 万美元拉到 150 美元，立刻引发研究海啸
GPU 不是加速器，是范式转换：体素融合在 CPU 上不可行，在 GPU 上是基本操作——『可不可行』取决于硬件
稠密 vs 稀疏的分水岭：之前 SLAM 主流是稀疏点云（节省算力），KinectFusion 证明稠密 + GPU 也能实时，开启了 dense SLAM 时代
理论 → 算法 → 工程：TSDF 1996 提出 → KinectFusion 2011 实时化 → 2017 工业级大场景。每跨一步隔十几年

后续演化（KinectFusion 之后这条血脉）

KinectFusion 之后十年，每个限制都被一篇论文专门解决：

Kintinuous（2012）：滚动体素窗口——相机走出原范围时，旧体素被移走，新体素加入。能扫长走廊。
Voxel Hashing（Nießner 2013）：用哈希表只存表面附近的体素，10 亿格子塌缩成几百万。直接破除尺寸上限。
ElasticFusion（Whelan 2015）：换数据结构——不存体素，存 surfel（面元）+ 形变图。能处理 loop closure（扫一圈合上）。
DynamicFusion（Newcombe 自己 2015）：把『刚体 + 形变场』分开存，能扫人脸表情、人手运动。Newcombe 拿了 CVPR 2015 最佳论文。
BundleFusion（Dai 2017）：每帧都重新做全局位姿优化 + 重新融合，工业级大场景重建。
今天的产品：ARKit / ARCore / Quest / HoloLens 的空间映射，底层都是这条 TSDF 体素融合 + GPU 实时的血脉。

关联

curless-levoy-1996-tsdf —— 提供 TSDF 这个数据结构，KinectFusion 把它从离线扫描搬到实时
3d-gaussian-splatting —— 当代主流的几何 + 渲染统一表示，与 KinectFusion 同样追求『真实场景到数字模型』
ampere-architecture-2020 —— GPU 架构演进让稠密 SLAM 越来越可行，KinectFusion 是『GPU 让一切重做一遍』思路在视觉领域的早期典范