Local Privacy and Statistical Minimax Rates

是什么

Local Privacy and Statistical Minimax Rates 提出：本地差分隐私的统计极小极大率。

日常类比：像每人先往自己的问卷上撒沙子再上交，统计局只能看总体。

读论文时先抓「威胁模型/假设→核心构造→复杂度/开销」三件事。

为什么重要

Apple/Google LDP 理论限
理解 epsilon 下界
链 abadi-dpsgd-2016
联邦统计合规

核心要点

问题设定：作者要解决什么不可能三角（安全/性能/易用）。
关键技巧：一个构造或定理把难题拆成可实现步骤。
安全假设：信任根、敌手能力、失败概率。
工程映射：开源库与 RFC 如何落地论文思想。
局限：已知攻击面、参数选取、未来工作。

实践案例

案例 1：画威胁模型表

列：资产、敌手、能力、目标；对照论文假设勾选覆盖项。

案例 2：找开源实现

# 搜索论文标题 + library 名称，读 README 的 security note

案例 3：与邻居论文对照

阅读 abadi-dpsgd-2016，画时间线：哪篇解决 setup/性能/证明长度。

案例 4：面试复述

用「类比 + 三要点」在 2 分钟内讲清；准备一条「为什么不用更简单方案」。

案例 5：与双千 atlas 交叉阅读

在 papers-atlas 找同子类 1 篇，对比实践案例是否覆盖实验/参数/失败模式。

踩过的坑

把理想模型当产品默认：论文参数在工业界常被放宽。
忽略组合开销：多个原语组合时安全界不是简单相加。
误读实验规模：小数据集上的 ε 不可直接外推。
混淆相似缩写：如 DP/LDP、SNARK/STARK 场景不同。
行数与模板：交付前用 quality-gate 扫一遍。

适用 vs 不适用场景

适用：

安全/系统/architecture 面试深挖
选型隐私或密码组件前的理论扫盲
读源码前的概念地图

不适用：

不做威胁建模直接上生产
替代官方标准文本（FIPS/RFC）
数学证明细节（请读原文附录）

历史小故事（可跳过）

论文常是多年社区实践的第一次形式化。
标准机构（NIST/IETF）往往在论文后收敛算法名。
开源实现与论文版本存在参数漂移，以 release 为准。
近年与 ML、TEE、区块链场景强交叉。

学到什么

安全方案先问威胁模型，再问漂亮数学。
工程落地看常量与实现漏洞，不只看渐近复杂度。
论文链式阅读比单篇精读更高效。
与站内 neighbors 互链能形成可复习的知识图。

核心算法细节

本地差分隐私机制

本地 DP（LDP）与中心 DP 的关键区别：数据在离开用户设备前就已被扰动，服务器永远看不到原始数据。

随机响应机制（Randomized Response）：

用户报告真实值 v 时，以概率 e^ε/(e^ε + 1) 报告真实值，否则报告随机值
ε 隐私预算：ε 越小，随机性越强，隐私保护越强，但统计精度越低

import numpy as np

def local_dp_report(true_value: int, epsilon: float) -> int:
    """二元值的随机响应 LDP 机制"""
    p = np.exp(epsilon) / (np.exp(epsilon) + 1)
    return true_value if np.random.random() < p else (1 - true_value)

def estimate_frequency(reports, epsilon: float) -> float:
    """从扰动报告中恢复频率估计"""
    p = np.exp(epsilon) / (np.exp(epsilon) + 1)
    noisy_freq = sum(reports) / len(reports)
    # 去偏估计
    return (noisy_freq - (1 - p)) / (2 * p - 1)

统计极小极大率

论文的核心理论贡献是证明了 LDP 下统计估计的下界：

均值估计：MSE 至少为 O(d/(n·ε²))，其中 d 是维度，n 是用户数
频率估计：误差至少为 O(√(k/(n·ε²)))，k 为类别数
这些下界揭示 LDP 比中心 DP 需要 √n 倍更多用户才能达到相同精度

工业应用案例

公司	场景	机制	ε 值
Apple	iOS 键盘词频统计	Count Mean Sketch	1-4
Google	Chrome 崩溃报告（RAPPOR）	Bloom Filter + RR	2-8
Microsoft	Windows 诊断数据	直方图估计	1-2
Meta	广告度量聚合	本地 + 中心混合	可变

工程实现要点

Google RAPPOR：开源 LDP 实现，用 Bloom Filter 编码字符串后再随机响应
Apple DP：苹果在 macOS/iOS 中的 LDP 框架，用于表情符号、新词使用统计
OpenDP：哈佛/微软联合开源库，包含 LDP 机制实现
隐私预算管理：多次收集时用组合定理（序列组合 ε 累加，并行组合取最大 ε）
实践 ε 选取：工业界通常 ε ∈ [1, 10]，学术界理论分析常用 ε ≤ 1
高维问题：LDP 在高维下噪声过大，需用 RAPPOR 或 LDP with Amplification 优化

关联

abadi-dpsgd-2016 —— 同路线前后文
dwork-calibrating-noise-2006 —— 同路线前后文
erlingsson-rappor-2014 —— 同路线前后文

维护备注

引用格式保持单引号包裹 来源 字段。

反向链接

abadi-dpsgd-2016 —— DP-SGD — 深度学习差分隐私训练
dwork-calibrating-noise-2006 —— 校准噪声与敏感度 — Laplace 机制奠基
dwork-our-data-ourselves-2006 —— 分布式噪声生成 — 去掉可信管理员也能保护隐私
erlingsson-rappor-2014 —— RAPPOR — 本地差分隐私随机响应采集
mcmahan-fedavg-2017 —— FedAvg — 联邦学习奠基算法
mironov-renyi-dp-2017 —— Rényi 差分隐私 — 隐私会计统一框架