Sinfonia 2007 — 把分布式协议降级成数据结构操作

是什么

Sinfonia 是 HP Labs 2007 年发的一篇 SOSP 论文，做的事可以一句话讲完：让你写分布式系统时，不再设计”消息协议”，而是像操作共享内存一样组装一束读/写/比较——系统替你把这一束在多机器上原子提交。

日常类比：传统分布式事务像让一帮人通过对讲机协调”我先报数你再确认”，每一句话都要精心设计；Sinfonia 把这个降级成”你把要改的格子全列在一张便签上交给前台，前台一次性帮你全填或全不填”。前台就是一组叫 memory node 的傻存储，你写的便签叫 minitransaction。

它要解决的真实问题：2007 年要写一个集群文件系统、分布式锁、组通信，每一种都得发明自己的复制 + 锁 + 恢复协议，工作量大且容易写错。Sinfonia 提供一套通用底座，让这三种系统都用 minitransaction 重写，代码量降一半、性能反升。

为什么重要

不理解 Sinfonia，下面这些事都没法解释：

为什么 percolator-2010 的 prewrite + commit 看起来”不像通用 2PC”——它精神上继承了 Sinfonia 的 piggyback 思路
为什么后来的 FaRM / RAMCloud / Spanner 都让客户端组装事务、存储层只做线性化原语——Sinfonia 第一个把这条路系统化
为什么”受限事务”会成为高性能分布式存储的潜规则——它是性能 vs 表达力的甜点位
为什么很多教科书把 Sinfonia 单列一节，和 2PC、Paxos 并排——它定义了第三种范式

核心要点

Sinfonia 的设计可以拆成 四个零件：

memory node（存储层，傻）：提供一段线性化的字节寻址内存，只支持 read / write / compare-and-swap 这种基本原语。没有事务、没有锁、没有类型。多台 memory node 之间互不通信。
application node（应用层，全部协调逻辑在这）：客户端进程组装 minitransaction，自己扮演 2PC coordinator，决定提交还是 abort。memory node 不知道事务存在，只看到一连串”原子操作请求”。
minitransaction = (compare_items, read_items, write_items)：一次提交时，必须事先列出要比较哪些位置、读哪些位置、写哪些位置。系统保证整束要么全部生效、要么全部不生效。事先列出这条限制是性能的关键——服务端不必和客户端来回交互。
piggyback prepare（一次往返就提交）：传统 2PC 要先 begin → read → write → prepare → commit 多次往返。Sinfonia 把 prepare 和”实际执行 compare/read/write”合并成同一条消息：memory node 收到时同时跑校验、加锁、写日志、回 vote。常态下1 个 round trip 就完成提交。

四件加起来才是 Sinfonia。少任何一件都不成立。

实践案例

案例 1：集群文件系统怎么用 minitransaction 写

SinfoniaFS 把目录项、inode、数据块都摆在 memory node 的字节地址空间里。创建文件 /a/b 的核心操作：

组装 minitransaction：
- compare：父目录 /a 的版本号 = 之前读到的值（CAS 保护）
- read：空闲 inode 位图的某段
- write：分配一个 inode、写目录项、把位图对应位置 1
提交 → 1 round trip，要么全成要么全不成

如果两个客户端同时建同名文件，CAS 保护会让其中一个 abort，应用层重试即可。整个文件系统没有自己的锁服务、没有自己的复制逻辑——全靠 minitransaction。

案例 2：piggyback prepare 为什么省一半往返

通用 2PC 的标准流程：

client → coordinator: begin
client ↔ servers: read（多次）
client ↔ servers: write（多次，先在 coordinator 缓冲）
coordinator → servers: prepare（第 1 次广播）
servers → coordinator: vote
coordinator → servers: commit（第 2 次广播）

Sinfonia 流程：

application → memory nodes: minitransaction（compare+read+write+prepare 合一）
memory nodes → application: 同时回 vote 和读到的值
application → memory nodes: commit

服务端收到第一条消息就同时跑 compare、读快照、加锁缓冲、回 vote。客户端拿到全部 yes 后只需补一条 commit。常态 1 round trip，最坏 2。论文测得吞吐比通用 2PC 高一个数量级。

案例 3：crash 恢复怎么做

application node 在 commit 中途挂了，留下一堆 memory node 处于”投了 yes 但没收到 commit”的悬挂态。Sinfonia 的恢复机制：

memory node 本地有 WAL，记录所有已 prepare 但未 commit 的事务
一个 recovery coordinator（独立进程）周期性扫描悬挂事务
询问所有相关 memory node 的 vote：全 yes → roll-forward 提交；任一 no/timeout → abort 释放锁

这套机制和 aries-1992 单机 WAL 同源，但搬到了多机：每台 memory node 各自记日志，coordinator 跨机仲裁。

案例 4：分布式锁服务怎么用一个 CAS 实现

SinfoniaGCS 的 leader 选举：

在某个固定地址放一个”当前 leader id”字段
候选者发 minitransaction：compare(addr, 0) + write(addr, my_id)
CAS 成功 = 我是 leader；失败 = 已有 leader

整个锁服务没有 ZooKeeper 那种 watch 通知机制，靠周期性 CAS 续约。简单到极致。

踩过的坑

minitransaction 必须事先列出读写位置：你不能”读到 A 的值之后再决定要不要写 B”。这条限制让 1 RTT 提交成为可能，但写不出”链式依赖”的事务。变通办法：分多次 minitransaction，靠 CAS 保护中间状态。
memory node 之间不互通：跨节点一致性全靠客户端协调。客户端进程的可靠性要求高，论文用 recovery coordinator 兜底。
没有快照隔离：minitransaction 是 “linearizable + 单次原子”，不是 SI。读多个键各自看到的版本可能来自不同时刻。要 SI 得在 application 层自己做版本管理（这正是 Percolator 做的事）。
复制单独做：memory node 想容忍单机故障要自己跑 primary-backup 或 Paxos。论文里把复制当作独立维度，没塞进 minitransaction 协议——这是设计上的洁癖，但落地时还得另外搭。

适用 vs 不适用场景

适用：

数据中心内的高吞吐分布式存储（集群 FS、KV、锁服务）
已有线性化 KV 想加跨键原子性，但不想引入完整事务管理器
受限事务能表达的场景（绝大多数 OLTP 都能拆成几条 minitransaction）

不适用：

需要交互式长事务（边读边决策） → 上 Spanner / Percolator 的快照隔离模型
跨数据中心 → minitransaction 的 1 RTT 优势在 WAN 上消失，且无外部一致性保证
高竞争场景 → CAS 失败重试会风暴，需要乐观/悲观锁混合
不能列举读写集 → 用通用 2PC 或 SQL 事务

历史小故事（可跳过）

2004：HP Labs 一组人发现内部多个分布式系统都在重发明 2PC 的轮子。
2007：Aguilera 等在 SOSP 发表 Sinfonia，提出 minitransaction 范式，配三个真实应用（FS / GCS / 锁）证明可用。
2010：percolator-2010 在 OSDI 发表，把 prewrite + commit 单行原子撬动跨行的思路推到工业界——Sinfonia 的精神延续。
2012：spanner-2012 用 TrueTime + Paxos 把”客户端组装事务”做到全球规模。
2014 后：FaRM、RAMCloud、TAPIR 这一系都把 Sinfonia 的”线性化存储 + 客户端组装”奉为基线。

学到什么

降级问题比解决问题更聪明：Sinfonia 没有发明更强的 2PC，而是把”通用事务”砍成”受限事务”，性能立刻起飞。这是分布式系统设计里反复出现的母题。
服务端做最少的事，客户端做最多的事：memory node 不知道事务，application 全责协调。这条思路后来被 Percolator / Spanner / TiKV 全部采纳。
piggyback 是 RPC 优化的看家功夫：能合并的消息就合并，能在第一条消息里捎带的东西就带上。从 Sinfonia 到 gRPC，都是同一个原则。
受限是为了放飞：minitransaction 限制读写集事先列出，看似别扭，但这是 1 RTT 提交的入场券。约束创造性能——把这条钉在墙上。

Sinfonia vs Percolator vs Spanner 速查

三篇论文构成了”客户端组装事务”的演化谱系：

维度	Sinfonia (2007)	Percolator (2010)	Spanner (2012)
隔离级别	linearizable 单次原子	snapshot isolation	external consistency
时间戳	无（单次 minitxn 不需要）	TSO 单点	TrueTime
协调者	客户端 + recovery coord	客户端 + primary 行	服务端 participant leader
事务表达力	受限（事先列读写集）	完整 SI 事务	完整 SQL 事务
提交延迟	1 RTT 常态	2 RTT（prewrite + commit）	2 RTT + commit wait

读完 Sinfonia 再读 Percolator 会有”原来 prewrite 这套思路 2007 年就有了”的恍然大悟。

关联

percolator-2010 —— 精神上的直系后代，把 prewrite + commit 推到 Bigtable 之上
spanner-2012 —— 客户端组装事务路线的全球分布版
hlc-2014 —— 替 TSO/TrueTime 提供去中心化时间戳的另一条路
chandy-lamport-1985 —— 分布式快照祖宗，Sinfonia 的 recovery coordinator 思想同源
paxos-1998 —— memory node 想容错复制时用的底层共识协议
aries-1992 —— 单机 WAL 范式，Sinfonia 把 WAL 搬到每个 memory node