Chatbot Arena — 让真人盲投，给 LLM 排出公允座次

是什么

Chatbot Arena 是 LMSYS 团队在 2023 年 5 月上线的一个网站 + 一套评测方法：你随便提一个问题，网站把你的问题同时丢给两个不告诉你名字的模型 A 和 B，你读完两份回答后投票哪个更好，投完才揭示是谁。投票被汇总成一张排行榜。

日常类比：象棋比赛里两个高手匿名对弈，棋友只看棋谱投谁下得好——下完了再揭面具。重复几十万局后，每个高手的实力就有了一个数字（Elo 评分）。

这个网站后来变成业界看”哪个 LLM 最强”最常引用的来源——比 MMLU、HellaSwag 这些静态题库更说话。

为什么重要

不理解 Arena 这套方法，下面这些事都没法解释：

为什么 OpenAI / Anthropic / Google 发新模型都要紧盯Arena 排名而不是只发 benchmark 分数
为什么”benchmark 跑分高”和”实际用着好”在 LLM 时代经常脱节
为什么”成对比较 + Elo”是评估没有标准答案的开放任务几乎唯一能 scale 的办法
为什么开源模型（Llama、Qwen、Mistral）能在 Arena 上和闭源拉差距，证据被市场接受

核心要点

Arena 的方法可以拆成 四件事：

盲测：用户看不到模型名字，投完才揭示。防止”看到 GPT-4 标签就闭眼投”的品牌偏见。
成对比较：每次只比 A vs B 谁好，不让用户打”6.5 分”这种绝对分。人类对比较敏感，对绝对评分不敏感。
Bradley-Terry 模型把胜率回归成分数：每个模型有个隐藏分数 β，两两胜率 P(i 赢 j) ≈ σ(β_i − β_j)。投票越多，β 越准。
主动采样：哪两个模型对比最少、置信区间最宽，就优先把它们配对给下一个用户。让样本花在最该花的地方。

四件事加起来，几十万投票就能稳住一张全网都信的排行榜。

实践案例

案例 1：Elo 评分怎么算

Elo 是 1960 年代物理学家 Arpad Elo 给国际象棋设计的：

预期胜率 E_A = 1 / (1 + 10^((R_B - R_A) / 400))
比完之后：    R_A_new = R_A + K × (实际得分 - E_A)

逐行解释：

R_A、R_B：两边当前分数
分差 400 → 高分一方预期胜率 90%
实际得分：赢=1，平=0.5，输=0
K：调整速度，国象常用 16-32；爆冷胜分加得多

放到 Arena：模型 A 当前 1180、模型 B 当前 1150，预期 A 胜率 54%。这局 B 赢了——B 加分 A 扣分，差距收窄。

案例 2：Bradley-Terry 比 Elo 更稳

Elo 是顺序更新（来一票更一次），早期波动大。Bradley-Terry 是一次性回归：

对所有 N 个模型同时拟合 β_1...β_N，让 ∏ P(每场观察到的结果) 最大

意思是”在已经观察到的所有投票里，找一组 β 让这些投票最有可能发生”。论文最终主榜用 BT，因为它没有顺序依赖、置信区间好算。

案例 3：主动采样让有限投票最值钱

假设排行榜有 50 个模型。两两组合 = 1225 对。如果每对都凑够 1000 票，要 122 万票才能稳。Arena 的招：

给每对当前的胜率算一个置信区间
区间最宽（最不确定）的那对，下一票优先派给它
SOTA 之间的对决投票多 → 区间窄；新上线弱模型对决少 → 优先补

效果：相同总票数下，排名稳定度比”随机配对”高一倍以上。

案例 4：异常检测过滤水军

任何公开众包平台都怕脏数据：脚本机器人、品牌粉丝团、刷分工作室。Arena 用三层过滤：

频次启发式：同 IP 短时间内投票过多 → 降权
行为模式：每次都偏向某个特定模型，不论内容 → 标记
质量分数：投票之前的 prompt 是否多样、是否有意义 → 低分用户的票权重打折

加权后再喂进 BT 回归，避免少数人左右大盘。

踩过的坑

品牌偏见仍可能从”风格”漏进来：盲测看不见名字，但 GPT-4 喜欢长且礼貌的格式，用户偏好这种风格 → 即使内容相同，长回答天然占便宜。论文承认这是局限。
新模型置信区间宽：刚上线投票少，排名第 5 还是第 8 都有可能。看新模型 Arena 排名要等几天到一周。
用户群偏技术圈：访问 Arena 的多是开发者、研究者、AI 爱好者，他们的偏好不等于全体人类偏好。论文用 prompt 多样性指标缓解，但没法根除。
prompt 分布偏闲聊和短对话：企业级场景（长合同、复杂代码库）在 Arena 几乎不出现 → 排名对那种场景参考性弱。

适用 vs 不适用场景

适用：

比较多个 LLM 在开放、无标答任务上的总体强弱（聊天、写作、推理混合）
给公众发布”我家模型挤进前几”的可信证据
用 BT / Elo 给任何”成对人类偏好”任务排名（图像生成、TTS、翻译都行）

不适用：

需要绝对指标的场景（如”这个回答事实正确率是多少”）→ 用 benchmark 或人工标注
评测专业领域（医学、法律）→ 用户群不对，要专门招专家
评测安全性（拒答率、越狱率）→ Arena 不收这种信号
投票量太少时（< 几千票）排名不稳，别强行用

历史小故事（可跳过）

1952：统计学家 Bradley 和 Terry 提出成对比较模型，本来用于品酒、商品偏好
1960s：物理学家 Arpad Elo 给国际象棋发明 Elo 评分，世界象棋联合会 1970 采纳
2020-2022：LLM 评测靠 MMLU、HellaSwag、HumanEval 这些静态题库，刷题严重
2023.05：LMSYS 团队（UC Berkeley + CMU 联合）上线 Chatbot Arena，把象棋的方法搬过来评 LLM
2024.03：240K+ 投票，论文上线 arXiv，业界开始把 Arena 排名当主榜
2024：ICML 收录；OpenAI、Google、Anthropic 发新模型时纷纷标榜 Arena 排名

学到什么

没有标答的任务，靠成对比较 + 统计模型，比靠绝对评分稳得多——这是 Elo 60 年前就解决的问题，LLM 时代重新发现
盲测和主动采样是让评测便宜又可信的两个工程招数，不是统计花活
Bradley-Terry vs Elo：BT 适合一次性算静态排名，Elo 适合实时更新；论文做了取舍
静态 benchmark 终会过拟合，开放、众包、对抗的真实流量是评测下一阶段的方向

关联

mmlu-2021 —— Arena 想替代的静态 benchmark，对比”刷题易过拟合 vs 真实偏好难刷”
rlhf-christiano —— 把人类成对偏好当训练信号而不是评测信号
instructgpt —— RLHF 的工业落地，模型本身就被偏好数据塑形过
alphago —— 自我对弈 + Elo 用来给围棋程序定级的先例
gpt-3 —— Arena 排行榜上长期占顶部位置的代表玩家
llama —— 开源模型靠 Arena 排名证明能逼近闭源

反向链接

alphago —— AlphaGo — 击败围棋世界冠军
gpt-3 —— GPT-3 — Language Models are Few-Shot Learners
instructgpt —— InstructGPT — RLHF 让 LLM 听话
llama —— LLaMA — Meta 开源大语言模型
mmlu-2021 —— MMLU — 用 57 个学科的多选题考一考语言模型
rlhf-christiano —— RLHF Christiano 2017 — 人类偏好做奖励