跳转到内容

Chatbot Arena — 让真人盲投,给 LLM 排出公允座次

是什么

Chatbot Arena 是 LMSYS 团队在 2023 年 5 月上线的一个网站 + 一套评测方法:你随便提一个问题,网站把你的问题同时丢给两个不告诉你名字的模型 A 和 B,你读完两份回答后投票哪个更好,投完才揭示是谁。投票被汇总成一张排行榜。

日常类比:象棋比赛里两个高手匿名对弈,棋友只看棋谱投谁下得好——下完了再揭面具。重复几十万局后,每个高手的实力就有了一个数字(Elo 评分)。

这个网站后来变成业界看”哪个 LLM 最强”最常引用的来源——比 MMLU、HellaSwag 这些静态题库更说话。

为什么重要

不理解 Arena 这套方法,下面这些事都没法解释:

  • 为什么 OpenAI / Anthropic / Google 发新模型都要紧盯Arena 排名而不是只发 benchmark 分数
  • 为什么”benchmark 跑分高”和”实际用着好”在 LLM 时代经常脱节
  • 为什么”成对比较 + Elo”是评估没有标准答案的开放任务几乎唯一能 scale 的办法
  • 为什么开源模型(Llama、Qwen、Mistral)能在 Arena 上和闭源拉差距,证据被市场接受

核心要点

Arena 的方法可以拆成 四件事

  1. 盲测:用户看不到模型名字,投完才揭示。防止”看到 GPT-4 标签就闭眼投”的品牌偏见。

  2. 成对比较:每次只比 A vs B 谁好,不让用户打”6.5 分”这种绝对分。人类对比较敏感,对绝对评分不敏感。

  3. Bradley-Terry 模型把胜率回归成分数:每个模型有个隐藏分数 β,两两胜率 P(i 赢 j) ≈ σ(β_i − β_j)。投票越多,β 越准。

  4. 主动采样:哪两个模型对比最少、置信区间最宽,就优先把它们配对给下一个用户。让样本花在最该花的地方。

四件事加起来,几十万投票就能稳住一张全网都信的排行榜。

实践案例

案例 1:Elo 评分怎么算

Elo 是 1960 年代物理学家 Arpad Elo 给国际象棋设计的:

预期胜率 E_A = 1 / (1 + 10^((R_B - R_A) / 400))
比完之后: R_A_new = R_A + K × (实际得分 - E_A)

逐行解释

  • R_AR_B:两边当前分数
  • 分差 400 → 高分一方预期胜率 90%
  • 实际得分:赢=1,平=0.5,输=0
  • K:调整速度,国象常用 16-32;爆冷胜分加得多

放到 Arena:模型 A 当前 1180、模型 B 当前 1150,预期 A 胜率 54%。这局 B 赢了——B 加分 A 扣分,差距收窄。

案例 2:Bradley-Terry 比 Elo 更稳

Elo 是顺序更新(来一票更一次),早期波动大。Bradley-Terry 是一次性回归

对所有 N 个模型同时拟合 β_1...β_N,让 ∏ P(每场观察到的结果) 最大

意思是”在已经观察到的所有投票里,找一组 β 让这些投票最有可能发生”。论文最终主榜用 BT,因为它没有顺序依赖、置信区间好算

案例 3:主动采样让有限投票最值钱

假设排行榜有 50 个模型。两两组合 = 1225 对。如果每对都凑够 1000 票,要 122 万票才能稳。Arena 的招:

  1. 给每对当前的胜率算一个置信区间
  2. 区间最宽(最不确定)的那对,下一票优先派给它
  3. SOTA 之间的对决投票多 → 区间窄;新上线弱模型对决少 → 优先补

效果:相同总票数下,排名稳定度比”随机配对”高一倍以上。

案例 4:异常检测过滤水军

任何公开众包平台都怕脏数据:脚本机器人、品牌粉丝团、刷分工作室。Arena 用三层过滤:

  1. 频次启发式:同 IP 短时间内投票过多 → 降权
  2. 行为模式:每次都偏向某个特定模型,不论内容 → 标记
  3. 质量分数:投票之前的 prompt 是否多样、是否有意义 → 低分用户的票权重打折

加权后再喂进 BT 回归,避免少数人左右大盘。

踩过的坑

  1. 品牌偏见仍可能从”风格”漏进来:盲测看不见名字,但 GPT-4 喜欢长且礼貌的格式,用户偏好这种风格 → 即使内容相同,长回答天然占便宜。论文承认这是局限。

  2. 新模型置信区间宽:刚上线投票少,排名第 5 还是第 8 都有可能。看新模型 Arena 排名要等几天到一周。

  3. 用户群偏技术圈:访问 Arena 的多是开发者、研究者、AI 爱好者,他们的偏好不等于全体人类偏好。论文用 prompt 多样性指标缓解,但没法根除。

  4. prompt 分布偏闲聊和短对话:企业级场景(长合同、复杂代码库)在 Arena 几乎不出现 → 排名对那种场景参考性弱。

适用 vs 不适用场景

适用

  • 比较多个 LLM 在开放、无标答任务上的总体强弱(聊天、写作、推理混合)
  • 给公众发布”我家模型挤进前几”的可信证据
  • 用 BT / Elo 给任何”成对人类偏好”任务排名(图像生成、TTS、翻译都行)

不适用

  • 需要绝对指标的场景(如”这个回答事实正确率是多少”)→ 用 benchmark 或人工标注
  • 评测专业领域(医学、法律)→ 用户群不对,要专门招专家
  • 评测安全性(拒答率、越狱率)→ Arena 不收这种信号
  • 投票量太少时(< 几千票)排名不稳,别强行用

历史小故事(可跳过)

  • 1952:统计学家 Bradley 和 Terry 提出成对比较模型,本来用于品酒、商品偏好
  • 1960s:物理学家 Arpad Elo 给国际象棋发明 Elo 评分,世界象棋联合会 1970 采纳
  • 2020-2022:LLM 评测靠 MMLU、HellaSwag、HumanEval 这些静态题库,刷题严重
  • 2023.05:LMSYS 团队(UC Berkeley + CMU 联合)上线 Chatbot Arena,把象棋的方法搬过来评 LLM
  • 2024.03:240K+ 投票,论文上线 arXiv,业界开始把 Arena 排名当主榜
  • 2024:ICML 收录;OpenAI、Google、Anthropic 发新模型时纷纷标榜 Arena 排名

学到什么

  1. 没有标答的任务,靠成对比较 + 统计模型,比靠绝对评分稳得多——这是 Elo 60 年前就解决的问题,LLM 时代重新发现
  2. 盲测主动采样是让评测便宜又可信的两个工程招数,不是统计花活
  3. Bradley-Terry vs Elo:BT 适合一次性算静态排名,Elo 适合实时更新;论文做了取舍
  4. 静态 benchmark 终会过拟合,开放、众包、对抗的真实流量是评测下一阶段的方向

延伸阅读

  • 实时排行榜:lmarena.ai(原 chat.lmsys.org,可以亲手投几票感受流程)
  • 论文 PDF:arXiv 2403.04132
  • 数据集:LMSYS 把 100K 投票公开了,Hugging Face 搜 lmsys/chatbot_arena_conversations
  • mmlu-2021 —— 静态 benchmark 的代表,Arena 想取代的就是这类
  • rlhf-christiano —— 同样是”用人类偏好当训练信号”,但目的是训练而非评测
  • alphago —— 同款”自我对弈 + Elo 评分”思路,AlphaGo 用过

关联

  • mmlu-2021 —— Arena 想替代的静态 benchmark,对比”刷题易过拟合 vs 真实偏好难刷”
  • rlhf-christiano —— 把人类成对偏好当训练信号而不是评测信号
  • instructgpt —— RLHF 的工业落地,模型本身就被偏好数据塑形过
  • alphago —— 自我对弈 + Elo 用来给围棋程序定级的先例
  • gpt-3 —— Arena 排行榜上长期占顶部位置的代表玩家
  • llama —— 开源模型靠 Arena 排名证明能逼近闭源

反向链接

  • alphago —— AlphaGo — 击败围棋世界冠军
  • gpt-3 —— GPT-3 — Language Models are Few-Shot Learners
  • instructgpt —— InstructGPT — RLHF 让 LLM 听话
  • llama —— LLaMA — Meta 开源大语言模型
  • mmlu-2021 —— MMLU — 用 57 个学科的多选题考一考语言模型
  • rlhf-christiano —— RLHF Christiano 2017 — 人类偏好做奖励