MMLU — 用 57 个学科的多选题考一考语言模型

是什么

MMLU（Massive Multitask Language Understanding）是一份给语言模型做的综合考试卷。日常类比：像高考 + 公务员考试 + 医师资格 + 法考 + 大学专业课，57 个科目混起来出一张卷，4 选 1 的多选题，看模型能拿多少分。

题目长这样：

Question: One of the reasons that the government discourages monopolies is that
(A) producer surplus is lost and consumer surplus is gained
(B) monopoly prices ensure productive efficiency but cost society allocative efficiency
(C) monopoly firms do not engage in significant research and development
(D) consumer surplus is lost with higher prices and lower levels of output

Answer: D

整个数据集 15908 道题，分成 dev（每科 5 题用作 few-shot 示例）/ val（1540 题）/ test（14079 题）。模型在 test 上跑一遍，按四选一准确率打分。随机猜的基线是 25%。

为什么重要

不理解 MMLU，下面这些事都说不通：

你看 GPT-4 / Claude / Gemini / Llama 发布会报的 「MMLU = 86.4%」 —— 都来自这套题
在 MMLU 之前，NLP 评测分散在 GLUE / SuperGLUE 这类「单任务语言能力」上，模型刷到 90% 也不代表「懂知识」
MMLU 把「世界知识 + 推理」一起测，推动整个领域从「测语言任务」转向「测综合智力」，后续 BIG-Bench / HELM / MMLU-Pro 都是它的徒弟
它也是「模型变大就突然会做题」（emergent ability）这个说法的最早证据来源之一——GPT-3 175B 比 13B 跳了 10 多分

核心要点

MMLU 的设计可以拆成 三个选择：

科目多样：覆盖 57 科，分四大类——
- STEM（19 科）：抽象代数、解剖学、天文学、计算机安全、机器学习……
- 人文（13 科）：形式逻辑、世界宗教、道德困境、专业法律……
- 社科（12 科）：高中地理、计量经济、心理学、美国外交政策……
- 其他（13 科）：营销、营养学、专业医学、病毒学、杂项……
难度跨度大：从「小学数学」到「专业级法考 / 医考」都在一份卷子里。这样既看模型「学没学过」，也看「会不会推」。
few-shot 设定：不微调模型，给 5 道同科目示例题再问真题（5-shot），考的是模型自己的知识，不是「这次专门为题练过」。
- 0-shot：只给题，不给例子（最难，看模型「裸」的能力）
- 5-shot：给 5 个例子再考（最常用）
- chain-of-thought：让模型先「想一想」再答（GPT-4 时代成主流）

「5-shot 默认」这个设定让 MMLU 跨论文可比——大家都用同一份 dev 集做 prompt。

实践案例

案例 1：GPT-3 出来时大家在惊讶什么

2020 年 GPT-3 175B 跑 MMLU，平均 43.9%。听起来像不及格，但要看两个对比：

随机猜：25%
当年最强的 BERT-Large 微调过：约 32.5%（不到 33%）

GPT-3 不微调、靠 prompt 就比专门微调的 BERT 高 11 分——这是「大模型 zero-shot 比小模型 fine-tune 还强」第一次被定量证明。论文标题里「Massive」就是这意思。

案例 2：人类专家是怎么打分的

作者找了不同学科的研究生 / 专业人士做同一份题，平均拿 89.8%。这给模型设了一个人类天花板——后来 GPT-4（2023）拿 86.4%、Claude 3 Opus 拿 86.8%，已经基本贴住人类。

「MMLU 饱和」是 2023 年开始的常见说法，意思是：再做大模型在 MMLU 上提分变得困难，因为本来就接近上限了。

案例 3：你自己怎么跑一遍

# 官方实现
git clone https://github.com/hendrycks/test
cd test
python evaluate.py --model llama-7b

# 现在更常用的做法：lm-evaluation-harness
pip install lm-eval
lm-eval --model hf --model_args pretrained=meta-llama/Llama-2-7b \
        --tasks mmlu --num_fewshot 5

第二种是 EleutherAI 维护的统一评测框架，把 MMLU 当成一个 task 跑。绝大多数论文里报的 MMLU 分都是这套出的。

踩过的坑

数据污染：题目来自公开考试网站和教材。新模型训练时可能直接「背过原题」，分数虚高。研究者后来用 N-gram 重叠检测、用闭源新题再考一次等办法做对照实验。
只能测多选题：MMLU 全部是 4 选 1，测不出生成质量、推理过程、长链思考。模型可能蒙对答案但解释错的。这也是 GSM8K（让模型写数学解题步骤）和 GPQA（专家级开放题）出现的原因。
科目权重不均：57 科算「平均分」时是简单平均，冷门科目（如「全球事实」）和热门科目（如「机器学习」）权重一样。这让某些模型可以靠刷一两个高题量科目拉高总分。
答案有错：社区抽查发现 MMLU 里有约 6% 的题答案标错或题目本身有歧义（参考 MMLU-Pro 的论文）。前沿模型已经被这个 6% 卡住，分不出高下。
「饱和」不等于「智力足够」：MMLU 86% 不代表模型像人一样懂知识。它只代表「这种 4 选 1 形式的考试模型答得很好」。法律、医疗的实务能力还需要另外评。
prompt 写法影响巨大：同一个模型，prompt 改一下分数差 5-10 分。是把答案放在「Answer:」后还是「The answer is」后、是否大写、空格几个——都有人扫过。复现别人分数前先看清楚 prompt 模板。

适用 vs 不适用场景

适用：

横向对比不同 LLM 的「综合知识广度」
训练 / 微调后看模型有没有遗忘通用知识（regression test）
研究 scaling law（模型变大分数怎么变）

不适用：

测推理过程 → 用 GSM8K / MATH / BBH
测前沿研究水平 → 用 GPQA Diamond
测中文知识 → 用 C-Eval / CMMLU（中文版仿照设计）
测 agent 能力 → 用 SWE-Bench / OSWorld
模型已经 > 85% 时再用 → 换 MMLU-Pro（10 选 1，更新题目，去污染）

历史小故事（可跳过）

2020 年 9 月：Hendrycks 还是 Berkeley 博士生，挂出 arXiv。当时 GPT-3 刚发布，他想看 GPT-3 「真的懂多少」，于是和团队搜了大量在线考题，凑出 57 科。
2021 年：被 ICLR 接收，从此成为大模型评测「事实标准」。
2022 年：Google BIG-Bench 想做更多样的 200+ 任务版，但 MMLU 因为简单可比，反而留下来了。
2024 年：作者团队亲自出 MMLU-Pro，把题目升到 10 选 1、加更多推理题、清理错题，承认 MMLU 已退役。
现在 2026 年：MMLU 仍是新模型发布会必报的一个分数，但学术界已经不靠它分高下。

学到什么

评测基准会塑造研究方向：MMLU 让大家从「测一种语言任务」转到「测综合知识」，整个 LLM 评测范式被它改写
简单胜过复杂：MMLU 没花哨设计，就是 4 选 1，但因为易跑、可比、覆盖广，反而比同期更复杂的基准（BIG-Bench 200+ 任务）更被广泛采用
饱和是好事也是警钟：模型逼近人类天花板说明能力强，但也说明这个尺子不够长了——下一代基准必须难得多
数据污染是评测命门：当题目公开、训练数据爬全网，「考过的题」和「会做的题」分不清——这是所有公开评测的共同病

关联

bigbench-2022 —— BIG-Bench 200+ 任务，MMLU 的「更大兄弟」，但远没 MMLU 流行
gpt-3 —— GPT-3 论文是 MMLU 的最大「客户」，把 few-shot 评测带进主流
chain-of-thought —— CoT 提示让 MMLU 数学/逻辑科目涨 5-10 分，是 MMLU 之后最重要的提分技巧
helm-2022 —— 斯坦福 HELM，把 MMLU 纳入 16 个核心场景之一，扩成「全方位评测」

反向链接

chatbot-arena-2024 —— Chatbot Arena — 让真人盲投，给 LLM 排出公允座次
glue-2018 —— GLUE — 给 NLU 模型出一张包含 9 道题的统考卷
gpt-3 —— GPT-3 — Language Models are Few-Shot Learners