DeepSeek R1 — 强化学习推理模型

是什么

DeepSeek R1 是中国 DeepSeek 实验室 2025 年 1 月开源的一个让大模型自己学会推理的语言模型。

日常类比：以前教模型解数学题，要给它无数题目 + 标准解题步骤，一步步示范（这叫 SFT，监督微调）；R1 反过来——只给它一堆题，做错扣分、做对加分，让它自己琢磨出推理步骤。

性能媲美 OpenAI o1（当时最强的闭源推理模型），但完全开源——权重、论文、训练 pipeline 全公开。

为什么重要

不理解 R1，下面这些事都没法解释：

为什么 2025 年 1 月 27 日 NVIDIA 一天跌 17%、市值蒸发 6000 亿美元
为什么之后 Llama 4 / Qwen 3 / Claude 3.7 全加上了”推理模式”
为什么”小团队也能训前沿 AI”这件事被重新点燃
为什么开源生态突然涌现一堆推理模型（QwQ / OpenThinker / Phi-4-Reasoning）

5 件具体的事：

第一个开源的 o1 级推理模型——Apache 2.0 协议，权重免费下载
671B MoE 架构，推理性能全球第一梯队（激活 37B，蒸馏版单卡可跑）
训练成本约 600 万美元——OpenAI o1 估计 10 亿美元起
引爆 AI 股市动荡——美国市场原以为只有大厂能训前沿模型，R1 打破假设
重新打开”穷人路线”——小公司、小实验室也能复刻类似方法

核心要点

R1 做对了 3 件事：

GRPO（Group Relative Policy Optimization，PPO 的简化版）类比：传统 RL 要请一个”裁判”打分（critic 网络），GRPO 让选手互比——同一道题让模型答 8 次，谁答得好就奖励谁，省掉了裁判这个角色，显存少一半。
Pure RL 也能学会推理（R1-Zero 实验）不做 SFT，直接给 base model 上 RL，模型自然涌现出长思考、中途自检、回头改答案这些行为。
Cold-start SFT 让输出可读（R1 完整版）纯 RL 的输出乱七八糟（中英夹杂、不分段），加一点点 SFT 就能让格式漂亮，性能再往上抬一截。

实践案例

案例 1：R1-Zero — 什么都不教，纯刷题

DeepSeek 团队做了一个大胆实验：拿一个完全没经过 instruction tuning 的 base model（DeepSeek-V3-Base，671B），直接挂 GRPO 训。

Reward 极简：

数学题：答案对 = 1 分，错 = 0 分（用 math_verify 库自动判等价性）
代码题：跑测试通过 = 1 分，否则 = 0 分（沙箱执行）

训练几千步后，模型自己学会了：

长 chain-of-thought（一步步推理而非直接给答案）
self-verification（中途回头检查自己）
“Aha moment”——会写出”等等，我刚才好像算错了”这类自我纠错语言

关键：没人教过它这些，是 RL 自己激发出来的。

案例 2：R1 完整版 — 加一点点 SFT 救对齐

R1-Zero 推理强但读起来难受（中英混杂、不礼貌、无标点）。R1 完整版的 4 步 pipeline：

Cold start：用几千条精选 CoT 数据做轻量 SFT，让模型学会 <think>...</think><answer>...</answer> 格式
Reasoning RL：大规模 GRPO，主战场，让推理能力起飞
再 SFT：用 RL 模型自己生成 60 万条推理数据 + 20 万条对话数据，重新 SFT 一遍
Final RL：最后一轮 RL，同时考虑推理质量 + helpfulness + harmlessness

最被低估的细节：cold-start 数据只有几千条。质量比规模重要得多。

案例 3：你能直接看到的 `<think>` 标签

R1 推理时输出长这样：

<think>
让我一步步分析。
24 块饼干，给一半给弟弟。
24 / 2 = 12，所以剩下 12 块。
等等，再确认一下：24 - 12 = 12。对的。
</think>
<answer>
12
</answer>

<think> 里是模型的”内心独白”，<answer> 才是给用户的最终答案。这种格式不是 prompt engineering，而是训练时强制学到的结构——format reward 在每条 rollout 上检查标签是否齐整。

踩过的坑

rule-based reward 只对”可验证答案”有效。数学、代码、逻辑题有标准答案能机器判分；但创意写作、开放问答没有 ground truth，R1 路线在那些任务上不适用。
GRPO 的 G 个 rollout 必须有差异。如果同一个 prompt 8 次都答对（或都答错），advantage 全 0，这步白训。开源社区用 dynamic sampling 滤掉这种 trivial prompt。
Long CoT 推理 token 成本暴涨。R1 单次回答平均 2000-5000 tokens，是普通 chat model 的 5-10 倍，API 计费和延迟都受影响。
PRM 与 MCTS 都被 R1 团队试过失败。Process reward model（给中间步骤打分）和 Monte Carlo tree search（推理时搜索）这两条主流路线，论文专门用一章承认尝试过都不 work。

适用 vs 不适用场景

适用：

数学 / 代码 / 形式逻辑这类”答案能机器判”的任务
自训行业垂类推理模型（R1 范式 + 自己的 verifier）
部署小模型推理能力——用 R1 蒸馏的 7B / 14B 版本

不适用：

开放对话、创意写作（没 verifier）
极低延迟场景（推理 token 太多）
需要工具调用 / 多轮 agent 推理（R1 是纯权重内推理，不带工具）

历史小故事（可跳过）

2024 年 9 月：OpenAI 发布 o1，宣称用 RL + 长 CoT 大幅提升推理。但完全闭源——社区不知道是 RL 还是 search、有没有 SFT、reward 怎么设计。各派论文吵架。
2025 年 1 月 20 日：DeepSeek 一篇论文给出答案：纯 RL + outcome reward + GRPO，不需要 PRM，不需要 search。R1-Zero 实验更狠——连 SFT 都不需要。
2025 年 1 月 27 日（论文发布一周后）：NVIDIA 单日跌 17%，市值蒸发 6000 亿美元。市场担心：“如果中国小团队 600 万美元就能训出 o1 级模型，美国大厂囤的 GPU 还值那么多吗？”
2025 年 Q1：开源社区出现 huggingface/open-r1、UC Berkeley TinyZero、Qwen-QwQ、OpenThinker 十几个复刻项目。整个 AI 研究议程被一篇论文 reset。
2025 年 Q2：Llama 4 / Qwen 3 / Claude 3.7 全部跟进”RL + 推理”范式。

学到什么

能力激发 ≠ 能力教学——reasoning 是 RL 激发的（model 本来就会，奖错惩对让它表现出来），不是 SFT 教的
rule-based reward > reward model——只要任务有 verifier，规则判分比训练判分网络鲁棒得多，避开 reward hacking
多阶段 pipeline 不是花架子——R1 每个 stage 解决一个具体问题（教格式 / 激发推理 / 修对齐 / 联训），每一步都有目标
distill 让小模型继承大模型推理——R1-distill-7B 在 AIME 上比 GPT-4o 高 6 倍，self-host 友好

关联

chain-of-thought —— prompting 时代的推理起源，R1 把它从 prompt trick 升级为 base capability
instructgpt —— RLHF 三段论奠基（SFT → RM → PPO），R1 部分继承部分颠覆
mixture-of-experts —— DeepSeek-V3 的 MoE 架构让 671B 推理可负担
chinchilla —— N/D 1:1 同比放大约束，DeepSeek-V3-Base 严格遵守
dpo —— 偏好优化简化路线，R1 回归 PPO 风格但去掉 critic

反向链接

alphago —— AlphaGo — 击败围棋世界冠军
chinchilla —— Chinchilla — 训练大模型的数据/参数最优比
cot —— Chain-of-Thought Prompting
deepseek-coder-2024 —— DeepSeek-Coder — 按整个仓库喂代码的开源 SOTA
instructgpt —— InstructGPT — RLHF 让 LLM 听话
llama —— LLaMA — Meta 开源大语言模型
mixture-of-experts —— Mixture of Experts (MoE)
ppo —— PPO — Proximal Policy Optimization
rlhf-christiano —— RLHF Christiano 2017 — 人类偏好做奖励
wide-deep-2016 —— Wide & Deep — 让模型同时学会”记住”和”举一反三”