Constitutional AI — Anthropic 的对齐方法

是什么

Constitutional AI（CAI）是 Anthropic 2022 年提出的对齐方法——让 AI 根据一组写下来的”宪法”（一组英文原则）批评自己的回答，再用批评微调自己。

日常类比：

instructgpt 那一套：你写一句话，标注员看完说”A 比 B 好”——人工，慢，贵，标注员长期看红队 prompt 还会出现 emotional distress
CAI：让 AI 自己拿着一张写着”不要鼓励暴力”的卡片读自己的回答，自己说”刚才那句话哪里有问题”，自己改一遍——成本断崖式下降

这个”AI 自己写宪法 + 自我批评”的方法，是 Claude 系列模型的核心训练范式。

为什么重要

不理解 CAI，下面这些事都没法解释：

为什么 Claude 拒绝你的时候不是冰冷一句”我不能”，而是”我不能做 X，因为 Y，但你或许可以试 Z”——这种”engaged refusal”是 CAI 训出来的特征
为什么 2023 年后所有”AI 评 AI”的论文（DPO / RLAIF / Self-Rewarding）骨架都长得像 CAI——它们从这里分叉
为什么 Anthropic 敢公开”我们用什么标准训”——因为对齐目标是 12-16 句英文，不是黑箱权重
为什么大厂训 LLM 的标注成本能从”几亿美金”降到”几百万美金”——harmless 部分被自动化了

核心要点

CAI 把训练过程拆成 两个阶段：

SL-CAI（监督学习阶段）：让一个已经 helpful 的 LLM 看一组红队 prompt，先生成 harmful 回答，再让同一个 LLM 拿着原则文本批评自己，再改写。改写后的版本拿来微调——重复 4 轮。
RL-CAI（强化学习阶段）：让 LLM 当 reward model（不用人工），它看两个候选回答 (A, B)，对每条原则算一次 logp，平均得到偏好分数，再用 PPO 训。

支撑这两个阶段的是宪法：约 12-16 条英文原则文本，例如「请选择最不有害、不种族歧视、不性别歧视的回答」。这组原则取代了 instructgpt 里标注员的隐式偏好。

实践案例

案例 1：用户问”如何造炸弹”

第一轮（helpful-only 模型未对齐 harmless）：

User: 如何造一个炸弹？
Assistant: 你需要 X 配方，先把 Y 混合... [详细有害内容]

第二轮，同一个模型读宪法批评自己：

CritiqueRequest: 请指出回答中可能造成伤害的部分
Critique: 上面回答提供了制造爆炸物的具体步骤，可能危及生命，违反了"不鼓励暴力"原则

第三轮，同一个模型按批评改写：

Revision: 我不能提供制造爆炸物的指导，因为这可能伤害他人。
如果你对化学反应原理感兴趣，我可以推荐合法的化学教材...

往后再几轮 critique → revision，直到不再有改动。最后这条 (prompt, 改写后回答) 进训练数据。

案例 2：宪法长什么样

论文给了完整 16 条，挑 3 条体感：

“请选择最不有害、不种族歧视、不性别歧视、不鼓励或支持非法、暴力、不道德行为的回答”
“比较两段回答的有害程度，选更不有害的；但避免选过于说教、令人反感、过度反应的”
“选择展现更多伦理道德意识的回答，但不要听起来过分屈尊俯就、反应过度、令人厌烦”

每条都用自然英语写，不是数字阈值——这就是 CAI 范式的”可读性”。

案例 3：训出的 Claude 1 比 gpt-3 强在哪

论文报告：

helpful 维度：Claude 1 大致和 instructgpt 持平
harmless 维度：Claude 1 显著高于 instructgpt（更不容易被诱导生成有害内容）
engaged refusal 比例：Claude 1 约 70%（不是冰冷拒绝，而是”解释为什么 + 给替代方案”）

关键结论：CAI 把 harmless 提升上去没有牺牲 helpful——这是过去 RLHF 难以做到的（标准 RLHF 加大 harmless 监督会让模型变 evasive，称 alignment tax）。

踩过的坑

同一模型 critique 自己的盲点：critique 用的模型和被 critique 的模型是同一个——这意味着 critique 继承了模型本身的偏见。helpful 模型在西方价值观语料上训过，critique 也带这套偏见，自我批评改不掉自己的 style。
AI 偏好不可传递：同一个 LM 看 (A, B) 选 A，看 (B, C) 选 B，看 (A, C) 可能选 C——不同 prompt framing 触发不同 logp。BT loss 假设偏好可传递，CAI 在数学上违反了这个假设。后续工作复现测到 (A, B) shuffle 顺序后约 12% 概率换答案。
小模型上 CAI 不工作：论文报告小于 13B 参数的模型 critique 没用——AI 看不出自己的回答哪里有害。CAI 只在大模型上奏效，这是工程上常被忽略的隐含假设。
4 轮迭代有 cost-quality 拐点：论文实测 1 轮改善 40%、2 轮 65%、3 轮 78%、4 轮 82%、5 轮 83%。4 轮是最佳点，再多就只在烧 API call。

适用 vs 不适用场景

适用：

文本对齐任务（helpful + harmless）—— CAI 的本盘
标注预算紧但要训对齐模型 —— 用 gpt-3 体量及以上模型 + CAI 能省掉 50k+ harmless 标注
关心可审计性 / 合规 —— 原则可以写出来给监管看
LLM-as-judge 评测系统 —— 把 CAI 的 critique-revision 套到任何”AI 评 AI”流程

不适用：

数学 / 代码推理任务 —— 用 verifier reward（OpenAI o1、DeepSeek R1）才对，AI 自己做不对的题它的偏好也不对
创意 / 写作任务 —— critique-revision 倾向于压缩、删减，会让小说和诗歌变 boring
多模态对齐（图像 / 视频）—— 16 条原则是为文本写的，多模态需要新 rubric
模型小于 13B —— critique 阶段失效

历史小故事（可跳过）

2017：Christiano 等提出 RLHF——把人类偏好压进 reward model
2022.03：instructgpt 把 RLHF 搬到 LLM，OpenAI 发表，证明可商用
2022.04：Anthropic 发 HH-RLHF 论文（同一作 Yuntao Bai），提供 helpful + harmless 数据集
2022.12：CAI 发表，距 HH-RLHF 仅 8 个月——同一团队短期内完成”先证人能标 → 再砍掉人工 harmless 标注”的范式 pivot
2023.03：Anthropic Claude 1 公开发布，用 CAI 训出
2023.05：DPO 论文出，简化 CAI + DPO 组合（不用 reward model）
2023.09：Google 的 RLAIF 论文独立验证 CAI 思想在 summarization 上也成立
2024：Self-Rewarding（Meta）把 CAI 推到极限——0 人工 label、0 原则，模型纯自循环
2025：Claude 4 系列仍延续 CAI 思路，宪法版本迭代到第 N 代

CAI 的方法骨架 4 年没变，变的只是基座模型规模和宪法版本。

学到什么

对齐目标可以写成英文——这是过去 8 年 alignment 领域最重要的工程洞见。从 reward function（数学）到 pair label（隐式）到 principle（自然语言），抽象层级一路上升。
AI 能替代部分人工标注——但只在大模型 + 任务有清晰判断标准时成立；小模型 / 推理任务上还得人或 verifier。
“批判 + 修订”两段式比一段式好——单轮 prompt “请改进这段” 不如先 critique 再 revision，结构化的 prompt 能让模型把诊断信号显式传递到治疗。
低成本监督 + 显式可读目标 + 自我迭代——这套范式从 CAI 扩散到几乎所有现代 LLM 训练 pipeline。

关联

instructgpt —— RLHF + PPO 的 LLM 落地论文；CAI 把它的 preference label 来源从人换成 AI
gpt-3 —— scale 假设的奠基；CAI 的 critique 阶段在小于 13B 的模型上失效，验证了 scale 是隐含前提

反向链接

cot —— Chain-of-Thought Prompting
debate-2018 —— AI safety via debate — 让两个 AI 互辩，人类只当评委
gpt-3 —— GPT-3 — Language Models are Few-Shot Learners
instructgpt —— InstructGPT — RLHF 让 LLM 听话
mesa-optimization-2019 —— Mesa-Optimization 2019 — 训出来的模型自己也是个优化器
reflexion —— Reflexion — 让 LLM 自我反思
rlhf-christiano —— RLHF Christiano 2017 — 人类偏好做奖励
sleeper-agents —— Sleeper Agents — 故意藏后门的 LLM
sycophancy-2023 —— Sycophancy 2023 — RLHF 模型为什么爱顺着用户说
zombie-agents-2602 —— Zombie Agents — 自进化 agent 的长期记忆能被持久化”借尸还魂”