VLM Foundation · Plate Nº 139

The Llama 3 Herd of Models

6 min read · 1959 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

Meta 把训练 Llama 3 大模型的全套"菜谱"公开了——用了什么料、多少张卡、跑多久、考多少分。

这是个什么场景 — 日常类比

想象你常去的米其林三星餐厅，平时只把成品端到桌上，菜谱、食材产地、火候温度一概不说。某天他突然把整本后厨工作手册甩出来：哪个农场的牛肉、几号灶台、几度烤几分钟、试菜请了多少评委、评委打了几分——一口气全摊给你看。Llama 3 这份报告就是这种级别的"全套菜谱"。市面上的对手是 GPT-4 / Claude 这类"只让你尝菜不让看后厨"的闭源餐厅；Meta 干脆把后厨大门打开，告诉你训一个前沿大模型到底要烧掉多少本钱。

Plate Nº IThe Llama 3 Herd of Models — 场景示意：这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

闭源派（GPT-4 / Gemini / Claude）：只放 API 和有限技术报告，数据规模、算力、训练细节都藏着
早期 Llama（Llama 2）：开源权重 + 较粗的报告，多模态能力缺失
其他开源基座（Mistral / Qwen / DeepSeek 早期版本）：规模更小，或者只放权重不公开训练曲线
多模态接法（LLaVA / BLIP-2）：在小语言模型上接视觉，但底座本身不是前沿规模
结果：开源社区缺一个"接近 GPT-4 级别 + 训练栈完全透明 + 自带视觉支路"的参考实现

这篇论文的关键想法

三件事一起做：

把规模拉到 405B：开源模型第一次正面冲击闭源 SOTA 量级，证明开源社区可以触及前沿
训练全栈透明：数据 pipeline、tokenizer、并行策略、训练损失曲线、failure recovery、scaling law 拟合，都写进报告
视觉适配器后挂：保留语言主干不动，把图像编码器通过 cross-attention 适配器接进去，避免重新训练破坏语言能力

核心立场是"规模 + 数据质量 + 工程稳定性 = 大部分能力"，没有引入新的架构奇技淫巧（仍然是稠密 Transformer，没上 MoE）。

Plate Nº IIThe Llama 3 Herd of Models — 方法示意：核心 pipeline

它怎么做的（方法）— 3-4 段

预训练数据 — 像采购食材：先去几百个网站抓原料，再过一遍质检流水线把烂菜叶挑出去。约 15T tokens（Llama 2 是 1.8T，扩了近 10 倍），多语言、代码、推理类样本占比上调。整套 pipeline 包括去重、质量分类器、毒性过滤、个人信息脱敏。比例怎么配也不是拍脑袋——先用小模型当替身（proxy）试不同搭配，效果好的那套再喂给大模型。

架构与 scaling — 像盖楼前先算钢筋用量：稠密 decoder-only Transformer，配上 GQA（Grouped-Query Attention，多人共享一份 KV 缓存）+ RoPE + SwiGLU，上下文 128K（先 8K 训完再扩展）。盖之前论文先拟合了一条 scaling law（规模与效果的经验曲线），用来反推 405B 在 15T tokens 下该停在哪、loss 该到多少。预训练动用了 16K 张 H100 GPU 量级，跑了数月（具体数字需读原文）。

等等，先慢一拍——稠密 Transformer 是什么？

稠密（dense）= 每过一次模型，所有参数都要参与计算；与之相对的 MoE（专家混合）= 每次只激活其中一小部分专家，省算力。Llama 3 选了"老老实实全员上场"这条路。

后训练（post-training）— 像反复试菜调味：先 SFT（教它说人话），再用 DPO（Direct Preference Optimization，直接告诉它"这个回答比那个好"）配上拒绝采样（生成 N 个候选挑最好），来回 6 轮左右。没用更复杂的 PPO（强化学习那套），因为 DPO 更稳更便宜。

多模态适配器 — 像在主菜上加配菜：语言主干这道主菜不动，旁边接一个图像 encoder（ViT 类）+ 一组 cross-attention 层（让语言模型能"看见"图像 token）。分阶段训练：先冻住主干只训配菜部分，再联合微调。视频和语音也走同样的挂载思路，一个语言主干长出多条感知支路。

实验在做什么

基础语言评测：MMLU / GSM8K / HumanEval / MATH 等，405B 对标 GPT-4，70B 对标 GPT-3.5 / Claude Haiku 量级（具体数字需读原文）
长上下文：128K 上的 needle-in-a-haystack 类大海捞针测试
多语言：8 种主要语言的评测对比
代码与推理：分代码生成、debug、数学推理多个子任务
多模态：图像问答（VQA）、文档理解、图表解读、视频问答
安全与红队：jailbreak 抵抗、有害内容生成率、refuse rate 平衡
人类偏好：Arena 类盲测，看实际对话偏好胜率

你应该懂的几个新词 — 4-6 个

GQA（Grouped-Query Attention）：注意力的中间方案，多个 query head 共享一组 key/value head，省 KV cache。日常类比：一群学生（query）共用一份课本（kv），不用人手一本
DPO（Direct Preference Optimization）：偏好对齐方法，给一对回答（好 vs 坏）直接优化模型，不用先训 reward model 再 RL。比 PPO 简单一截
拒绝采样（Rejection Sampling）：让模型生成 N 个候选，用判别器/奖励模型挑最好那个加进训练集，相当于自己给自己出"优等生答案"
Cross-attention 适配器：在已有 Transformer 层之间插入新的注意力层，让外部信息（如图像 token）能"被看见"，而不动原始主干权重
Scaling Law：参数量、数据量、算力之间的经验幂律关系，用来在小规模拟合曲线后，预测大规模该停在哪
Data mixing：训练时不同来源（网页/代码/书/多语言）按什么比例喂入，比例选错性能差异巨大

它和其他论文什么关系

承接 Llama 2（2023）：同家族升级，规模 ×10，加多模态分支
对标闭源前沿：GPT-4（OpenAI）、Gemini 1.5（Google）、Claude 3（Anthropic）——同一档位的稠密大模型
对比 MoE 路线：Mixtral / DeepSeek-V2 / Qwen-MoE 走稀疏激活，Llama 3 坚持稠密
后被引用：成为 2024-2025 开源基座事实标准，很多 RLHF / agent / VLM 工作直接 finetune Llama 3
多模态思路相关：Flamingo（cross-attention 视觉适配器祖师爷）、LLaVA（投影层接法）、BLIP-2（Q-Former），Llama 3 视觉支路接近 Flamingo 派
训练栈透明度对标：BLOOM 报告、OPT 报告、GPT-NeoX 报告——但 Llama 3 是第一份"前沿规模 + 全栈细节"的开源报告

我建议这样读 — 3-4 步

先读 §1 + §2 + §10（结论）：搞清楚他们想证明什么、最后证明到了什么
再读 §3 数据 pipeline + §5 预训练：这是工程含金量最高、最值得抄作业的部分
跳到 §7 后训练（DPO + 拒绝采样的迭代循环）：理解 SFT 之后到底是怎么把模型调"听话"的
多模态部分（§8）单独对照 Flamingo / LLaVA 看：把它当成"视觉适配器的工业实现案例"，而不是新架构

如果只看 30 分钟：读 §1、§5.1（数据）、§7（后训练循环图）、§9（评测表）就够。

为什么值得读

行业基线手册：要做大模型训练，这是 2024 年最权威的"应该怎么做"参考，回避了一堆隐性陷阱
工程透明度天花板：从 tokenizer 到 failure recovery 都写出来了，对工程同学的价值远超论文本身
多模态接法的工业模板：报告里的"主干冻结 + 适配器后挂 + 分阶段联合训"是后续 VLM / 视频/ 语音模型反复用的范式
理解开源生态：Llama 3 是 2024-2025 年 fine-tune / agent / 具身智能上层应用的事实底座，下游论文几乎都建在它上面，读了它才知道下游论文的"地基"长什么样
Scaling law 实战：工业上真把 scaling law 用到 405B 这种规模并把过程写出来，对学习"如何决定下一个模型多大"非常有价值

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_llama_3_herd_2026,
  title       = {(readable note) The Llama 3 Herd of Models},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/llama-3-herd/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)