LLaMA — Meta 开源大语言模型

是什么

LLaMA（Large Language Model Meta AI）是 Meta 在 2023 年 2 月开源的一个基础大语言模型系列——7B / 13B / 65B 三档参数。

日常类比：以前 gpt-3 像米其林大餐厅——封闭、贵、只允许 API 点餐；LLaMA 像家常菜谱——Meta 把”怎么做大模型”完整公开，自己买菜（数据）、自己开火（GPU）就能做。

LLaMA 最反直觉的一点：用更多 token 训练更小的模型。13B 的 LLaMA 在多数测试上能打平甚至超过 175B 的 gpt-3，参数只有 1/13。

为什么重要

不理解 LLaMA，下面这些事都没法解释：

为什么 2024-2026 年所有”开源大模型”几乎都长得一样：mistral / Qwen / Yi / deepseek-r1 全都是 LLaMA 架构的变体
为什么 ollama run llama3 一行命令就能在自己的 Mac 上跑 8B 模型——本地部署 LLM 这件事是从 LLaMA 才真正可行的
为什么 ChatGPT 出来不到一年，开源圈就追了上来——Meta 用一份 27 页的 PDF + 一套权重把”怎么做”公开了
为什么 chinchilla 给的”D=20×N”经验法则被刻意打破——LLaMA 故意训练得”过头”，是为了让推理更便宜

核心要点

LLaMA 的核心可以拆成 三件事：

故意”训练过头”：chinchilla 说 7B 模型最优应该训 140B token，LLaMA 训了 1T（多 7 倍）。代价是训练贵，回报是推理便宜——大模型部署后推理算账几个月就回本。
三个架构小改动：
- RMSNorm——比 LayerNorm 简化，少做一步”减均值”，每层省 ~10% 算力
- SwiGLU——比 ReLU 多一条门控通路，质量更高；隐藏层宽度收缩到 2/3 来抵消多出的参数
- RoPE 旋转位置编码——把”第几个词”用复平面旋转编码，让模型天然懂”相对位置”
三代演进：
- LLaMA 1（2023-02）：英文为主，2K 上下文，研究许可
- LLaMA 2（2023-07）：商用许可 + Chat 版本（RLHF 微调）+ GQA 节省推理显存
- LLaMA 3（2024-04）：15T token 训练 + 128K 词表 + 405B 顶配版本

实践案例

案例 1：本地一行命令跑 LLaMA

ollama run llama3

就这么一行。背后做的事：下载 ~5GB 量化后的权重 → 加载到 GPU/CPU → 起一个聊天循环。

放在 2022 年这是不可想象的——那时候 GPT-3 只能 API 调用，每千 token 要钱。LLaMA 之后本地跑 LLM 变成程序员的日常。

案例 2：LLaMA 2-Chat 怎么从”基础模型”变成”会聊天”

LLaMA 1 / 2 Base 模型只会”接龙”——给它”今天天气”，它输出”不错，适合”。它不知道你在跟它对话。

LLaMA 2-Chat 加了两步：

SFT（监督微调）：人工写几万条”问题-回答”示例，让模型学”看到问题该怎么答”
RLHF / DPO：人工对比”答案 A 好还是答案 B 好”，让模型学”什么样的回答更受欢迎”

这套流程后来被 Mistral、Qwen、DeepSeek 全部沿用——LLaMA 2 论文是开源 chat 模型的训练操作手册。

案例 3：和 gpt-3 的代际对比

维度	GPT-3 (2020)	LLaMA 1 (2023)	LLaMA 3 (2024)
最大参数	175B	65B	405B
训练 token	~300B	1.4T	15T
公开权重	否	研究许可	商用许可
上下文长度	2K	2K	128K
中文能力	弱	弱	中等

GPT-3 当年是”闭源 SOTA”，LLaMA 3 405B 现在是”开源接近 GPT-4”。三年时间，开源追上闭源。

踩过的坑

LLaMA 1 的 2K 上下文不够用：现代场景动辄要塞几十页文档，LLaMA 1 的 2K 立刻爆炸。LLaMA 3 把 RoPE 的 base 从 10000 改成 500000+ 才把上下文外推到 128K，这是后来”长上下文”工程的标配技巧。
权重许可的灰色地带：LLaMA 1 是”研究许可”——只允许学术用，但 2023-03 权重泄露到 4chan，整个 Stanford Alpaca / Vicuna 生态都建在”灰色权重”上。LLaMA 2 转商用许可才把这个尴尬解决。
“开源”程度有限：Meta 公开了权重 + 推理代码，但训练代码、数据 pipeline、训练日志全部没公开。真正完全开源的是 2024 年 AI2 出的 OLMo（连 checkpoint 都公开）。LLaMA 的”open”更接近”权重可下载”。
小模型也跟着 over-train 不是免费午餐：TinyLlama 1.1B 训 3T token（D=2700×N）质量提升非常有限——over-train 收益在某个点就饱和。LLaMA 3 的 15T 训练已经接近这个边界。

适用 vs 不适用场景

适用：

想本地 / 私有部署 LLM——LLaMA 系是 Hugging Face、vLLM、llama.cpp 第一支持的架构
想做 fine-tune（领域适配 / RLHF / LoRA）——开源生态 80% 工具默认按 LLaMA 风格写
学开源 LLM 架构原理——LLaMA 1 的 model.py 只有 ~500 行，是教学最佳样本
商业产品想用开源底座——LLaMA 2 起的商用许可允许（注意 7 亿月活以上要单独申请）

不适用：

极致长上下文（100K+ 真实使用）——LLaMA 的 attention 计算是平方级，应该看 Mamba / RWKV 这类线性序列模型
极致部署便宜的边缘场景——LLaMA 70B 单卡塞不下，应该看 mixture-of-experts 路线（Mixtral 8×7B 总参 47B 但每 token 只激活 13B）
中文为主的产品——LLaMA 3 中文够用但 Qwen / DeepSeek 在中文 benchmark 上更强
想完全可复现的科学研究——LLaMA 训练代码不公开，应该用 OLMo / Pythia

历史小故事（可跳过）

2022 年中：Meta 出 OPT-175B，对标 GPT-3 但质量不如，团队反思——是不是不该硬抄 GPT-3 而要换零件。
2022-12：DeepMind 发表 chinchilla，给出”D=20×N”。LLaMA 团队读完想”如果故意 D=140×N 会怎样”。
2023-02-27：Touvron 等 14 人在 arXiv 放出 LLaMA 1 论文，没投会议，没经过同行评审，纯 tech report。
2023-03 第三周：有人在 4chan 把 LLaMA 1 的全部权重以种子形式放出。第二天 Stanford Alpaca 出来——用 LLaMA 7B + 5.2 万条 GPT-3.5 生成的指令训练。
2023-07：LLaMA 2 全面开源（含 Chat 版本 + 商用许可）。Hugging Face Hub 半年后 50%+ 的 base model 都是 LLaMA 衍生。
2024-04：LLaMA 3 发布，8B / 70B 双档；同年 7 月补 405B 顶配，宣称”开源接近 GPT-4”。
2024-12：LLaMA 3.3 70B 发布，质量再次接近 GPT-4 的水平，但只要 70B 参数。

LLaMA 论文 14 个作者里有 4-5 人后来离职创办了 Mistral——所以 Mistral 7B 的架构和 LLaMA 1 7B 几乎一模一样，是同一批人在不同公司做的第二次。

学到什么

训练贵 vs 推理贵的取舍——亿级用户产品里推理成本永远超过训练成本，选模型时”小而 over-train”几乎总是对的
架构小改动的复利效应——RMSNorm / SwiGLU / RoPE 单看每个都只改 5-10%，组合起来变成事实标准
开源不是非黑即白——“权重开放”、“训练代码开放”、“数据开放”是三件事，chinchilla/PaLM 全闭源，LLaMA 开放权重，OLMo 全开放
生态先于技术——LLaMA 2 的商用许可比它的架构创新更有影响力；许可政策决定生态能否爆发

关联

gpt-3 —— LLaMA 想超越的对手；架构血缘是 GPT-3 的 decoder-only transformer
chinchilla —— 给了”D=20N”经验法则，LLaMA 故意打破它来换推理便宜
mistral —— LLaMA 1 核心作者离职后创办 Mistral，架构几乎逐字复刻
mixture-of-experts —— LLaMA 全稠密路线的反对派；Mixtral 用稀疏激活做 70B 质量 + 13B 推理成本
deepseek-r1 —— 中国系最强 LLaMA 衍生，加了 MLA / MoE 等进一步优化

反向链接

bert —— BERT — 双向 Transformer 预训练
blip2-2023 —— BLIP-2 — 用 188M 小桥接器把冻结的视觉模型和大语言模型拼起来
chatbot-arena-2024 —— Chatbot Arena — 让真人盲投，给 LLM 排出公允座次
chinchilla —— Chinchilla — 训练大模型的数据/参数最优比
codellama-2023 —— Code Llama — 开源代码模型的完整训练配方
deepseek-r1 —— DeepSeek R1 — 强化学习推理模型
dpo —— DPO — Direct Preference Optimization
flan-2021 —— FLAN — 用自然语言指令教模型学会”听话”
flash-attention —— FlashAttention — 不改算法，只改数据怎么进 GPU
gpt-3 —— GPT-3 — Language Models are Few-Shot Learners
llama-vid-2023 —— LLaMA-VID — 每帧两枚 token，把小时级视频塞进 LLM
llava —— LLaVA — 开源多模态对话模型
mixture-of-experts —— Mixture of Experts (MoE)
roberta-2019 —— RoBERTa — 把 BERT 重训一遍就能拿 SOTA