跳转到内容

Parti — 把文生图当作翻译,用自回归 Transformer 一像素接一像素地写

是什么

Parti(Pathways Autoregressive Text-to-Image)是 Google 2022 年 6 月发布的文生图模型。日常类比:把”画一张图”当成”写一篇文章”——一个词一个词往后写,只不过这里的”词”不是中文字,而是一小块图像。

输入:

"A portrait of a kangaroo wearing an orange hoodie ..."

输出:一张 256×256 的图。它不是一次生成,而是按顺序写出 1024 个”图像 token”,每个 token 解码成图里 8×8 的一小格。

它和同年发布的 imagen-2022 / dalle-2 走的是完全不同的路线:那两家用扩散模型(先撒噪声再反复去噪),Parti 用自回归 Transformer(像 GPT 写文字一样按顺序写图块)。这是 2022 年文生图的”路线分叉点”。

为什么重要

不读 Parti,下面这些事都解释不了:

  • 为什么 2022 年文生图”扩散派”和”自回归派”打对台——这两条路各有信徒,Parti 是自回归一边的旗舰
  • 为什么后来的 muse-2023 / VAR / ByteDance Seed 系都回头走自回归路——Parti 验证了 AR 也能 scale 到 SOTA
  • 为什么”图像 token”这个想法这么重要——把图变成离散符号后,所有 LLM 工具链(数据并行 / Megatron / FlashAttention)直接复用
  • 为什么 OpenAI 后来 GPT-4o 原生图像生成不再用扩散——AR 派最终在多模态统一架构上占了上风

核心要点

Parti 把”画图”拆成 三段

  1. ViT-VQGAN 编码器(已训好,冻结):把 256×256 图压成 32×32=1024 个离散 token。每个 token 来自 8192 个码字的”码本”。类比:把图切成 1024 块拼图,每块从 8192 种花色里挑一种。

  2. encoder-decoder Transformer(新训):像翻译模型一样——encoder 读文本”a kangaroo in hoodie”,decoder 按顺序输出 1024 个图像 token。关键:自回归——第 i 个 token 看前 i-1 个 token + 文本。

  3. ViT-VQGAN 解码器(已训好,冻结):把 1024 个 token 还原成像素图。

整条管线:

text → encoder → text emb
decoder ──→ token 1 → token 2 → ... → token 1024
VQGAN 解码 → 256×256 图

注意 decoder 是串行的——第 1024 个 token 必须等前 1023 个写完。这是 AR 路线的本质代价。

实践案例

案例 1:scaling law——Parti 论文最大的发现

Parti 训了 4 个尺寸的模型,FID 分数(越低越好):

350M FID 14.10
750M FID 8.10
3B FID 8.10
20B FID 7.23 ← 当时 zero-shot SOTA

逐部分解释

  • 模型从 350M scale 到 20B,性能持续上升没饱和
  • 这复制了 LLM 的 scaling law(GPT-3 验证过的)——图像生成也吃这一套
  • 20B 是当时最大的文生图模型,参数量超过 imagen-2022 的 4.6B

结论:自回归图像生成 scale 起来跟语言模型一样听话

案例 2:AR vs 扩散——同一个 prompt 两条路

Prompt:"a green sign saying Welcome"

扩散派(Imagen):从纯噪声开始,迭代 30~100 步,每步对整张 64×64 latent 图同时去噪,文本通过 cross-attention 注入。

AR 派(Parti):encoder 读完文本后,decoder 按光栅顺序写 1024 个 token,每写一个看前面所有写过的。

两者各有一套缺点:

  • 扩散:步数多但每步并行,可控性强(可以中途换 prompt、做编辑),文字渲染弱
  • AR:每个 token 串行(1024 步无法并行),但训练就是 next-token-prediction,复用 LLM 全部基建

Parti 论文里”绿色 Welcome 招牌”这种带文字的图,AR 派比扩散派出得正。

案例 3:PartiPrompts 基准——为什么这条 benchmark 还在被用

Parti 同时发布了 1600 个 prompt 的测试集 PartiPrompts,覆盖 12 类(写实 / 文字 / 计数 / 抽象等)× 11 难度。它是当时第一个”专门测内容丰富度”的文生图 benchmark。

到现在 2026 年,DALL-E 3 / Stable Diffusion 3 / Flux 论文都还在跑 PartiPrompts。这个数据集本身比模型活得久。

踩过的坑

  1. AR 推理慢得离谱:1024 个 token 必须串行写,单张图在 TPUv4 上要几秒钟。扩散虽然要 30 步但每步并行,实际墙钟时间反而短。这是 AR 派的天花板,后续 muse-2023 用 mask-based parallel decoding 才打破。

  2. VQGAN 重建上限锁死了图像质量:Parti 最后那一步 token → 像素由 VQGAN 解码器决定。哪怕 Transformer 把 token 序列预测得 100% 对,输出图也不会比 VQGAN 重建一张训练集图更清晰。这叫离散瓶颈

  3. 20B 是工程怪兽:训练用 1024 个 TPUv4 chip,单纯能跑起来这件事就是论文卖点的一部分。复现门槛极高,开源社区到 2026 年都没真正复现 20B 版本。

  4. 256×256 不够看:Parti 主版本只到 256×256。1024×1024 需要再接超分模型,论文里没做。同期 Imagen 直接级联做到 1024。

适用 vs 不适用场景

适用

  • 需要复用 LLM 工具链做多模态统一架构——AR 路线天然兼容(GPT-4o / Chameleon / Emu3 都是这条路)
  • 文字渲染、计数、组合推理——AR 在”读懂语义后准确执行”上比扩散稳
  • 训练大模型 scaling 实验——AR 的 loss 更可解释,更好做 scaling law 研究

不适用

  • 实时交互式生成 / 图像编辑——扩散派完胜(Stable Diffusion / inpainting / ControlNet)
  • 个人 GPU 推理——20B AR 本地基本跑不动;扩散有 SD 1.5 蒸馏版 4G 显存能跑
  • 需要中途修改条件——扩散每步都重新读 prompt,AR 一旦写出 token 就回不去
  • 高分辨率直出——AR 的 token 序列长度 O(n²) 增长,1024×1024 需要 16384 个 token

历史小故事(可跳过)

  • 2021 年 1 月:DALL-E 1 出,AR + dVAE token,证明 “把图当 token 序列写”可行,但只到 256×256,质量一般。
  • 2021 年底:扩散派 GLIDE / DALL-E 2 路线雏形成型,整个圈子转向扩散
  • 2022 年 4 月:DALL-E 2 出(扩散派),效果震撼。
  • 2022 年 5 月:Imagen 出(扩散派),FID 创纪录。
  • 2022 年 6 月:Parti 出(AR 派),FID 7.23 反超。Google 同时押两条路,但内部争议据说很大。
  • 2023 年:Muse 出,AR 派改用 parallel mask decoding,速度追上扩散。
  • 2024-2025 年:GPT-4o / Chameleon / Emu3 / VAR 把 AR 路线推到主流。

事后看,2022 年的”扩散派胜利”只是表象——2024 年之后 AR 路线靠 LLM 工具链复用反超回来。Parti 是这条路第一次证明 “AR + scaling = 能打”。

学到什么

  1. 图也能 token 化——一旦图变成离散符号,所有 LLM 基建(attention / scaling / RLHF)直接复用。这是多模态统一架构的源头。
  2. scaling law 跨模态——文本世界发现的”模型越大越好”在图像生成里同样成立,没饱和迹象。
  3. 路线之争不是非黑即白——2022 年扩散看似赢了,但 2024 年 AR 反超。技术路线选择要看 下游生态怎么演化,不是单看当下 benchmark。
  4. 离散 vs 连续是关键分叉——Parti 选离散 token(兼容 LLM),扩散派选连续 latent(兼容图像编辑)。两套生态互不兼容到现在。

延伸阅读

关联

  • imagen-2022 —— Imagen 是 Parti 同时期的扩散派对手,路线相反
  • dalle-2 —— DALL-E 2 是 unCLIP + 扩散,跟 Parti 的 AR + VQ token 形成路线分叉
  • clip —— Parti 也用 CLIP 做语义对齐评估,但本身不依赖 CLIP encoder
  • ddpm —— 扩散模型基础,Parti 走的是另一条路
  • gpt-3 —— Parti 借了 GPT 的 next-token prediction 思想到图像
  • attention —— encoder-decoder Transformer 的基础