VLM Foundation · Plate Nº 143

Pixtral 12B

6 min read · 2068 字 · ⭐⭐⭐ · 短摘要

#transformer #language #vision #VLM #dataset

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

Mistral 开源的"会看图聊天的助手"——从一开始就同时学看图和说话，图想多大就多大，能免费拿去做产品。

这是个什么场景 — 日常类比

想象你拍了一张餐厅菜单的照片，想问 AI："这家店哪个菜最便宜？" 或者你截了一张满屏的网页，想问："帮我看看这页讲的是不是退款政策？"——这就是视觉语言模型（VLM, Vision-Language Model）的日常活儿：又看图又聊天。

之前主流做法像是请了一位中文很好但戴眼镜的同事（已经训练好的纯文本模型），临时配一副"老花镜"（视觉编码器 + 翻译层）让他能看图。问题有两个：这副眼镜的度数固定（图必须缩成 224x224 或 336x336，看高清菜单就糊），而且眼镜是后来才戴上的，眼睛和大脑配合别扭——他读图像是隔着一层翻译。

Pixtral 的思路像是：从小让这个人一边学说话一边学看东西，眼睛还能自动调焦——大图多看几眼（产更多 patch），小图少看几眼。眼睛和大脑是一起长出来的，不是后装的。

Plate Nº IPixtral 12B — 场景示意：这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

LLaVA / MiniGPT-4 路线：拿 CLIP 视觉编码器 + 现成 LLM（如 Vicuna、Llama），中间塞一个 MLP 投影层。优点是便宜，缺点是分辨率被锁死、视觉表征和语言空间没真正融合。
Flamingo（DeepMind, 2022）：在 LLM 中插入 cross-attention 层让模型"读"图像 token，但视觉部分是冻结的。
GPT-4V / Claude 3 / Gemini：闭源，效果好但谁也不知道怎么训的，更不能商用改装。
Qwen2-VL（Alibaba, 2024）：开始支持原生分辨率，思路与 Pixtral 类似，是同期的强力开源对手。
InternVL 系列：开源 VLM，但参数规模和训练配方与 Pixtral 不完全可比。

共同短板：视觉部分通常是"借来的"（CLIP 或 SigLIP 直接拿来用），分辨率被预训练阶段锁死，遇到长文档、高清图、多图任务就吃力。

这篇论文的关键想法

三件事一起做：

从零训练专属视觉编码器。Mistral 没用 CLIP，而是自己训了一个名为 Pixtral-ViT 的视觉 backbone，专门为下游 VLM 服务。
支持原生（任意）分辨率与任意宽高比。图片不被强制压成正方形，长文档、宽屏截图、手机竖屏照片都能直接喂。
保持 Mistral Nemo 12B 的语言能力。视觉的引入没有把语言能力打折，纯文本任务上仍然强。

加在一起：一个 12B 量级的开源 VLM，图文都不弱，且 Apache-2.0 可商用。

Plate Nº IIPixtral 12B — 方法示意：核心 pipeline

它怎么做的（方法）— 3-4 段

视觉编码器（Pixtral-ViT, 约 400M 参数）。像专门给这位助手配一副自家磨的眼镜，而不是去眼镜店买现成的（CLIP）。Mistral 自训了一个 ViT，关键改动是把位置编码从"固定网格"换成 2D RoPE。

等等，先慢一拍 — 2D RoPE 是什么？把图片想成一张方格纸。原版 RoPE（旋转位置编码）只能记一条直线上每格的编号；2D RoPE 把它扩展到行和列两个方向，能告诉模型"这一小块在第 3 行第 5 列"。这样一来，图大图小都能编码，不用先把图压成统一尺寸。

图片先按原始宽高比切成 patch（小方块），patch 数量随图大小变。一张高清文档可能产出几千个 visual token；一张缩略图可能只有几十个。

语言 backbone（Mistral Nemo 12B）。像助手脑子里那位"会说话的人"。这是 Mistral 与 NVIDIA 联合训练的 12B 文本模型，作为 Pixtral 的"大脑"。视觉 token 和文本 token 走同一个 transformer，没有 cross-attention 这种隔离结构——属于"decoder-only 看一切"的统一架构（图和字都当成一串符号，一锅煮）。

视觉 token 与文本 token 的拼接。像把照片和文字塞进同一个聊天框：每张图被编码成一串 visual token，前后加上特殊标记（类似 [IMG] ... [IMG_END]，相当于"照片开始/照片结束"的书签），再和文字串成一长串喂给 LLM。多图、图文交错都靠这个顺序表达。具体的 token 化细节、特殊符号设计需读原文。

长上下文支持。像给助手一张超大的桌子，能同时摊开好几张图 + 一摞文字。Pixtral 上下文窗口约 128K token（具体数字以原文为准），意味着可以同时塞多张高清图 + 大段文字。这对文档理解（多页 PDF、长截图）、多图对比类任务很关键。训练数据配方、阶段划分（pretrain → SFT → 指令微调）等具体细节需读原文。

实验在做什么

报告评测覆盖几大类：

多模态基准：MMMU（学科推理）、MathVista（视觉数学）、ChartQA（图表问答）、DocVQA（文档问答）等。
纯文本基准：MMLU、HumanEval 等，验证视觉的引入没有让语言能力退化。
与同档位开源模型对比：Qwen2-VL 7B、LLaVA-OneVision、InternVL2 等。
与闭源模型对比：GPT-4o、Claude 3 Haiku、Gemini 1.5 Flash 这些"中等档位"闭源模型。

具体分数和排名需读原文。论文也提出了一个新评测 MM-MT-Bench，用来更贴近真实多轮多模态对话的场景。

你应该懂的几个新词 — 4-6 个

原生多模态（natively multimodal）：从预训练第一步就同时学图和文，不是先训完文本再补视觉。对应概念是 "vision-language adapter"（后接式）。
任意分辨率（native resolution）：图片不被强制 resize 到固定大小，patch 数量随图大小变化。
2D RoPE（旋转位置编码）：原版 RoPE 是 1D 序列上的相对位置编码；2D RoPE 把它扩展到图像的行列两个方向，让 patch 位置感知不依赖固定网格。
Visual token：图像经 ViT 编码后产出的向量序列，每个向量代表一个 patch，和文本 token 一样进入 transformer。
Apache-2.0 协议：开源协议，允许商用、修改、再分发，不强制开源衍生品。对工业界友好。
MM-MT-Bench：Pixtral 论文提出的多轮多模态对话评测集，用 LLM 当 judge 打分。

它和其他论文什么关系

对 LLaVA：LLaVA 是"借眼镜路线"的代表，Pixtral 是"原生眼睛路线"的代表。LLaVA 便宜、复现门槛低；Pixtral 重训了 ViT，门槛更高但天花板也更高。
对 Qwen2-VL：思路接近（原生分辨率、统一 transformer），是同期最直接的对标对象。两者在不同 benchmark 上各有胜负。
对 Flamingo：Flamingo 用 cross-attention 隔离视觉和语言；Pixtral 走 decoder-only 统一序列路线，是 2023-2024 年的主流转向。
对 Llama 3.2 Vision：Meta 的开源 VLM，思路偏"后接式"（视觉 adapter + 语言 backbone），与 Pixtral 的"原生"路线形成对比。
对 GPT-4V：闭源 SOTA 的参考线。Pixtral 的目标不是超过 GPT-4V，而是让开源社区在 12B 档位有一个"够用"的选择。

我建议这样读 — 3-4 步

先看第 1-2 章：弄清"原生多模态"和"任意分辨率"具体指什么，它们解决了之前路线的什么痛点。
看视觉编码器章节：重点是 2D RoPE 和变长 patch 序列的设计，这是技术核心。
跳到实验对比表：直接看它和 Qwen2-VL、LLaVA-OneVision 的具体分数差距，建立"12B 开源 VLM 大概是什么水平"的体感。
可选：读 MM-MT-Bench 设计：如果关心评测方法本身，这部分有方法论价值。

为什么值得读

三个理由：

开源 VLM 的工业级参考：Apache-2.0、12B、效果接近闭源中档位，是当下做 VLM 产品的合理起点。
"原生多模态"的样板：从 ViT 开始重训，而不是粘 CLIP，是 2024 年 VLM 工程范式的代表。读它能理解为什么后来很多模型（Qwen2-VL、Llama 3.2 Vision 的争论）都绕这个轴转。
任意分辨率的工程意义：对文档理解、UI 截图、机器人视觉等"图不是 224x224"的真实场景，原生分辨率不是锦上添花而是基础设施。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_pixtral_12b_2026,
  title       = {(readable note) Pixtral 12B},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/pixtral-12b/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)