回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
VLM Foundation · Plate Nº 143

Pixtral 12B

6 min read · 2068 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

Mistral 开源的"会看图聊天的助手"——从一开始就同时学看图和说话,图想多大就多大,能免费拿去做产品。

这是个什么场景 — 日常类比

想象你拍了一张餐厅菜单的照片,想问 AI:"这家店哪个菜最便宜?" 或者你截了一张满屏的网页,想问:"帮我看看这页讲的是不是退款政策?"——这就是视觉语言模型(VLM, Vision-Language Model)的日常活儿:又看图又聊天。

之前主流做法像是请了一位中文很好但戴眼镜的同事(已经训练好的纯文本模型),临时配一副"老花镜"(视觉编码器 + 翻译层)让他能看图。问题有两个:这副眼镜的度数固定(图必须缩成 224x224 或 336x336,看高清菜单就糊),而且眼镜是后来才戴上的,眼睛和大脑配合别扭——他读图像是隔着一层翻译。

Pixtral 的思路像是:从小让这个人一边学说话一边学看东西,眼睛还能自动调焦——大图多看几眼(产更多 patch),小图少看几眼。眼睛和大脑是一起长出来的,不是后装的。

Pixtral 12B — 场景示意:这论文要解决的现实问题
Plate Nº IPixtral 12B — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • LLaVA / MiniGPT-4 路线:拿 CLIP 视觉编码器 + 现成 LLM(如 Vicuna、Llama),中间塞一个 MLP 投影层。优点是便宜,缺点是分辨率被锁死、视觉表征和语言空间没真正融合。
  • Flamingo(DeepMind, 2022):在 LLM 中插入 cross-attention 层让模型"读"图像 token,但视觉部分是冻结的。
  • GPT-4V / Claude 3 / Gemini:闭源,效果好但谁也不知道怎么训的,更不能商用改装。
  • Qwen2-VL(Alibaba, 2024):开始支持原生分辨率,思路与 Pixtral 类似,是同期的强力开源对手。
  • InternVL 系列:开源 VLM,但参数规模和训练配方与 Pixtral 不完全可比。

共同短板:视觉部分通常是"借来的"(CLIP 或 SigLIP 直接拿来用),分辨率被预训练阶段锁死,遇到长文档、高清图、多图任务就吃力。

这篇论文的关键想法

三件事一起做:

  1. 从零训练专属视觉编码器。Mistral 没用 CLIP,而是自己训了一个名为 Pixtral-ViT 的视觉 backbone,专门为下游 VLM 服务。
  2. 支持原生(任意)分辨率与任意宽高比。图片不被强制压成正方形,长文档、宽屏截图、手机竖屏照片都能直接喂。
  3. 保持 Mistral Nemo 12B 的语言能力。视觉的引入没有把语言能力打折,纯文本任务上仍然强。

加在一起:一个 12B 量级的开源 VLM,图文都不弱,且 Apache-2.0 可商用。

Pixtral 12B — 方法示意:核心 pipeline
Plate Nº IIPixtral 12B — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

视觉编码器(Pixtral-ViT, 约 400M 参数)。像专门给这位助手配一副自家磨的眼镜,而不是去眼镜店买现成的(CLIP)。Mistral 自训了一个 ViT,关键改动是把位置编码从"固定网格"换成 2D RoPE。

等等,先慢一拍 — 2D RoPE 是什么? 把图片想成一张方格纸。原版 RoPE(旋转位置编码)只能记一条直线上每格的编号;2D RoPE 把它扩展到行和列两个方向,能告诉模型"这一小块在第 3 行第 5 列"。这样一来,图大图小都能编码,不用先把图压成统一尺寸。

图片先按原始宽高比切成 patch(小方块),patch 数量随图大小变。一张高清文档可能产出几千个 visual token;一张缩略图可能只有几十个。

语言 backbone(Mistral Nemo 12B)。像助手脑子里那位"会说话的人"。这是 Mistral 与 NVIDIA 联合训练的 12B 文本模型,作为 Pixtral 的"大脑"。视觉 token 和文本 token 走同一个 transformer,没有 cross-attention 这种隔离结构——属于"decoder-only 看一切"的统一架构(图和字都当成一串符号,一锅煮)。

视觉 token 与文本 token 的拼接。像把照片和文字塞进同一个聊天框:每张图被编码成一串 visual token,前后加上特殊标记(类似 [IMG] ... [IMG_END],相当于"照片开始/照片结束"的书签),再和文字串成一长串喂给 LLM。多图、图文交错都靠这个顺序表达。具体的 token 化细节、特殊符号设计需读原文。

长上下文支持。像给助手一张超大的桌子,能同时摊开好几张图 + 一摞文字。Pixtral 上下文窗口约 128K token(具体数字以原文为准),意味着可以同时塞多张高清图 + 大段文字。这对文档理解(多页 PDF、长截图)、多图对比类任务很关键。训练数据配方、阶段划分(pretrain → SFT → 指令微调)等具体细节需读原文。

实验在做什么

报告评测覆盖几大类:

  • 多模态基准:MMMU(学科推理)、MathVista(视觉数学)、ChartQA(图表问答)、DocVQA(文档问答)等。
  • 纯文本基准:MMLU、HumanEval 等,验证视觉的引入没有让语言能力退化。
  • 与同档位开源模型对比:Qwen2-VL 7B、LLaVA-OneVision、InternVL2 等。
  • 与闭源模型对比:GPT-4o、Claude 3 Haiku、Gemini 1.5 Flash 这些"中等档位"闭源模型。

具体分数和排名需读原文。论文也提出了一个新评测 MM-MT-Bench,用来更贴近真实多轮多模态对话的场景。

你应该懂的几个新词 — 4-6 个

  • 原生多模态(natively multimodal):从预训练第一步就同时学图和文,不是先训完文本再补视觉。对应概念是 "vision-language adapter"(后接式)。
  • 任意分辨率(native resolution):图片不被强制 resize 到固定大小,patch 数量随图大小变化。
  • 2D RoPE(旋转位置编码):原版 RoPE 是 1D 序列上的相对位置编码;2D RoPE 把它扩展到图像的行列两个方向,让 patch 位置感知不依赖固定网格。
  • Visual token:图像经 ViT 编码后产出的向量序列,每个向量代表一个 patch,和文本 token 一样进入 transformer。
  • Apache-2.0 协议:开源协议,允许商用、修改、再分发,不强制开源衍生品。对工业界友好。
  • MM-MT-Bench:Pixtral 论文提出的多轮多模态对话评测集,用 LLM 当 judge 打分。

它和其他论文什么关系

  • 对 LLaVA:LLaVA 是"借眼镜路线"的代表,Pixtral 是"原生眼睛路线"的代表。LLaVA 便宜、复现门槛低;Pixtral 重训了 ViT,门槛更高但天花板也更高。
  • 对 Qwen2-VL:思路接近(原生分辨率、统一 transformer),是同期最直接的对标对象。两者在不同 benchmark 上各有胜负。
  • 对 Flamingo:Flamingo 用 cross-attention 隔离视觉和语言;Pixtral 走 decoder-only 统一序列路线,是 2023-2024 年的主流转向。
  • 对 Llama 3.2 Vision:Meta 的开源 VLM,思路偏"后接式"(视觉 adapter + 语言 backbone),与 Pixtral 的"原生"路线形成对比。
  • 对 GPT-4V:闭源 SOTA 的参考线。Pixtral 的目标不是超过 GPT-4V,而是让开源社区在 12B 档位有一个"够用"的选择。

我建议这样读 — 3-4 步

  1. 先看第 1-2 章:弄清"原生多模态"和"任意分辨率"具体指什么,它们解决了之前路线的什么痛点。
  2. 看视觉编码器章节:重点是 2D RoPE 和变长 patch 序列的设计,这是技术核心。
  3. 跳到实验对比表:直接看它和 Qwen2-VL、LLaVA-OneVision 的具体分数差距,建立"12B 开源 VLM 大概是什么水平"的体感。
  4. 可选:读 MM-MT-Bench 设计:如果关心评测方法本身,这部分有方法论价值。

为什么值得读

三个理由:

  1. 开源 VLM 的工业级参考:Apache-2.0、12B、效果接近闭源中档位,是当下做 VLM 产品的合理起点。
  2. "原生多模态"的样板:从 ViT 开始重训,而不是粘 CLIP,是 2024 年 VLM 工程范式的代表。读它能理解为什么后来很多模型(Qwen2-VL、Llama 3.2 Vision 的争论)都绕这个轴转。
  3. 任意分辨率的工程意义:对文档理解、UI 截图、机器人视觉等"图不是 224x224"的真实场景,原生分辨率不是锦上添花而是基础设施。

引用本笔记 / Cite this note
BibTeX
@online{eai_pixtral_12b_2026,
  title       = {(readable note) Pixtral 12B},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/pixtral-12b/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim