回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Multimodal Ecology · Plate Nº 70

X-VLM: Multi-Grained Vision Language Pre-Training

7 min read · 2377 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

教 AI 看图,不只学"整张图配整句话",还学"图里某个物体配某个词"——这样问图里某个细节也答得准。

这是个什么场景 — 日常类比

想象你陪一个三岁小孩翻一本带配文的绘本:

  • 粗粒度:你指着整张图说"一只狗在草地上玩球"。小孩学到的是"这整一画面 ↔ 这整一句话"。
  • 细粒度:你换种教法——手指着狗说"狗",移到球说"球",移到草地说"草地"。小孩学到的是"图里这一小块 ↔ 这一个词"。

光会第一种的小孩,问他"图里左下角是什么"会答不上来;光会第二种的小孩,又讲不出"整张图在发生什么"。两种都得学。

之前的视觉-语言模型大多只做第一种(CLIP 风格的图-文整体对齐),或者依赖一个预训练好的物体检测器(比如 Faster R-CNN)先把图框出"狗"、"球"、"草地"几个 box,再去对齐——相当于先请别人帮忙把绘本里的物体一个个圈出来,自己只学"圈好了就贴标签"。X-VLM 想做的是:不依赖外部检测器,端到端地同时学整图、区域、物体三种粒度的对齐——一个老师同时教三种粒度,不用先请别人圈图。

X-VLM — 场景示意:这论文要解决的现实问题
Plate Nº IX-VLM — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • CLIP / ALIGN(2021):双塔结构,图-文整体对齐。简单、可扩展,但缺乏细粒度理解,问"图里左下角是什么"就答不好。
  • ViLBERT / LXMERT / UNITER(2019-2020):用预训练好的目标检测器(Faster R-CNN)抽 region features,再喂给 Transformer 做图文 cross-attention。强依赖检测器质量,慢,且检测类别有限。
  • ViLT(2021):去掉检测器,直接用 ViT patch + 文本 token 一起塞进 Transformer。轻量,但丢失了"哪个 patch 对应哪个物体"的显式监督。
  • ALBEF(2021,X-VLM 的前作):先做对比学习对齐整图整文(contrastive),再做融合 Transformer 学细粒度,引入 momentum distillation 处理 noisy web data。但对齐还是图-文级别

这篇论文的关键想法

核心论断:视觉-语言对齐不该只在一个粒度上做

X-VLM 的关键想法是构造一个多粒度的训练数据 + 多粒度的对齐目标

  1. 数据层面:训练数据不只是 (整图, caption) 对,还包含 (图, 区域 box, 区域描述) 三元组。区域可以是物体级(一只狗)或更大的视觉概念(一群人在野餐)。
  2. 模型层面:用一个 Vision Transformer 编码整图,但允许"取出某个 box 内 patch 的特征聚合"作为区域表征。
  3. 目标层面:同时优化三种对齐 loss——整图↔整文、区域↔短语、物体↔单词——共享同一个 Transformer 编码器。

这样模型学到的视觉特征空间里,"整图特征"和"区域特征"是同一套表征,只是聚合范围不同。下游任务可以灵活地按需提取任意粒度。

X-VLM — 方法示意:核心 pipeline
Plate Nº IIX-VLM — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

架构——像三个分工明确的同事在配合。一个负责看图(Vision Transformer,图像编码器),一个负责读文字(BERT-like,文本编码器),还有一个负责把两边的话凑到一起讨论(跨模态融合 Transformer)。整体框架沿用 ALBEF 的双塔 + 融合,但关键改动在于"看图那位同事不再只盯着整张图"。

多粒度视觉表征——像把一张大照片分成很多小贴纸,再灵活拼。图像过 ViT 后得到一堆 patch features(你可以想成把图切成 16×16 的小方块,每个方块算一个特征)。给定一个 box(来自 Visual Genome、COCO 这类带"圈出物体"标注的数据),就把 box 框住的那几张小贴纸的特征聚合一下,得到一个区域级特征向量;如果把整张图所有贴纸聚合,就是整图特征。这样同一张图能同时产出"整图向量 + 多个区域向量",每一个都能去和对应的文本(整句 caption / 短语 phrase / 单词 object name)配对。

等等,先慢一拍——为什么不用现成的物体检测器?因为以前的方法(如 ViLBERT)要先请 Faster R-CNN 把图圈成几个固定 box 再喂进来,慢、僵硬、且只认它训练过的物体类别。X-VLM 直接让 ViT 自己学"哪几张小贴纸合起来代表狗",更灵活也更端到端。

训练目标——同时给四份"作业",逼模型从不同角度对齐图文:

  • 对比学习(contrastive,ITC):图-文双塔,多粒度(整图-整文、区域-短语)都做。像让模型在一堆候选里挑出"哪句话配这张图",对的拉近、错的推远。
  • 匹配(ITM, image-text matching):跨模态融合后判断"这对图文是否真的匹配"。是个二分类,比 ITC 更细致但更慢。
  • MLM(masked language modeling):把文本里的词遮住,让模型靠图像信息猜——逼它真的看图,而不是只背文本。
  • Bounding box prediction:给一句短语,让模型预测它在图里对应的 box 坐标。这是最像"老师手指着图里某块说话"的训练信号,也是细粒度对齐的关键监督。

数据:混合多种来源——COCO、Visual Genome(带 region 标注,是细粒度学习的"主菜")、Conceptual Captions、SBU、CC12M(这些只有图-文整体对,做粗粒度的"配菜")等。具体每种数据多少、batch 怎么混,需读原文。

实验在做什么

X-VLM 在多个标准视觉-语言任务上验证多粒度对齐的好处:

  • 图文检索(image-text retrieval):Flickr30K、COCO 上的 R@1/R@5/R@10。
  • VQA(visual question answering):VQA v2 准确率。
  • 视觉推理:NLVR2(判断两张图和一句话是否一致)。
  • 视觉定位(visual grounding):RefCOCO 系列,给一句描述,找出图里对应的 box——这是多粒度对齐最直接受益的任务。
  • Image captioning:COCO Caption。

主要对比对象是 ALBEF、VinVL、BLIP 等同期方法。X-VLM 在多任务上达到 SOTA 或接近 SOTA,视觉定位提升尤其明显——这符合直觉:你训练时就显式对齐了 region 和 phrase,测试时找 region 自然更准。具体数字需读原文。

你应该懂的几个新词 — 4-6 个

  • Multi-grained alignment(多粒度对齐):同时在整图-整文、区域-短语、物体-单词等多个粒度上让视觉和语言特征对应。
  • Region / Bounding box(区域 / 边界框):图里一个矩形框,框住某个物体或视觉概念,是细粒度对齐的"锚点"。
  • Visual Genome:一个带密集 region 标注 + region description 的数据集,是多粒度训练的关键数据来源。
  • Image-Text Contrastive (ITC):双塔对比学习,把匹配的图-文拉近、不匹配的推远,CLIP 同款思路。
  • Image-Text Matching (ITM):把图和文一起塞进融合 Transformer,做二分类"是否匹配",比 ITC 更细但更慢。
  • Visual grounding(视觉定位):给一句描述,定位它在图里指的是哪个 box——多粒度对齐的"亲女儿任务"。

它和其他论文什么关系

  • ALBEF(2021)→ X-VLM:直接前作。X-VLM 沿用 ALBEF 的双塔 + 融合架构和 momentum distillation 思想,主要扩展是引入多粒度对齐 + bbox prediction loss。
  • CLIP / ALIGN:粗粒度对齐的代表,X-VLM 可视为它们的"细粒度增强版",但代价是需要带 region 标注的数据。
  • VinVL:依赖更强的物体检测器抽 region feature,思路是"先检测再对齐";X-VLM 是"端到端学多粒度",不依赖外部检测器。
  • BLIP(2022):同期工作,更关注用生成式 caption 做数据清洗(CapFilt),和 X-VLM 是互补思路:X-VLM 改对齐粒度,BLIP 改训练数据质量。后续 BLIP-2 把视觉编码器和 LLM 桥接起来,开启了 VLM 大模型时代。
  • 下游影响:X-VLM 的多粒度思想被后续很多工作借鉴(包括一些机器人 / embodied AI 里需要"指着图里某个物体说话"的场景)。

我建议这样读 — 3-4 步

  1. 先读 abstract + Figure 1:搞清楚"多粒度"具体指哪几个粒度,看图比看公式快。
  2. 跳到 Method 节看 loss 组合:重点是"区域特征怎么从 patch 聚合出来"和"bbox prediction 怎么做",这是和 ALBEF 的关键区别。
  3. 看 visual grounding 实验:这是多粒度对齐最直接受益的任务,看相对 ALBEF 提升多少,能直观感受多粒度的价值。
  4. 可选:和 ALBEF 论文对照读——X-VLM 很多设计直接来自 ALBEF,对照读能快速看出"加了什么、为什么"。

为什么值得读

  • 思路上:是从"图-文整体对齐"到"多粒度对齐"的代表作,理解了它再看后续 GLIP、Grounding DINO、各种带定位能力的 VLM 都更顺。
  • 工程上:展示了如何把多种数据(带 region 的 / 只有 caption 的)混在一起做统一训练,是现代 VLM 数据工程的早期范本。
  • 对 embodied AI 的意义:机器人很多任务需要"指认图里某个物体"(比如 RT-2 里的 grounding、SayCan 里的物体识别),多粒度对齐是这类能力的底层基础。
  • 难度适中:不是全新框架,是在 ALBEF 上的精准改进,读起来"看得懂改了什么、为什么改"——是学习如何写"增量但有效"的论文的好样本。

引用本笔记 / Cite this note
BibTeX
@online{eai_x_vlm_2026,
  title       = {(readable note) X-VLM: Multi-Grained Vision Language Pre-Training},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2022 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/x-vlm/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim