回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
VLM Foundation · Plate Nº 140

LLaVA-NeXT-Interleave

7 min read · 2328 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

教 AI 像刷图文并茂的小红书:图和字按顺序穿着读,多图、视频、3D 都用这一招,不用各训一个模型。

这是个什么场景

你周末刷小红书看一篇西湖游记。博主是这么排版的:

"早上到了西湖(图 1),先走苏堤(图 2),划船看断桥拍了正面和侧面两张(图 3、图 4),晚上吃了这家片儿川(图 5)。"

你读的时候图和字是穿着看的——文字告诉你这是哪、在干嘛,图告诉你具体长啥样。要是博主把所有图堆在最前面、文字全塞最后,你会看得很累。

可之前大多数 VLM(视觉语言模型,能看图说话的 AI)只会"盯一张照片回答一个问题",相当于只会看单张照片、不会读图文混排的笔记。这篇论文想让模型也能像你刷小红书一样,自然处理"图字穿插"的输入。

而且这一招还能顺便搞定两件事

  • 视频 = 一串按时间排的图(早 → 中 → 晚)
  • 3D 场景 = 一串从不同角度拍的图(正面 / 侧面 / 背面)

它们本质上都是"多张图 + 几段文字",只是图的来源不同。所以一种"图文穿插"的格式,可以一口气覆盖三类任务。

LLaVA-NeXT-Interleave — 场景示意:这论文要解决的现实问题
Plate Nº ILLaVA-NeXT-Interleave — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 单图 VLM(LLaVA-1.5、BLIP-2、Qwen-VL 早期版本):一次只看一张图回答问题,遇到多图、视频任务直接歇菜或者只能选一帧。
  • 视频专用模型(Video-LLaMA、VideoChat、Video-LLaVA):专门为视频设计架构,加时间编码器或者时序 pooling,但跟单图任务不通用。
  • 多图专用模型(Mantis、VPGTrans 等):处理多图但不擅长视频或 3D。
  • 3D 场景模型:单独一个分支,往往用点云(point cloud)+ 专用 encoder,不复用 2D VLM 的能力。
  • 共同问题:每加一个新模态就要重训一个新模型,能力分散,scaling 慢,benchmark 各做各的,模型间能力不互通。

这篇论文的关键想法

一个 format 统一三类任务:把多图、视频、3D 都重新表达成"图文交错序列(interleaved image-text sequence)",然后一个模型一起训练、一起推理。

具体三个 insight:

  1. 数据视角统一:多图问答、视频 caption、3D 场景描述,本质都是"多张图 + 文字",差别只是图来自哪儿(不同物体 / 不同时刻 / 不同视角)。
  2. 架构最小改动:在 LLaVA-NeXT 已有的单图架构上扩展,不引入特殊的时序/3D 模块;图们各自走 vision encoder,token 拼起来交给 LLM 处理。
  3. 任务能力可迁移(cross-task transfer):在交错格式上训出的能力,在不同模态间可以互相增强——多图训练的"对比能力"会帮视频"找差异帧"。
LLaVA-NeXT-Interleave — 方法示意:核心 pipeline
Plate Nº IILLaVA-NeXT-Interleave — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

数据格式(M4-Instruct)—— 像写一本图文混排的菜谱

菜谱不会把"步骤 1、2、3"全堆在一起,再把"翻面图、出锅图、装盘图"塞最后;它会"步骤 1 + 这张图、步骤 2 + 那张图"穿着写。作者就照这思路做了 M4-Instruct(M4 = Multi-image 多图 / Multi-frame 多帧 / Multi-view 多视角 / Multi-patch 多切片)这个统一指令数据集。每条样本长这样:<文字> <图 1> <文字> <图 2> ... <文字>。多图任务塞 2-3 张图找不同,视频按时间顺序塞帧,3D 按视角顺序塞图。具体规模和混合比例需读原文。

等等,先慢一拍 — instruction(指令)数据集是什么?

简单说:数据集里每条都长得像"用户提问 + 标准答案"。比如"对比这两张图哪里不一样?答:左边那只猫多了条领结。"模型靠看大量这种样本,学会"被问就照样回答"。

模型架构 —— 像翻译流水线,原班人马接新活

不重新装修厨房,只多请几个传菜员:基本沿用 LLaVA-NeXT,配方是 vision encoder(视觉编码器,CLIP / SigLIP 系,具体待查原文)+ projector(投影层,把视觉 token 翻译成 LLM 听得懂的"词")+ LLM backbone(语言主干,Qwen 或 LLaMA 多个尺寸)。多张图来时,每张各走一遍编码器拿到自己的视觉 token,再按顺序穿插进文字 token 里,整队一起送进 LLM。

训练范式 —— 先学认字,再学答题

走的是标准 instruction tuning(指令微调)两步走:第一步在大规模图文对上预训练,让 vision 端和 LLM 端先"对上暗号";第二步在 M4-Instruct 上做指令微调,教模型读懂"图文穿插"的提问方式。是否分更细的阶段、各阶段数据比例、超参数需读原文确认。

推理时的统一接口 —— 一个口子,三种点单方式

像便利店收银台不分早餐、午餐、夜宵,都从同一个口子结账:用户给 2 张图(多图问答)、16 帧视频(视频问答)还是 8 个视角(3D 场景描述),模型都用同一套 prompt 模板处理。这就是论文说的 "a single model handles three multi-image scenarios"——一个模型,吃三类活。

实验在做什么

按论文常规结构,应该测了三大类 benchmark:

  • 多图基准:MMMU-multi、Mantis-Eval、BLINK 等多图理解任务,看能不能跨图对比、找关系。
  • 视频基准:MVBench、VideoMME、EgoSchema 等视频理解任务,看时序推理能力。
  • 3D 基准:ScanQA、SQA3D 等 3D 场景理解,看多视角整合能力。

核心论点应该是:单一模型在三类任务上都能达到或接近专用 SOTA,证明 interleaved format 的统一性不会牺牲单任务性能。同时应该有 ablation 显示:

  • 只在单一模态训练 vs 三类混合训练,混合训练在 cross-task 上更强。
  • 不同模型尺寸(7B / 14B / ...)的 scaling 表现。

具体数字、对比模型、提升幅度需读原文。

你应该懂的几个新词 — 4-6 个

  • Interleaved image-text format(图文交错格式):图和文字按出现顺序穿插的输入序列。例:[文字][图][图][文字][图][文字],区别于"先全部图再文字"或"先全部文字再图"。
  • Multi-image instruction tuning(多图指令微调):在多图样本上做 instruction tuning,让模型学会处理"输入有多张图"的任务,而非单图。
  • Cross-task transfer(跨任务迁移):一种能力(如多图对比)在另一种模态(如视频帧差异)上自然涌现,不用单独训。
  • Multi-view(多视角):从不同角度拍同一个 3D 物体/场景的多张 2D 图片。LLaVA-NeXT-Interleave 把 3D 任务降维成多视角图片任务。
  • Visual token(视觉 token):图片经过 vision encoder 后变成的一组向量,每个向量长得像 LLM 词表里的一个 "词",所以可以和文字 token 拼在同一个序列里。
  • M4-Instruct:作者构造的统一指令数据集,覆盖 multi-image / multi-frame / multi-view / multi-patch 四种"多图"场景。

它和其他论文什么关系

  • 承接 LLaVA-1.5 / LLaVA-NeXT:是 LLaVA 系列的多图扩展,单图能力来自 LLaVA-NeXT。
  • 对标 Mantis / VPGTrans:同样想做多图 VLM,但 LLaVA-NeXT-Interleave 更统一(覆盖视频和 3D)。
  • 对标 Video-LLaVA / VideoChat:视频理解能力,但不引入专用时序模块,靠 interleaved format 复用单图能力。
  • 铺垫 InternVL-2.5 / Qwen2-VL / LLaVA-OneVision:后续的"统一 VLM"基本都接受了交错格式作为标准输入,LLaVA-NeXT-Interleave 是这个范式较早期的代表。
  • 思想上呼应 Flamingo:Flamingo 也是处理图文交错,但它是 few-shot in-context learning 范式;LLaVA-NeXT-Interleave 是 instruction-following 范式。

我建议这样读 — 3-4 步

  1. 先看 Figure 1 + Table 1:理解"interleaved format 长啥样"和"它把哪些任务统一了",这是全篇论点。
  2. 跳到数据章节:看 M4-Instruct 怎么构造的,数据来源、规模、四类场景的样本占比——这是论文真正的工程贡献。
  3. 看主结果表:对比三类 benchmark 上的成绩,重点看"单一模型 vs 各模态专用 SOTA"的 gap。
  4. 如果对训练细节感兴趣:再看 ablation,尤其是"只训单图 vs 混训三类"的对比,验证 cross-task transfer 是否真的发生。

不建议一上来就啃架构图——架构是 LLaVA-NeXT 的小改,没什么新东西。

为什么值得读

  • 范式价值:是"统一多模态 VLM"思路在 2024 中期的代表作,后续的 InternVL-2.5、Qwen2-VL、LLaVA-OneVision 都吃了这碗饭。如果你要追这条线,这篇是必看的中间锚点。
  • 工程启发:告诉你"加新模态不一定要加新模块",把数据格式改对了,模型能自己学会跨模态泛化。这对做具身 AI(embodied AI)很有用——具身场景天然是多视角 + 时序,可以直接复用这个 format。
  • 数据视角的胜利:M4-Instruct 数据集本身可能比模型贡献更大,提醒人"数据格式设计 ≥ 架构设计"。
  • 对 embodied 研究的指引:如果你要做机器人 VLM,输入往往是"多个摄像头 + 多帧 + 多步骤",正是 interleaved format 擅长的。这篇可以当 embodied VLM 输入设计的参考起点。

读完后建议串看:LLaVA-OneVision(同组后续)→ Qwen2-VL(工业级实现)→ InternVL-2.5(更大规模工程)。

引用本笔记 / Cite this note
BibTeX
@online{eai_llava_next_interleave_2026,
  title       = {(readable note) LLaVA-NeXT-Interleave},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/llava-next-interleave/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim