回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Multimodal Ecology · Plate Nº 69

OneLLM

7 min read · 2291 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

OneLLM 用一套通用「翻译机」,让大语言模型同时听懂图像、声音、点云等八种信号——加新信号只要少量训练,不用从头再做。

这是个什么场景 — 日常类比

想象你点了一份外卖。这一单里其实塞着各种信号:店家发来的菜品照片(图像)、骑手发的语音告诉你到楼下了(音频)、地图上的配送轨迹(位置/3D)、手机记录车子颠簸的运动数据(IMU 传感器)……

如果你想让 ChatGPT 帮你"看懂这一单情况",传统做法很笨:

  • 每来一种信号,就单独雇一个翻译。照片找懂图的、语音找懂声的、轨迹找懂地图的——八种信号 = 八份独立代码,互相不认识,加新信号还得从零再雇一个。
  • OneLLM 的做法是搞一个"万能翻译室":同一组翻译员先把最常见的几种信号(图—文)练扎实,再用"老带新"的方式带出稀有信号(脑成像、高光谱)。新来一种信号时不必重新招人,只需小规模培训。

LLM 就像那位只懂中文的客服,OneLLM 负责把八种五花八门的信号都翻成它听得懂的话递进去。

OneLLM — 场景示意:这论文要解决的现实问题
Plate Nº IOneLLM — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 每模态一个专家编码器:图像用 CLIP/ViT,音频用 AST/Whisper encoder,点云用 PointNet++,每加一种模态就得引入一个全新的预训练模型 + 一份对齐数据。
  • 两两配对的对齐:BLIP-2、LLaVA 这类工作主要做"图文对齐";ImageBind 把六模态绑到 image embedding 空间,但 ImageBind 本身不直接对话,需要再接一层 LLM。
  • 数据稀缺的模态难扩展:fMRI(脑成像)、IMU(惯性传感器)、HSI(高光谱)这些模态几乎没有大规模"模态-文本"配对数据,单独训一个对齐编码器很难。
  • 架构碎片化:每加一种模态,工程上要维护一份单独的 encoder + projection,部署和迭代成本随模态数线性增长。

这篇论文的关键想法

核心有两条:

  1. 统一编码器(Universal Encoder)——像一个会做八国菜的厨师。 传统做法是雇八个专科厨师(图像有图像 encoder、音频有音频 encoder)。OneLLM 让所有食材(模态)经过最简单的"洗切"之后,全都进同一口锅(共享一个 transformer backbone,论文复用了预训练的 CLIP-ViT 当骨架),再由一个叫 UPM(Universal Projection Module,通用投影模块) 的"摆盘师"把成品摆成 LLM 认得的样子。

    等等,先慢一拍——"token 空间"是什么? LLM 内部把每个词都表示成一长串数字(向量)。要让 LLM 听懂图、声音,就得把它们也变成"这种长相的数字串",UPM 干的就是这件事。

  2. 渐进式多模态对齐(Progressive Alignment)——像学外语,先母语再小语种。 不是八种模态一起塞进去训。先用数据最多的"图—文"配对打底(相当于先把英语练熟),再依次接入视频、音频、点云……每多一种,前面练出来的"语义感"可以迁移过来,冷门模态只需要少量配对数据就能接上

OneLLM — 方法示意:核心 pipeline
Plate Nº IIOneLLM — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

模态特定的轻量 tokenizer。每种模态先经过一个非常薄的输入层把原始信号切成 token:图像用 patch embedding,视频在时间维上多采几帧,音频做梅尔频谱再切,点云做体素/球聚合,IMU 直接按时间窗切片。这一步不引入大模型,只是"切菜"。

统一编码器 + 通用投影模块(UPM)。所有模态的 token 进入同一个共享 transformer 编码器(论文里复用了一个预训练 CLIP-ViT 当骨架)。然后由一个 UPM 把编码器输出投影到 LLM 的 embedding 空间。UPM 的关键设计是带"模态路由"——通过一个小 router 选择对应模态的 expert/adapter 路径,这样既共享主干,又给每个模态留一点自由度。具体的 expert 数量和路由方式需读原文。

渐进式三阶段训练。论文采用阶梯式训练:第一阶段用大规模图文对训练 UPM 主路径;第二阶段冻结大部分参数,逐步把视频、音频等模态接进来训各自的 router/adapter;第三阶段做多模态指令微调(multimodal instruction tuning),用混合的多模态对话数据让 LLM 学会"看到这种信号该说什么话"。

对齐到 LLM。骨干 LLM(论文用的是 LLaMA2 系列,具体规格需读原文)保持冻结或只做轻量微调,UPM 输出的 token 拼到文本 prompt 前面,按标准的 next token prediction 做训练。这样 OneLLM 就能用同一个对话接口处理八种模态的输入。

实验在做什么

论文要回答的核心问题是:"共享一个编码器 + 渐进式训练,能不能在多个模态上达到甚至超过专用模型?"

主要在以下基准上跑:

  • 图像 / 视频 caption 与 VQA:COCO Caption、VQAv2、视频问答 benchmark(具体数据集需读原文)
  • 音频理解:音频 caption、音频问答(AudioCaps 等)
  • 3D / 点云:物体描述与 3D 问答
  • 冷门模态:IMU(动作识别)、fMRI(脑信号→文本)、深度图、高光谱——这些模态的可比 baseline 很少,论文要证明"少量数据也能接得上"。

具体每个 benchmark 的数字、与 ImageBind / X-LLM / PandaGPT 等基线的差距,需读原文表格。

你应该懂的几个新词 — 4-6 个

  • 模态(modality):信号的类型,例如视觉、音频、文本是不同模态。"多模态"= 模型能同时处理多种类型的输入。
  • Universal Projection Module(UPM):OneLLM 自己起的术语,指那个把不同模态特征都投影到 LLM token 空间的"翻译头",内部带模态 router。
  • 渐进式对齐(progressive alignment):不是一锅端,而是先训数据多的模态,再迁移到数据少的模态。类比"先学母语再学第二外语"。
  • token / embedding 空间:LLM 内部把每个词表示成一个高维向量(embedding)。对齐到 LLM 就是让其他模态的特征也变成"这种向量长相",这样 LLM 才认得。
  • Mixture-of-Experts 路由(MoE-like routing):UPM 里用的"按模态选路径"的思想,类似多个分支专家共享主干,input 来自哪种模态就走对应的 expert。
  • 指令微调(instruction tuning):让模型学会"按指令回答"的训练阶段,OneLLM 第三阶段做的就是多模态版本。

它和其他论文什么关系

  • ImageBind(Meta, 2023):把 6 模态绑到同一空间,但只是 embedding 对齐,不直接和 LLM 对话。OneLLM 像是 ImageBind 思想 + LLM 接口的组合,并且模态数从 6 扩到 8。
  • BLIP-2 / LLaVA:单模态(图)→ LLM 的代表作。OneLLM 把它们的"projection / Q-Former 思路"推广到任意模态。
  • PandaGPT / X-LLM / Macaw-LLM:同期的多模态大模型工作。区别是它们大多还是"每模态一个 encoder",OneLLM 在"共享编码器 + 渐进训练"上走得更彻底。
  • 后续影响:这种"统一接口 + 渐进式对齐"思路对后来的 AnyMAL、Unified-IO 2、以及把奇怪传感器(IMU、毫米波雷达、触觉)接到 LLM 的工作有直接启发。
  • 本仓库内交叉:可对照阅读 imagebind.md(共享空间的早期形态)、blip-2.md(projection 设计)、llava.md(指令微调流程)、touch-vision-cross-modal.md(小众模态接入)。

我建议这样读 — 3-4 步

  1. 先看 Figure 1 + Figure 2:搞清楚"八模态怎么进、UPM 长什么样、LLM 在哪儿"。这一步看完就能向别人讲清楚架构。
  2. 跳到训练流程那节:重点看渐进式三阶段每段冻结/解冻了哪些参数,配对数据的规模与来源——这是它能扩到 8 模态的关键。
  3. 挑两个你最熟的模态看实验:例如图像 + 音频,对比看它和 LLaVA / 音频 LLM 的差距。如果差距小,说明"共享编码器没显著掉点",这是论文真正想证明的。
  4. 可选:扫一眼 IMU、fMRI 这种长尾模态的实验,看它在低资源场景下能做到什么程度——这是 OneLLM 区别于其他多模态 LLM 的最大差异化点。

为什么值得读

  • 方法论层面:把"如何扩展模态数"从工程问题变成了训练策略问题,思路简洁可复用。
  • 架构层面:UPM + 渐进式对齐的范式,对你以后想接奇怪传感器(毫米波、触觉、IMU)到 LLM 是直接的模板。
  • 生态位:CVPR 2024 经典工作之一,理解多模态大模型演化时,OneLLM 是 ImageBind → AnyMAL → Unified-IO 2 这条线的重要节点。
  • 对 embodied AI 的意义:机器人天生就是多模态——RGB、深度、IMU、力/触觉、有时还有点云和雷达。OneLLM 的"统一编码 + 少量数据接入新模态"对机器人 perception layer 接 LLM 决策非常有借鉴价值。

引用本笔记 / Cite this note
BibTeX
@online{eai_onellm_2026,
  title       = {(readable note) OneLLM},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/onellm/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim