Multimodal Ecology · Plate Nº 69

OneLLM

7 min read · 2291 字 · ⭐⭐⭐ · 短摘要

#transformer #language #vision #audio-speech #dataset

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

OneLLM 用一套通用「翻译机」，让大语言模型同时听懂图像、声音、点云等八种信号——加新信号只要少量训练，不用从头再做。

这是个什么场景 — 日常类比

想象你点了一份外卖。这一单里其实塞着各种信号：店家发来的菜品照片（图像）、骑手发的语音告诉你到楼下了（音频）、地图上的配送轨迹（位置/3D）、手机记录车子颠簸的运动数据（IMU 传感器）……

如果你想让 ChatGPT 帮你"看懂这一单情况"，传统做法很笨：

每来一种信号，就单独雇一个翻译。照片找懂图的、语音找懂声的、轨迹找懂地图的——八种信号 = 八份独立代码，互相不认识，加新信号还得从零再雇一个。
OneLLM 的做法是搞一个"万能翻译室"：同一组翻译员先把最常见的几种信号（图—文）练扎实，再用"老带新"的方式带出稀有信号（脑成像、高光谱）。新来一种信号时不必重新招人，只需小规模培训。

LLM 就像那位只懂中文的客服，OneLLM 负责把八种五花八门的信号都翻成它听得懂的话递进去。

之前的人怎么做的 — 3-5 bullet

每模态一个专家编码器：图像用 CLIP/ViT，音频用 AST/Whisper encoder，点云用 PointNet++，每加一种模态就得引入一个全新的预训练模型 + 一份对齐数据。
两两配对的对齐：BLIP-2、LLaVA 这类工作主要做"图文对齐"；ImageBind 把六模态绑到 image embedding 空间，但 ImageBind 本身不直接对话，需要再接一层 LLM。
数据稀缺的模态难扩展：fMRI（脑成像）、IMU（惯性传感器）、HSI（高光谱）这些模态几乎没有大规模"模态-文本"配对数据，单独训一个对齐编码器很难。
架构碎片化：每加一种模态，工程上要维护一份单独的 encoder + projection，部署和迭代成本随模态数线性增长。

这篇论文的关键想法

核心有两条：

统一编码器（Universal Encoder）——像一个会做八国菜的厨师。传统做法是雇八个专科厨师（图像有图像 encoder、音频有音频 encoder）。OneLLM 让所有食材（模态）经过最简单的"洗切"之后，全都进同一口锅（共享一个 transformer backbone，论文复用了预训练的 CLIP-ViT 当骨架），再由一个叫 UPM（Universal Projection Module，通用投影模块） 的"摆盘师"把成品摆成 LLM 认得的样子。

等等，先慢一拍——"token 空间"是什么？ LLM 内部把每个词都表示成一长串数字（向量）。要让 LLM 听懂图、声音，就得把它们也变成"这种长相的数字串"，UPM 干的就是这件事。
渐进式多模态对齐（Progressive Alignment）——像学外语，先母语再小语种。不是八种模态一起塞进去训。先用数据最多的"图—文"配对打底（相当于先把英语练熟），再依次接入视频、音频、点云……每多一种，前面练出来的"语义感"可以迁移过来，冷门模态只需要少量配对数据就能接上。

它怎么做的（方法）— 3-4 段

模态特定的轻量 tokenizer。每种模态先经过一个非常薄的输入层把原始信号切成 token：图像用 patch embedding，视频在时间维上多采几帧，音频做梅尔频谱再切，点云做体素/球聚合，IMU 直接按时间窗切片。这一步不引入大模型，只是"切菜"。

统一编码器 + 通用投影模块（UPM）。所有模态的 token 进入同一个共享 transformer 编码器（论文里复用了一个预训练 CLIP-ViT 当骨架）。然后由一个 UPM 把编码器输出投影到 LLM 的 embedding 空间。UPM 的关键设计是带"模态路由"——通过一个小 router 选择对应模态的 expert/adapter 路径，这样既共享主干，又给每个模态留一点自由度。具体的 expert 数量和路由方式需读原文。

渐进式三阶段训练。论文采用阶梯式训练：第一阶段用大规模图文对训练 UPM 主路径；第二阶段冻结大部分参数，逐步把视频、音频等模态接进来训各自的 router/adapter；第三阶段做多模态指令微调（multimodal instruction tuning），用混合的多模态对话数据让 LLM 学会"看到这种信号该说什么话"。

对齐到 LLM。骨干 LLM（论文用的是 LLaMA2 系列，具体规格需读原文）保持冻结或只做轻量微调，UPM 输出的 token 拼到文本 prompt 前面，按标准的 next token prediction 做训练。这样 OneLLM 就能用同一个对话接口处理八种模态的输入。

实验在做什么

论文要回答的核心问题是："共享一个编码器 + 渐进式训练，能不能在多个模态上达到甚至超过专用模型？"

主要在以下基准上跑：

图像 / 视频 caption 与 VQA：COCO Caption、VQAv2、视频问答 benchmark（具体数据集需读原文）
音频理解：音频 caption、音频问答（AudioCaps 等）
3D / 点云：物体描述与 3D 问答
冷门模态：IMU（动作识别）、fMRI（脑信号→文本）、深度图、高光谱——这些模态的可比 baseline 很少，论文要证明"少量数据也能接得上"。

具体每个 benchmark 的数字、与 ImageBind / X-LLM / PandaGPT 等基线的差距，需读原文表格。

你应该懂的几个新词 — 4-6 个

模态（modality）：信号的类型，例如视觉、音频、文本是不同模态。"多模态"= 模型能同时处理多种类型的输入。
Universal Projection Module（UPM）：OneLLM 自己起的术语，指那个把不同模态特征都投影到 LLM token 空间的"翻译头"，内部带模态 router。
渐进式对齐（progressive alignment）：不是一锅端，而是先训数据多的模态，再迁移到数据少的模态。类比"先学母语再学第二外语"。
token / embedding 空间：LLM 内部把每个词表示成一个高维向量（embedding）。对齐到 LLM 就是让其他模态的特征也变成"这种向量长相"，这样 LLM 才认得。
Mixture-of-Experts 路由（MoE-like routing）：UPM 里用的"按模态选路径"的思想，类似多个分支专家共享主干，input 来自哪种模态就走对应的 expert。
指令微调（instruction tuning）：让模型学会"按指令回答"的训练阶段，OneLLM 第三阶段做的就是多模态版本。

它和其他论文什么关系

ImageBind（Meta, 2023）：把 6 模态绑到同一空间，但只是 embedding 对齐，不直接和 LLM 对话。OneLLM 像是 ImageBind 思想 + LLM 接口的组合，并且模态数从 6 扩到 8。
BLIP-2 / LLaVA：单模态（图）→ LLM 的代表作。OneLLM 把它们的"projection / Q-Former 思路"推广到任意模态。
PandaGPT / X-LLM / Macaw-LLM：同期的多模态大模型工作。区别是它们大多还是"每模态一个 encoder"，OneLLM 在"共享编码器 + 渐进训练"上走得更彻底。
后续影响：这种"统一接口 + 渐进式对齐"思路对后来的 AnyMAL、Unified-IO 2、以及把奇怪传感器（IMU、毫米波雷达、触觉）接到 LLM 的工作有直接启发。
本仓库内交叉：可对照阅读 imagebind.md（共享空间的早期形态）、blip-2.md（projection 设计）、llava.md（指令微调流程）、touch-vision-cross-modal.md（小众模态接入）。

我建议这样读 — 3-4 步

先看 Figure 1 + Figure 2：搞清楚"八模态怎么进、UPM 长什么样、LLM 在哪儿"。这一步看完就能向别人讲清楚架构。
跳到训练流程那节：重点看渐进式三阶段每段冻结/解冻了哪些参数，配对数据的规模与来源——这是它能扩到 8 模态的关键。
挑两个你最熟的模态看实验：例如图像 + 音频，对比看它和 LLaVA / 音频 LLM 的差距。如果差距小，说明"共享编码器没显著掉点"，这是论文真正想证明的。
可选：扫一眼 IMU、fMRI 这种长尾模态的实验，看它在低资源场景下能做到什么程度——这是 OneLLM 区别于其他多模态 LLM 的最大差异化点。

为什么值得读

方法论层面：把"如何扩展模态数"从工程问题变成了训练策略问题，思路简洁可复用。
架构层面：UPM + 渐进式对齐的范式，对你以后想接奇怪传感器（毫米波、触觉、IMU）到 LLM 是直接的模板。
生态位：CVPR 2024 经典工作之一，理解多模态大模型演化时，OneLLM 是 ImageBind → AnyMAL → Unified-IO 2 这条线的重要节点。
对 embodied AI 的意义：机器人天生就是多模态——RGB、深度、IMU、力/触觉、有时还有点云和雷达。OneLLM 的"统一编码 + 少量数据接入新模态"对机器人 perception layer 接 LLM 决策非常有借鉴价值。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_onellm_2026,
  title       = {(readable note) OneLLM},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/onellm/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)