回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
VLM Foundation · Plate Nº 142

Long-CLIP: Unlocking the Long-Text Capability of CLIP

7 min read · 2395 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

给只能读 77 字短纸条的 CLIP 做两个小手术,让它能读 248 字的长纸条,但又没忘掉原来认识的那些短词。

这是个什么场景 — 日常类比

想象你在用一个图片搜索 App:你输入"一只猫",它就能给你翻出一堆猫的照片。这背后干活的就是 CLIP——它像一对双胞胎,哥哥专门看图,弟弟专门读文字,两人从小被训练得一对上号就齐刷刷点头。

但弟弟有个怪癖:他只能读不超过 77 个字的纸条(CLIP 文本编码器的最大输入长度)。你随手输个"猫"没问题,可一旦你想找"穿着小毛衣坐在窗台上、阳光打在橘色花纹上的英短"——这种细节满满的长描述,他要么直接把后半句剪掉,要么读得稀里糊涂。

而现在大家越来越想"说人话"地搜东西、画东西:拿 Stable Diffusion 画图要喂长 prompt,做图文搜索想用整段描述当 query,AI 给图片自动配的 caption 也越来越啰嗦。Long-CLIP 要解决的就是这个尴尬:给弟弟做个不大不小的手术,让他能读 248 个字的长纸条,但又不能让他把原来背得滚瓜烂熟的那些短词都忘了。

Long-CLIP — 场景示意:这论文要解决的现实问题
Plate Nº ILong-CLIP — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 直接截断:超过 77 token 的部分丢掉,最简单也最损信息。
  • 重新训练长版 CLIP:从头训一个支持长文本的版本,代价巨大且会破坏已有的 zero-shot 能力。
  • 位置编码外推(rope-style 等):在 LLM 圈很常见,但 CLIP 的位置编码是可学习的绝对位置,外推效果不稳。
  • 拼接多个短编码:把长文本切成若干段分别过 CLIP 再 pooling,工程化但语义割裂。
  • 下游模型自己接 LLM 当文本端:比如 SD3 用 T5,但这不算"修 CLIP",是绕过 CLIP。

这篇论文的关键想法

作者像装修队进老房子前先勘察,发现两件事:

第一,位置编码不能整体一刀切地拉长。好比一排有 77 个座位的小礼堂,你想扩成 248 个座位,最偷懒的办法是把每个座位都按比例拉宽。但前排那 20 个老座位是骨干常客(CLIP 最依赖的检索信号都集中在前面 20 个 token),动它们就跟拆承重墙一样,整栋楼都跟着晃。

第二,光给模型看长文本还不够,得教它分清主次。CLIP 当年是用很短的图文对(5-15 个词)训出来的,"金毛在草地上"这种短句看得很熟。现在你突然丢给它一段 200 字的细节描写,它分不清哪些词是主干(金毛、草地)、哪些只是修饰(毛色、光线、姿态)。

所以方案是两步走,对应两个英文缩写:KPS(Knowledge-Preserved Stretching,保留知识的拉伸) 只把后排座位拉宽、前排骨干一动不动;PCM(Primary Component Matching,主成分匹配) 显式告诉模型"长描述里抽掉修饰剩下的主干,应该跟图里最显眼的部分对上号"。

Long-CLIP — 方法示意:核心 pipeline
Plate Nº IILong-CLIP — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一步:KPS 位置编码插值——像装修队保留承重墙、只改外延。CLIP 原本只有 77 个"座位"(每个位置一个可学习的位置向量,learnable absolute positional embedding)。如果整体拉成 248 个座位(32 倍粗暴插值),前几个座位的向量会被稀释成糊状。作者的做法是:前 20 个座位原封不动,后面 57 个座位按 4 倍插值拉开,凑出 20 + 57×4 = 248 的长度。背后的洞察是:CLIP 文本编码最后用 EOS token 当"全段总结"(类似 BERT 的 CLS token),前面那段位置信息训练得最扎实,最碰不得。

等等,先慢一拍 — "插值"是什么?想象你只有 20、30、40 三个数据点,现在要补出 25 和 35,最简单的办法就是"取相邻两个的平均"。位置编码插值就是把已经训出来的 77 个位置向量,按比例算出中间没见过的位置该长什么样。

第二步:准备长描述训练数据——像让一个只看过短图说的小孩开始读绘本。原 CLIP 的训练对子大多是"金毛在草地上"这种短句(5-15 token)。论文用了 ShareGPT4V(约百万级、用 GPT-4V 自动生成的长描述,单条普遍 100-200 token)作为新教材。同时为每张图额外配一句短摘要(primary caption),这条短摘要是下一步 PCM 的关键素材。

第三步:PCM 首要分量匹配——像老师让学生既会写命题作文也会写主旨概括。除了"整段长描述 ↔ 整张图"这条主线对齐之外,作者再加一条副线:"短摘要 ↔ 图像的主成分"。具体做法是把图像 embedding 做 PCA 风格的分解(principal component analysis,主成分分析,找出向量里贡献最大的那几个方向),抽出主分量,强制它和短摘要的 embedding 靠近。这样模型显式学到:"长描述里把修饰词都剥掉,剩下的主干,对应的就是图里最显眼的东西"。

第四步:保持原能力不掉链子。训练时混入原 CLIP 的目标做蒸馏风格的约束(distillation,相当于让新模型一边学新东西一边偷瞄老模型的答案,具体形式需读原文)。这样在 ImageNet 零样本分类、COCO 短文本检索这些老活儿上,能力不会坍塌。

实验在做什么

主要三类评测:

  • 长文本图文检索:比如 ShareGPT4V 的长描述测试集、Urban-1k 等。Long-CLIP 相对原 CLIP 提升幅度很大(具体数字需读原文,印象里是 retrieval recall@1 从个位数提到几十)。
  • 短文本检索 + zero-shot 分类:要证明扩长之后没把原能力搞丢。在 ImageNet zero-shot、COCO/Flickr30k 短文本检索上保持或略好。
  • 下游 plug-in 能力:把 Long-CLIP 当 Stable Diffusion 的文本编码器替换原 CLIP,看能否处理 200-token 长 prompt 生成更细节的图。这个演示性的实验是论文影响力的重要来源。

你应该懂的几个新词 — 4-6 个

  • CLIP:OpenAI 2021 年的图文对比学习模型,文本编码器最大 77 token,被广泛用作其他模型(SD、BLIP、LLaVA 早期)的文本端。
  • 位置编码(positional embedding):Transformer 用来告诉自己"这是第几个 token"的向量。CLIP 用的是 learnable absolute(每个位置一个独立向量,训练出来),不像 RoPE 那样可外推。
  • KPS(Knowledge-Preserved Stretching):本文术语。只对后段位置编码做插值,保留前段不动。
  • PCM(Primary Component Matching):本文术语。让图像主分量和短摘要对齐,长描述和完整图像对齐,形成双层语义粒度。
  • EOS token:CLIP 文本编码器最后一个特殊 token,它的 hidden state 被用作整段文本的 representation(类似 BERT 的 CLS)。
  • ShareGPT4V:一个用 GPT-4V 给 LAION/SAM 等图像生成长描述的数据集,是长描述训练的常用素材。

它和其他论文什么关系

  • 承上:CLIP(Radford 2021)是直接的修改对象。
  • 同时代竞品:DCI、CLIP-PAE、LongCLIP-style 各家都在尝试给 CLIP 加长,但 Long-CLIP 是被引用最多的方案之一,因为方法简单、可即插即用。
  • 下游受益者:Stable Diffusion 系列、PixArt、各类多模态 RAG 系统都会受益。SD3 已经选择 T5-XXL 作为长文本端,但 Long-CLIP 给"不想换大模型只想小修小补"的人留了一条路。
  • 与 LLM 上下文外推的关系:思想上类似(不重训只调位置编码),但 CLIP 用的是绝对 learnable 位置编码,技术细节差别较大。

我建议这样读 — 3-4 步

  1. 先看 Figure 1(CLIP 的 77 token 限制示意 + Long-CLIP 输出对比),建立"为什么要扩"的直觉。
  2. 跳到 Method 章节读 KPS 部分,重点理解"为什么前 20 个位置不动"——这是全文最不平凡的设计选择。
  3. 看 PCM 那段的图(应该有一个双分支架构图),搞清"长描述 ↔ 整图"和"短摘要 ↔ 主分量"两条线分别在做什么。
  4. 实验部分挑 SD 替换 CLIP 文本端那个生成例子看看,体感最直观。

为什么值得读

它是一个非常典型的"小手术、大杠杆"的论文:用两个目标明确的改动解决一个被广泛感知到的痛点(CLIP 文本端太短),不需要从头训练,社区可以直接 drop-in 替换。对你做 embodied AI / VLM 基础研究来说,价值有三:

  • 基础设施意识:理解 CLIP 这个底层组件的局限和如何打补丁,会帮你以后看到任何 "用 CLIP 做 X" 的工作时都能问"它的 77 token 限制怎么办"。
  • 方法论参考:KPS 这种"分段插值,保留训练得最充分的部分"的思想,可以迁移到其他需要外推的位置编码场景。
  • 生态视角:长描述、长 prompt 已经是事实标准,谁能把基础组件适配上谁就在生态里占位。Long-CLIP 是这个适配浪潮的代表作之一。

读完它,你就建立了"CLIP 系基础组件可以怎么微创新"的视角,再看 SigLIP、EVA-CLIP、MetaCLIP 这些工作时会更有比较的锚点。

引用本笔记 / Cite this note
BibTeX
@online{eai_long_clip_2026,
  title       = {(readable note) Long-CLIP: Unlocking the Long-Text Capability of CLIP},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/long-clip/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim