VLM Foundation · Plate Nº 134

OBELICS

6 min read · 2181 字 · ⭐⭐⭐ · 短摘要

#language #vision #VLM #dataset

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

HuggingFace 把网上 1.41 亿个"图文穿插"的网页洗干净打包开源，让大家也能像 DeepMind 那样训出会看图读长文的模型。

这是个什么场景 — 日常类比

想象你刷小红书看一篇旅行攻略：作者先写两段"今天去了京都岚山"，配一张竹林照片，下面又写"中午吃了汤豆腐"再配一张餐厅照。你之所以看得懂第二张图是餐厅，是因为它夹在那段文字中间——图和它前后的文字共同讲了一件事。

现在换个角度：如果你想教 AI 也这样"看图读长文"，你得喂它什么样的教材？

图配单句标注：每张图配一句"这是一碗汤豆腐"——干净但脱离上下文，就像把小红书拆成单张图+一句话标签。这是 LAION / COCO 这类 image-caption 数据集
图文交织的真实网页：完整保留小红书那种"段-图-段-图"的混排顺序——这才是人类真正的阅读体验

DeepMind 的 Flamingo 证明：用第二种教材训出来的模型，只要给它看几个例子就能学着照做（叫 in-context learning，下文会细说）。但 Flamingo 用的训练语料 M3W 闭源，外面的人想复现根本拿不到数据。OBELICS 就是把这本"图文混排教材"公开搬出来给所有人用。

之前的人怎么做的 — 3-5 bullet

LAION-5B / COCO / CC3M：图 + 单句 caption，规模够大但缺上下文，模型学不会"看图读长文"
Flamingo (DeepMind, 2022)：用闭源 M3W 数据集（4300 万网页）证明了交错图文训练的威力，但数据和模型都不放出
MMC4 (Multimodal C4)：早一点的开源尝试，但不是从 HTML DOM 树原生抽取，而是把 caption "贴回"到 C4 文本里，图文对齐质量较低
WIT / Wikipedia-based 数据集：质量高但规模小，且领域偏百科
整体困境：开源社区想复现 Flamingo 的"few-shot 多模态"能力，但卡在数据上

这篇论文的关键想法

类比：你抄菜谱时如果把所有图片都剪下来扔一边，再回头看"步骤 3 加葱"的"葱"长什么样就完蛋了。图和它前后的文字必须保持原有的先后顺序，否则信息就丢了。

核心点：交错图文的"结构"本身就是宝贵信号——一段文字、一张图、再一段文字、再一张图，这种顺序里隐含了图和文的指代关系。所以抽取时必须保留 HTML 文档的原生顺序，而不是把图文分开再拼回去。

具体策略：

从 Common Crawl 出发而不是从图床/图库出发——保证语料分布贴近"真实网页"
保留 DOM 顺序：网页 → 简化 DOM 树 → 按出现顺序输出 [文本, 图, 文本, 图, ...] 序列
大规模过滤：色情 / 低质 / 重复 / 文本太短 / 图太小 / 图文比例失衡的全部丢
完全开源：数据集、过滤代码、训练代码、训出来的 IDEFICS 模型权重一起放

它怎么做的（方法）— 3-4 段

第一步：原始抓取。像在二手市场扫货——先把货堆全收回来再说。从 Common Crawl 的 25 个 dump（一个 dump 就是某个月互联网公开网页的完整存档）出发，初始网页数量在百亿级（具体数字需读原文）。先做 URL 去重、英文过滤、HTML 解析，得到带图的网页池。

第二步：DOM 简化与序列化。像装修师傅拆房子——只留承重墙和家具，墙纸吊顶全敲掉。这是 OBELICS 最有特色的环节。

等等，先慢一拍 — DOM 是什么？浏览器拿到 HTML 后会把它解析成一棵树：<body> 是根，<div> <p> <img> 是它下面分叉的枝条。"DOM 顺序"就是这棵树从上到下、从左到右遍历时节点出现的先后。

把 HTML 解析成 DOM 树，只保留对图文阅读真正有意义的节点（段落、图、标题、列表），剔除导航栏、广告、脚本、样式、侧边栏。然后按 DOM 中出现的物理顺序，把保留下来的节点拍平成 [text_block_1, img_1, text_block_2, img_2, ...] 这样的线性序列。这样模型训练时直接吃这个序列，自然学到"图前面的文是介绍，图后面的文是延伸"。

第三步：多级过滤。像机场安检的多道关卡——证件、行李、液体、电子产品分别过一遍。文档级（语言、字符数、句子完整性）、段落级（重复、广告标记）、图像级（分辨率、长宽比、NSFW、logo 检测）、文档-图配对级（图文是否相关、有没有空 alt）。论文里报告了每一级过滤后的剩余比例（具体数字需读原文）。

第四步：去重。像查重软件抓抄作业——同一段话换个网站发，照样能识别。基于 MinHash + LSH 做近似去重，避免同一篇博客被多个站点转载导致训练时重复看。最终得到 1.41 亿文档、3.53 亿图、约 1150 亿 token（量级数字依摘要，精确值需读原文）。然后基于此训练 IDEFICS-9B / 80B，作为 Flamingo 的开源复现。

实验在做什么

数据统计对比：OBELICS vs MMC4 vs LAION 在文档长度、每文档图数、图分辨率、文本质量分上的分布对比
训练 IDEFICS：基于 LLaMA-1 + 视觉 encoder + Flamingo-style 交叉注意力（cross-attention），在 OBELICS 上训练 9B / 80B 两个规模
下游 benchmark：VQA、image captioning、visual dialogue 等多模态任务的 zero-shot / few-shot 评测，对比闭源 Flamingo 同规模版本
消融：用 LAION-only 训 vs 用 OBELICS-only 训 vs 混训，看交错语料对 in-context learning 能力的边际贡献
结论方向：在等量训练 token 下，交错语料显著提升 few-shot 表现；这印证了 Flamingo 论文的论断，并证明可在开源数据上复现（具体提升幅度需读原文）

你应该懂的几个新词 — 4-6 个

interleaved image-text（交错图文）：图和文按真实出现顺序混排成一个序列，区别于"图—单句 caption"对
Common Crawl：一个非营利组织，每月抓一遍互联网公开网页存档供研究用——OBELICS 的原料
DOM (Document Object Model)：浏览器解析 HTML 后的树结构，节点是元素（div / img / p）
MinHash + LSH：一对工具，前者把文档变成短指纹，后者快速找相似指纹——一起做"近似去重"
in-context learning：大模型不更新参数，只在 prompt 里看几个例子就能学会做任务的能力——Flamingo 强调的核心多模态能力
IDEFICS：HuggingFace 基于 OBELICS 训练的开源 Flamingo 复现模型，9B / 80B 两个规模

它和其他论文什么关系

直接对标：DeepMind Flamingo (2022)——OBELICS 是它的开源数据 + 模型复现
承接：MMC4——同样想做开源交错图文，但 OBELICS 在原生 DOM 抽取这点上更干净
对比：LAION-5B——纯 image-caption，规模大但缺交错结构，互补而非替代
后继：Idefics2 (2024) / Idefics3 / 一系列开源 VLM 都把 OBELICS 列为训练语料的核心组件之一
生态影响：和 The Stack（代码）、RedPajama（文本）一起，构成 2023 年"开源大模型基础语料"三件套的多模态那一块

我建议这样读 — 3-4 步

先读 Flamingo 论文 §3 数据部分：理解为什么需要交错图文，"M3W" 长什么样——OBELICS 的所有动机都从这里来
读 OBELICS 论文 §3 数据 pipeline 流程图：重点看 DOM 简化和过滤级联两步，这是技术贡献核心
跳过实验细节，直接看 §5 消融表：看"OBELICS only" vs "LAION only" vs "mix" 在 few-shot benchmark 上的差距，这是结论
附加：去 HuggingFace HuggingFaceM4/OBELICS 数据卡片浏览几个真实样例，比读 100 行描述都直观

为什么值得读

历史地位：是 2023 年开源多模态社区的转折点之一，没有 OBELICS 就没有 IDEFICS、没有后续一系列开源 VLM 的快速迭代
方法朴素但有效：通篇没有什么花哨技术，就是"老老实实从 Common Crawl 清数据"，但执行得彻底——这种"工程为王"的论文对从业者价值很大
对你（具身 / VLM 路线）的意义：理解视觉语言模型的训练语料长什么样、过滤逻辑怎么写，是评估任何 VLM 能力上限的基础——模型能做什么，归根结底取决于它见过什么
可复现性范本：数据 + 代码 + 模型全开源，是开源社区"复现闭源工作"的标杆案例，方法论可迁移到任何"想开源 X" 的项目上

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_obelics_2026,
  title       = {(readable note) OBELICS},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/obelics/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)