跳转到内容

Gemini 1.5 — 百万 token 多模态长上下文

是什么

Gemini 1.5 是 Google 2024 年发布的 多模态大模型家族(Pro + 轻量 Flash),核心卖点是 百万级 token 长上下文——可同时吃进多份长文档、数小时视频、长音频,并在「大海捞针」检索任务上接近完美召回。

日常类比:以前的模型像只能读 5 页纸的助理;Gemini 1.5 像能一口气读完一整套档案室、还能在一部 2 小时电影里找到「第 37 分钟那句台词」的助理。

为什么重要

不懂 Gemini 1.5,下面这些事说不清:

  • 为什么 2024 长视频 MLLM(qwen2-vl-2024、LongVA)都拿它当上限参照
  • 为什么「needle-in-haystack」成为长上下文标配测试
  • 为什么 Flash 版证明 长上下文不必等于巨模型——效率与质量可折中
  • 为什么小时级视频原生输入改变产品形态(整片问答 vs 切片 RAG)

核心要点

  1. Mixture-of-Experts + 长上下文架构:在算力可控下扩展有效上下文;Pro 偏质量,Flash 偏吞吐。

  2. 跨模态统一上下文:文本、图像序列、视频帧、音频谱图进入同一 token 预算——不是文本长上下文 + 视频另算。

  3. >99% 召回至 10M token:相对 Claude 200K、GPT-4 Turbo 128K 是量级跃迁;但工程上要看实际 API 限额与成本。

实践案例

案例 1:长文档 needle 检索

输入: 100 份 PDF(合计 ~500K token)+ 一句问话
任务: "在第 42 份文档里,合同违约金比例是多少?"
→ Gemini 1.5 Pro 在公开 needle 测试中 >99% 命中

案例 2:长视频问答

输入: 2 小时讲座视频(原生视频 token,非先 Whisper 转文字)
问: "讲者在第几次提到 backpropagation?"
→ 对比切片 RAG:省去分段 embedding 工程,但 API 成本高

案例 3:Pro vs Flash 选型

Gemini 1.5 Pro → 复杂推理、长文档法务审查
Gemini 1.5 Flash → 高 QPS 摘要、批量标注
(Flash 设计目标:最小质量回退换效率)

needle 测试通过不代表复杂推理正确:模型可能「看见」插入段但归纳错误。长上下文产品应组合:检索命中测试 + 端到端任务成功率。

Flash 适合高 QPS 摘要与数据标注;Pro 适合单用户深度分析。成本模型要看每百万 token 单价 × 视频 token 化后的长度,小时视频账单常超预期。

开源替代路线:qwen2-vl-2024 + 切片 RAG + whisper-2022 音频转写,可拼出可部署的长媒体管线,牺牲部分端到端便利换可控成本。

踩过的坑

  1. marketing token vs 可用 token:宣传百万,实际 API 窗口和计费按档位不同——读定价页。

  2. 长上下文 ≠ 长推理正确:召回到了不代表推理对——还要配 benchmark(见 mme-benchmark-2023)。

  3. 视频成本爆炸:小时视频 token 量巨大,原型爽、账单疼。

  4. 闭源不可复现:学术对比只能信官方数字或 API 黑盒测——开源路线看 qwen2-vl-2024

适用 vs 不适用场景

适用

  • 整库文档问答、合同尽调
  • 长视频/长音频原生理解
  • 需要超大上下文的 Agent 工作流

不适用

  • 预算敏感的批量任务(用 Flash 或切片 RAG)
  • 必须离线/开源部署
  • 短上下文高并发(杀鸡用牛刀)

进阶话题(可跳过)

这一节把前文和工业落地再绑紧一点,方便你读完就能动手选型或读论文。

  1. 上下文窗口阶梯:API 常分 128k/1M 档;计费非线性,设计产品时要分档定价。
  2. 多模态 token 化:视频帧率、音频采样率直接影响 token 数;上传前要压缩策略。
  3. 与 RAG 取舍:百万上下文可减少切片 RAG,但失去细粒度引用;混合架构仍常见。
  4. 开源追赶qwen2-vl-2024 在 20 分钟级视频已有竞争力;闭源优势在极限长度与原生音频。

历史小故事(可跳过)

  • 2024.02:Gemini 1.5 Pro 预览,1M context 震惊社区。
  • 2024 中:Flash 发布,长上下文下沉到轻量模型。
  • 2024 底:needle 测试成行业标准;开源界 LongVA/LongVILA 追赶。
  • 今天:与 GPT-4o、Claude 3.5 构成长上下文第一梯队。

学到什么

  1. 长上下文是产品能力,不只是技术参数
  2. 多模态要共享同一 context 预算才有意义
  3. Pro/Flash 分层是工业常态
  4. 闭源上限 vs 开源可部署要分开选型

延伸阅读

关联

  • qwen2-vl-2024 —— 开源侧长视频理解里程碑

  • mme-benchmark-2023 —— 基础榜;长上下文需另测 needle

  • whisper-2022 —— 音频先 ASR 再 LLM 的替代管线

  • vall-e-2023 —— 语音生成侧参照

  • mllm-benchmark-survey-2024 —— 长视频类 benchmark 在地图中的位置

  • 入门路径:先读「是什么」+「核心要点」,跑通一个最小案例后再翻「进阶话题」。

  • 复习抓手:把「为什么重要」四条用自己的话复述一遍,能讲给同事即算掌握。

  • 与仓库其他笔记:用文内 wikilink 跳到已写条目,别孤立读单篇。

  • Google AI Studio 可试用 Flash 限额免费档。

  • Kalamang 翻译 demo 展示极限上下文记忆,非日常场景。

  • 与 Claude 200K、GPT-4 Turbo 128K 对照时要看实测非宣传。

  • 长视频 API 要关注帧采样策略文档。

  • 企业合规需查数据留存与训练 opt-out 政策。

读者练习(可跳过)

用 10 分钟做一个小练习,巩固上文:

  1. 用自己的话向朋友解释「这篇解决什么问题」。
  2. 从「实践案例」挑一个命令或代码块在本地或纸上走一遍。
  3. 列出两个你会踩的坑,并写下规避句。
  • 第 4 步:在「关联」里挑一篇未读笔记加入待读清单。

反向链接

(暂无反向链接)