Gemini 1.5 — 百万 token 多模态长上下文

是什么

Gemini 1.5 是 Google 2024 年发布的 多模态大模型家族（Pro + 轻量 Flash），核心卖点是 百万级 token 长上下文——可同时吃进多份长文档、数小时视频、长音频，并在「大海捞针」检索任务上接近完美召回。

日常类比：以前的模型像只能读 5 页纸的助理；Gemini 1.5 像能一口气读完一整套档案室、还能在一部 2 小时电影里找到「第 37 分钟那句台词」的助理。

为什么重要

不懂 Gemini 1.5，下面这些事说不清：

为什么 2024 长视频 MLLM（qwen2-vl-2024、LongVA）都拿它当上限参照
为什么「needle-in-haystack」成为长上下文标配测试
为什么 Flash 版证明 长上下文不必等于巨模型——效率与质量可折中
为什么小时级视频原生输入改变产品形态（整片问答 vs 切片 RAG）

核心要点

Mixture-of-Experts + 长上下文架构：在算力可控下扩展有效上下文；Pro 偏质量，Flash 偏吞吐。
跨模态统一上下文：文本、图像序列、视频帧、音频谱图进入同一 token 预算——不是文本长上下文 + 视频另算。
>99% 召回至 10M token：相对 Claude 200K、GPT-4 Turbo 128K 是量级跃迁；但工程上要看实际 API 限额与成本。

实践案例

案例 1：长文档 needle 检索

输入: 100 份 PDF（合计 ~500K token）+ 一句问话
任务: "在第 42 份文档里，合同违约金比例是多少？"
→ Gemini 1.5 Pro 在公开 needle 测试中 >99% 命中

案例 2：长视频问答

输入: 2 小时讲座视频（原生视频 token，非先 Whisper 转文字）
问: "讲者在第几次提到 backpropagation？"
→ 对比切片 RAG：省去分段 embedding 工程，但 API 成本高

案例 3：Pro vs Flash 选型

Gemini 1.5 Pro   → 复杂推理、长文档法务审查
Gemini 1.5 Flash → 高 QPS 摘要、批量标注
（Flash 设计目标：最小质量回退换效率）

needle 测试通过不代表复杂推理正确：模型可能「看见」插入段但归纳错误。长上下文产品应组合：检索命中测试 + 端到端任务成功率。

Flash 适合高 QPS 摘要与数据标注；Pro 适合单用户深度分析。成本模型要看每百万 token 单价 × 视频 token 化后的长度，小时视频账单常超预期。

开源替代路线：qwen2-vl-2024 + 切片 RAG + whisper-2022 音频转写，可拼出可部署的长媒体管线，牺牲部分端到端便利换可控成本。

踩过的坑

marketing token vs 可用 token：宣传百万，实际 API 窗口和计费按档位不同——读定价页。
长上下文 ≠ 长推理正确：召回到了不代表推理对——还要配 benchmark（见 mme-benchmark-2023）。
视频成本爆炸：小时视频 token 量巨大，原型爽、账单疼。
闭源不可复现：学术对比只能信官方数字或 API 黑盒测——开源路线看 qwen2-vl-2024。

适用 vs 不适用场景

适用：

整库文档问答、合同尽调
长视频/长音频原生理解
需要超大上下文的 Agent 工作流

不适用：

预算敏感的批量任务（用 Flash 或切片 RAG）
必须离线/开源部署
短上下文高并发（杀鸡用牛刀）

进阶话题（可跳过）

这一节把前文和工业落地再绑紧一点，方便你读完就能动手选型或读论文。

上下文窗口阶梯：API 常分 128k/1M 档；计费非线性，设计产品时要分档定价。
多模态 token 化：视频帧率、音频采样率直接影响 token 数；上传前要压缩策略。
与 RAG 取舍：百万上下文可减少切片 RAG，但失去细粒度引用；混合架构仍常见。
开源追赶：qwen2-vl-2024 在 20 分钟级视频已有竞争力；闭源优势在极限长度与原生音频。

历史小故事（可跳过）

2024.02：Gemini 1.5 Pro 预览，1M context 震惊社区。
2024 中：Flash 发布，长上下文下沉到轻量模型。
2024 底：needle 测试成行业标准；开源界 LongVA/LongVILA 追赶。
今天：与 GPT-4o、Claude 3.5 构成长上下文第一梯队。

学到什么

长上下文是产品能力，不只是技术参数
多模态要共享同一 context 预算才有意义
Pro/Flash 分层是工业常态
闭源上限 vs 开源可部署要分开选型

关联

qwen2-vl-2024 —— 开源侧长视频理解里程碑
mme-benchmark-2023 —— 基础榜；长上下文需另测 needle
whisper-2022 —— 音频先 ASR 再 LLM 的替代管线
vall-e-2023 —— 语音生成侧参照
mllm-benchmark-survey-2024 —— 长视频类 benchmark 在地图中的位置
入门路径：先读「是什么」+「核心要点」，跑通一个最小案例后再翻「进阶话题」。
复习抓手：把「为什么重要」四条用自己的话复述一遍，能讲给同事即算掌握。
与仓库其他笔记：用文内 wikilink 跳到已写条目，别孤立读单篇。
Google AI Studio 可试用 Flash 限额免费档。
Kalamang 翻译 demo 展示极限上下文记忆，非日常场景。
与 Claude 200K、GPT-4 Turbo 128K 对照时要看实测非宣传。
长视频 API 要关注帧采样策略文档。
企业合规需查数据留存与训练 opt-out 政策。

读者练习（可跳过）

用 10 分钟做一个小练习，巩固上文：

用自己的话向朋友解释「这篇解决什么问题」。
从「实践案例」挑一个命令或代码块在本地或纸上走一遍。
列出两个你会踩的坑，并写下规避句。

第 4 步：在「关联」里挑一篇未读笔记加入待读清单。

反向链接

（暂无反向链接）