Dense360 — 全景 ERP 密集理解与 ERP-RoPE
是什么
Dense360(2025)推动 360° 全景(ERP 等距圆柱投影) 上的密集视觉–语言理解:发布 16 万张全景图,含 500 万实体级 caption、100 万指代表述、10 万场景级描述;提出 ERP-RoPE 位置编码适配全景几何;并建 Dense360-Bench 评测全景 caption 与 grounding。
日常类比:普通相机像透过门缝看房间——视野窄,两人隔墙挥手你可能以为都在跟你挥手。全景 ERP 像站在房间中心一次看完 360°,但展平成长方形地图时左右边缘会粘在一起、南北两极被拉长——Dense360 专门解决 MLLM 吃这种「变形世界地图」时的编码与标注问题。
与 vsi-bench-2024 同属空间智能,但 Dense360 用单张全景而非漫游视频,并与 omnidirectional-mllm-2025 的 OSR-Bench 形成全景推理邻域。
为什么重要
不了解 Dense360,全景 / AR-VR 方向容易踩坑:
- 窄 FOV 多视角融合算力贵:BEVFormer 类要融多图;ERP 单图紧凑但几何特殊
- 现有 MLLM 在全景上掉分明显:论文显示透视预训练模型直接吃 ERP 会崩
- 密集标注稀缺:16 万全景 + 百万级 entity caption 是目前最大规模之一
- ERP-RoPE 是可复用工程件:处理纬线闭合与纬度信息密度不均
核心要点
-
ERP 两大几何难题:① 左右边界在球面上相连(经度 0°=360°);② 两极像素被拉伸,信息密度随纬度变化。普通 2D RoPE 当平面处理会错。
-
ERP-RoPE:为全景定制的旋转位置编码,让 token 感知球面连续性与纬度缩放。类比:地球仪展开成世界地图时,用特殊网格而不是方格纸坐标。
-
Dense360 数据集:160K ERP 全景,带可靠性评分的 entity caption、唯一 referring expression、场景级描述;比多视角拼图更完整紧凑。
-
Dense360-Bench:首个全景 caption + grounding 评测框架;透视 SOTA MLLM 在此仍远低于透视场景。
实践案例
案例 1:ERP 边界连续性(概念)
# 错误:把 ERP 当普通矩形图,左右边缘 token 无连接pos = standard_rope(x, y) # x=0 与 x=W 被当成遥远位置
# ERP-RoPE:经度方向环形连接 + 纬度密度校正pos = erp_rope(lon, lat) # lon=0 与 lon=360° 相邻# 训练时 MLLM 更易学「左侧墙与右侧墙是同一面」案例 2:密集 caption 任务
输入:一张 360° 室内 ERP
输出层级:- 实体级:「左侧沙发上的红色靠垫」- 指代表述:「离相机最近的木门」- 场景级:「开放式厨房与客厅相连,窗外是阳台」
Dense360-Bench 分别评 caption 质量与 grounding box(ERP 坐标系)。案例 3:与 VSI-Bench / OSR-Bench 分工
| Benchmark | 输入 | 考什么 |
|---|---|---|
| vsi-bench-2024 | 室内漫游视频 | 心理地图、距离、路线 |
| Dense360 | 单张 ERP | 密集描述 + 指代落地 |
| omnidirectional-mllm-2025 | 全景 QA | 计数、相对距离/方向 |
机器人 / VR 产品应按需求选:视频轨迹 vs 静态全景 vs 推理诊断。
踩过的坑
-
把 ERP 当普通宽图 resize:极端拉伸破坏比例,模型学歪。
-
忽略左右缝合:指代「画面最左侧与最右侧的同一扇门」时平面编码失败。
-
只用透视数据微调:论文表明需 ERP 几何先验(ERP-RoPE 或 ERP 增广)。
-
用 MVBench 报全景能力:短视频透视 clip 完全不能代表 360° 场景。
适用 vs 不适用场景
适用:
- AR/VR、全景相机、室内扫描的 MLLM 落地
- 需要 entity-level 密集 caption / grounding 数据管线
- 与 omnidirectional-mllm-2025 对照「描述」vs「空间 QA」
不适用:
- 纯窄 FOV 监控(ERP 无优势)
- 不处理几何的纯文本任务
- 算力极紧且无法承担全景高分辨率输入
历史小故事(可跳过)
- 2024:vsi-bench-2024 把视频空间智能推上日程。
- 2025-05:Dense360 arXiv 2506.14471(数据集 + ERP-RoPE + Bench)。
- 2025:omnidirectional-mllm-2025 OSR-Bench 并行评测全景空间推理。
学到什么
- 全景 ≠ 宽屏照片;ERP 有球面拓扑,编码必须定制。
- 密集理解需要 entity + 场景双层标注,不能只写一句 caption。
- 单张 ERP 可替代多视角融合,降低部署复杂度。
- 透视 SOTA 不能零样本迁移,要 ERP-RoPE 或全景预训练。
- 与 OSR-Bench 互补:一个偏描述落地,一个偏空间问答诊断。
- entity + referring + scene 三层标注适合 RAG 与机器人指代链路透传。
全景相机厂商若已有 ERP 素材,先用 Dense360-Bench 测 caption/grounding,再用 omnidirectional-mllm-2025 测空间 QA,两步缺一不可。
Dense360VLM 在论文中展示 ERP-RoPE 相对透视 RoPE 的增益;复现 ablation 时应固定全景分辨率与 entity 标注协议。Insta360 等厂商合作数据说明真实部署场景对密集标注的需求。
武汉大学与 Insta360 合作表明全景硬件与学术标注可闭环;工业落地应同时评估 ERP-RoPE 训练成本与标注人力。复现 Dense360-Bench 时请锁定 ERP 宽高比与 entity 框坐标系。
论文对比透视 MLLM 与 Dense360VLM 时固定相同文本提示模板,避免提示工程掩盖几何差距。
延伸阅读
- 论文 PDF:arXiv:2506.14471
- 空间视频:vsi-bench-2024
- 全景推理:omnidirectional-mllm-2025
- 底座:qwen2-vl-2024、internvideo2-5-2025
- 工程:decord、lmms-eval
关联
- omnidirectional-mllm-2025 —— 全景空间推理 OSR-Bench
- vsi-bench-2024 —— 视频空间智能 benchmark
- qwen2-vl-2024 —— 通用 MLLM 透视基线
- internvideo2-5-2025 —— 视频–语言底座
- videollama2-2024 —— 开源多模态参考
- decord —— 视频/帧解码工程
- lmms-eval —— 评测入口
维护提示:
- ERP 输入勿当普通宽图;左右经度缝合与两极拉伸必须在模型侧处理(ERP-RoPE)。
- 与 omnidirectional-mllm-2025 OSR-Bench 分工:描述/grounding vs 空间 QA。
- 与 vsi-bench-2024 对照:全景单图 vs 漫游视频心理地图。
- 160K 全景 + 5M entity caption 规模大,复现注明分辨率与 ERP 坐标约定。
- 候选见
research/papers-video-understanding.md;专题/stations/video-understanding/。- 透视 SOTA(qwen2-vl-2024 等)在 Dense360-Bench 掉分是预期现象。
- 解码与批处理工程对照 decord、internvideo 项目笔记。
- 关联
[[slug]];勿手工改data/written.txt计数。- AR/VR 落地应同时跑 Dense360-Bench 与 OSR-Bench 回归。
- pinned 依赖以论文仓库 README 为准;报分写清 ERP-RoPE 是否启用。
反向链接
- decord —— Decord — Video-LLM 数据管线的高效视频解码库
- internvideo —— InternVideo — 上海 AI Lab 视频基础模型套件
- internvideo2-5-2025 —— InternVideo2.5 — 长富上下文 + HiCo 层次压缩
- lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
- omnidirectional-mllm-2025 —— 全景空间推理 — MLLM 准备好面对 360° 了吗
- qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE,工业级视频理解的里程碑
- videollama2-2024 —— VideoLLaMA 2 — 时空卷积连接器 + 音视频联合理解
- vsi-bench-2024 —— VSI-Bench — 用室内漫游视频考视频大模型的空间智商