Dense360 — 全景 ERP 密集理解与 ERP-RoPE

是什么

Dense360（2025）推动 360° 全景（ERP 等距圆柱投影） 上的密集视觉–语言理解：发布 16 万张全景图，含 500 万实体级 caption、100 万指代表述、10 万场景级描述；提出 ERP-RoPE 位置编码适配全景几何；并建 Dense360-Bench 评测全景 caption 与 grounding。

日常类比：普通相机像透过门缝看房间——视野窄，两人隔墙挥手你可能以为都在跟你挥手。全景 ERP 像站在房间中心一次看完 360°，但展平成长方形地图时左右边缘会粘在一起、南北两极被拉长——Dense360 专门解决 MLLM 吃这种「变形世界地图」时的编码与标注问题。

与 vsi-bench-2024 同属空间智能，但 Dense360 用单张全景而非漫游视频，并与 omnidirectional-mllm-2025 的 OSR-Bench 形成全景推理邻域。

为什么重要

不了解 Dense360，全景 / AR-VR 方向容易踩坑：

窄 FOV 多视角融合算力贵：BEVFormer 类要融多图；ERP 单图紧凑但几何特殊
现有 MLLM 在全景上掉分明显：论文显示透视预训练模型直接吃 ERP 会崩
密集标注稀缺：16 万全景 + 百万级 entity caption 是目前最大规模之一
ERP-RoPE 是可复用工程件：处理纬线闭合与纬度信息密度不均

核心要点

ERP 两大几何难题：① 左右边界在球面上相连（经度 0°=360°）；② 两极像素被拉伸，信息密度随纬度变化。普通 2D RoPE 当平面处理会错。
ERP-RoPE：为全景定制的旋转位置编码，让 token 感知球面连续性与纬度缩放。类比：地球仪展开成世界地图时，用特殊网格而不是方格纸坐标。
Dense360 数据集：160K ERP 全景，带可靠性评分的 entity caption、唯一 referring expression、场景级描述；比多视角拼图更完整紧凑。
Dense360-Bench：首个全景 caption + grounding 评测框架；透视 SOTA MLLM 在此仍远低于透视场景。

实践案例

案例 1：ERP 边界连续性（概念）

# 错误：把 ERP 当普通矩形图，左右边缘 token 无连接
pos = standard_rope(x, y)  # x=0 与 x=W 被当成遥远位置

# ERP-RoPE：经度方向环形连接 + 纬度密度校正
pos = erp_rope(lon, lat)   # lon=0 与 lon=360° 相邻
# 训练时 MLLM 更易学「左侧墙与右侧墙是同一面」

案例 2：密集 caption 任务

输入：一张 360° 室内 ERP

输出层级：
- 实体级：「左侧沙发上的红色靠垫」
- 指代表述：「离相机最近的木门」
- 场景级：「开放式厨房与客厅相连，窗外是阳台」

Dense360-Bench 分别评 caption 质量与 grounding box（ERP 坐标系）。

案例 3：与 VSI-Bench / OSR-Bench 分工

Benchmark	输入	考什么
vsi-bench-2024	室内漫游视频	心理地图、距离、路线
Dense360	单张 ERP	密集描述 + 指代落地
omnidirectional-mllm-2025	全景 QA	计数、相对距离/方向

机器人 / VR 产品应按需求选：视频轨迹 vs 静态全景 vs 推理诊断。

踩过的坑

把 ERP 当普通宽图 resize：极端拉伸破坏比例，模型学歪。
忽略左右缝合：指代「画面最左侧与最右侧的同一扇门」时平面编码失败。
只用透视数据微调：论文表明需 ERP 几何先验（ERP-RoPE 或 ERP 增广）。
用 MVBench 报全景能力：短视频透视 clip 完全不能代表 360° 场景。

适用 vs 不适用场景

适用：

AR/VR、全景相机、室内扫描的 MLLM 落地
需要 entity-level 密集 caption / grounding 数据管线
与 omnidirectional-mllm-2025 对照「描述」vs「空间 QA」

不适用：

纯窄 FOV 监控（ERP 无优势）
不处理几何的纯文本任务
算力极紧且无法承担全景高分辨率输入

历史小故事（可跳过）

2024：vsi-bench-2024 把视频空间智能推上日程。
2025-05：Dense360 arXiv 2506.14471（数据集 + ERP-RoPE + Bench）。
2025：omnidirectional-mllm-2025 OSR-Bench 并行评测全景空间推理。

学到什么

全景 ≠ 宽屏照片；ERP 有球面拓扑，编码必须定制。
密集理解需要 entity + 场景双层标注，不能只写一句 caption。
单张 ERP 可替代多视角融合，降低部署复杂度。
透视 SOTA 不能零样本迁移，要 ERP-RoPE 或全景预训练。
与 OSR-Bench 互补：一个偏描述落地，一个偏空间问答诊断。
entity + referring + scene 三层标注适合 RAG 与机器人指代链路透传。

全景相机厂商若已有 ERP 素材，先用 Dense360-Bench 测 caption/grounding，再用 omnidirectional-mllm-2025 测空间 QA，两步缺一不可。

Dense360VLM 在论文中展示 ERP-RoPE 相对透视 RoPE 的增益；复现 ablation 时应固定全景分辨率与 entity 标注协议。Insta360 等厂商合作数据说明真实部署场景对密集标注的需求。

武汉大学与 Insta360 合作表明全景硬件与学术标注可闭环；工业落地应同时评估 ERP-RoPE 训练成本与标注人力。复现 Dense360-Bench 时请锁定 ERP 宽高比与 entity 框坐标系。

论文对比透视 MLLM 与 Dense360VLM 时固定相同文本提示模板，避免提示工程掩盖几何差距。

关联

omnidirectional-mllm-2025 —— 全景空间推理 OSR-Bench
vsi-bench-2024 —— 视频空间智能 benchmark
qwen2-vl-2024 —— 通用 MLLM 透视基线
internvideo2-5-2025 —— 视频–语言底座
videollama2-2024 —— 开源多模态参考
decord —— 视频/帧解码工程
lmms-eval —— 评测入口

维护提示：

ERP 输入勿当普通宽图；左右经度缝合与两极拉伸必须在模型侧处理（ERP-RoPE）。

与 omnidirectional-mllm-2025 OSR-Bench 分工：描述/grounding vs 空间 QA。

与 vsi-bench-2024 对照：全景单图 vs 漫游视频心理地图。

160K 全景 + 5M entity caption 规模大，复现注明分辨率与 ERP 坐标约定。

候选见 research/papers-video-understanding.md；专题 /stations/video-understanding/。

透视 SOTA（qwen2-vl-2024 等）在 Dense360-Bench 掉分是预期现象。

解码与批处理工程对照 decord、internvideo 项目笔记。

关联 [[slug]]；勿手工改 data/written.txt 计数。

AR/VR 落地应同时跑 Dense360-Bench 与 OSR-Bench 回归。

pinned 依赖以论文仓库 README 为准；报分写清 ERP-RoPE 是否启用。

反向链接

decord —— Decord — Video-LLM 数据管线的高效视频解码库
internvideo —— InternVideo — 上海 AI Lab 视频基础模型套件
internvideo2-5-2025 —— InternVideo2.5 — 长富上下文 + HiCo 层次压缩
lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
omnidirectional-mllm-2025 —— 全景空间推理 — MLLM 准备好面对 360° 了吗
qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE，工业级视频理解的里程碑
videollama2-2024 —— VideoLLaMA 2 — 时空卷积连接器 + 音视频联合理解
vsi-bench-2024 —— VSI-Bench — 用室内漫游视频考视频大模型的空间智商