RS3DBench:大规模遥感深度估计多模态基准(ECCV 在投)

1484 字
7 分钟
RS3DBench:大规模遥感深度估计多模态基准(ECCV 在投)

相关资源#

为什么做这个基准#

遥感深度估计里,很多公开数据要么没有高质量深度,要么 RGB 与 DEM 对齐不够严格。模型在复杂地形中容易出现“纹理合理但几何错误”的结构幻觉。

为了解决这个瓶颈,我们构建了 RS3DBench,强调三件事:

  • 多区域、多分辨率覆盖
  • 严格像素对齐的 RGB-DEM 样本
  • 可用于语义引导的地理文本描述

我在项目中的主要职责#

  • 参与数据构建流程与质量标准制定
  • 参与对齐检查、异常样本过滤与可视化核查
  • 参与 benchmark 评测流程搭建与实验复现
  • 参与文本描述生成、复核与质量回流流程

数据构建流程#

首先是整体 pipeline:从多源数据抓取、坐标对齐、后处理到文本描述生成,形成统一标准的数据生产链路。

我们数据集的 pipeline
我们数据集的 pipeline

数据构建思路(精简)#

  1. 多源数据抓取(遥感图像 + DEM)
  2. 坐标系统一、重投影与像素级对齐
  3. 云雾剔除、线性拉伸与质量筛查
  4. 文本描述生成 + 自动与人工双重审核
  5. 建立统一评测协议与基线模型对比

在图像后处理中,线性拉伸与质量检查对提升训练可用性很关键。

线性拉伸处理效果展示
线性拉伸处理效果展示

文本描述由规则与模型协同生成,再结合审核流程保证语义可靠性。

文本提示生成
文本提示生成
词云图
词云图

为了确保像素级一致性,我们做了专门的可视化对齐校验工具与人工核查。

UI 工具对齐示例
UI 工具对齐示例

项目结果#

  • 形成 54,951 组严格对齐 RGB-DEM 样本并配套文本描述
  • 支撑 9 个先进单目深度估计模型系统评测
  • 在文本引导扩散实验中,相比 Marigold 平均 MAE 改善 12.3%
  • 成果支撑 ECCV 在投论文(一作)

Marigold-RS:文本引导的深度估计创新#

在构建 RS3DBench 的过程中,我提出了 Marigold-RS 方法,这是针对遥感单目深度估计的关键创新。

核心思想#

融合 RS3DBench 中的地理文本描述与扩散模型,利用显式语义先验来引导深度生成,解决纯视觉模型在复杂地形中容易出现的”纹理-几何分离”问题。

技术要点#

  • 文本编码:将地理描述(地形类型、坡度、海拔范围等)编码为语义向量,注入扩散模型的条件输入
  • 多模态融合:结合 RGB 视觉特征与地理文本语义,同步约束纹理与几何的一致性
  • 稳定性增强:相比原始 Marigold,在复杂地形和边缘区域的细节恢复上显著提升

实验成果#

  • 准确性:相比 Marigold 基线获得 12.3% 平均 MAE 改善
  • 鲁棒性:特别在高海拔、陡峭地形等极端场景中表现稳定
  • 通用性:证明了文本语义对视觉歧义解决的核心作用,为后续多模态遥感模型奠定基础

Marigold-RS 的代码已开源,可在 GitHub 获取,配合 RS3DBench 数据集可直接复现实验结果。

实验与数据集对比#

为进一步证明 RS3DBench 与 Marigold-RS 的有效性,下面展示三组实验:

1)9 种 Baseline 与我们的方法对比#

该结果展示了在统一评测协议下,不同单目深度估计方法的横向比较。我们的方案在复杂地形与结构细节场景下表现更稳,说明数据集与方法设计确实带来了可量化收益。

9种baseline和我们的方法对比
9 种 baseline 对比:我们的方法在精度与稳定性上更均衡

2)文本质量与跨区域泛化 + 数据集定位#

下面两张图中:左图说明我们做了文本评分、CLIP 余弦相似度与跨区域实验,证明文本描述质量与数据多样性是可信的;右图说明 RS3DBench 在公开数据集中处于独特位置,是首个同时具备“多区域 + 多分辨率 + 深度图与文本对齐”的大规模遥感基准。

文本评分、CLIP相似度与跨区域实验
文本评分、CLIP相似度与跨区域实验
与其他数据集对比(多区域、多分辨率、深度图+文本对齐)
与其他数据集对比(多区域、多分辨率、深度图+文本对齐)

这两组证据共同说明:RS3DBench 不仅“规模大”,而且在语义质量、空间覆盖和任务可用性上都具备更强支撑能力。

数据集统计分析#

数据集统计分布信息
数据集统计分布信息

以上统计结果展示了数据集在不同分辨率和地形类型上的覆盖情况,验证了我们在数据构建阶段对多样性和代表性的把控。

可视化结果对比#

分层对比展示了不同baseline在不同场景下的单目深度估计效果,并且我们提出的Marigold-RS方法在整体上表现更稳定,尤其在复杂地形和边缘区域的细节恢复上有明显优势。

部分比较示例
部分比较示例

全部比较示例
全部比较示例

文章分享

如果这篇文章对你有帮助,欢迎分享给更多人!

RS3DBench:大规模遥感深度估计多模态基准(ECCV 在投)
https://example.com/posts/interview/03-rs3dbench-eccv/
作者
王睿之
发布于
2025-08-06
许可协议
CC BY-NC-SA 4.0
最后更新于 2025-08-06,距今已过 235 天

部分内容可能已过时

Profile Image of the Author
王睿之
浙大 AI 方向硕士生|CV/多模态学习|AAAI & CVPR Findings 一作 | 校十佳大学生 | 国家奖学金
个人主页导航
欢迎访问我的个人作品站。可优先查看首页置顶的 6 篇项目/实习文章,快速了解科研与工程能力。
分类
标签
站点统计
文章
7
分类
4
标签
30
总字数
11,522
运行时长
0
最后活动
0 天前

目录