RS3DBench:大规模遥感深度估计多模态基准(ECCV 在投)
相关资源
为什么做这个基准
遥感深度估计里,很多公开数据要么没有高质量深度,要么 RGB 与 DEM 对齐不够严格。模型在复杂地形中容易出现“纹理合理但几何错误”的结构幻觉。
为了解决这个瓶颈,我们构建了 RS3DBench,强调三件事:
- 多区域、多分辨率覆盖
- 严格像素对齐的 RGB-DEM 样本
- 可用于语义引导的地理文本描述
我在项目中的主要职责
- 参与数据构建流程与质量标准制定
- 参与对齐检查、异常样本过滤与可视化核查
- 参与 benchmark 评测流程搭建与实验复现
- 参与文本描述生成、复核与质量回流流程
数据构建流程
首先是整体 pipeline:从多源数据抓取、坐标对齐、后处理到文本描述生成,形成统一标准的数据生产链路。

数据构建思路(精简)
- 多源数据抓取(遥感图像 + DEM)
- 坐标系统一、重投影与像素级对齐
- 云雾剔除、线性拉伸与质量筛查
- 文本描述生成 + 自动与人工双重审核
- 建立统一评测协议与基线模型对比
在图像后处理中,线性拉伸与质量检查对提升训练可用性很关键。
文本描述由规则与模型协同生成,再结合审核流程保证语义可靠性。


为了确保像素级一致性,我们做了专门的可视化对齐校验工具与人工核查。

项目结果
- 形成 54,951 组严格对齐 RGB-DEM 样本并配套文本描述
- 支撑 9 个先进单目深度估计模型系统评测
- 在文本引导扩散实验中,相比 Marigold 平均 MAE 改善 12.3%
- 成果支撑 ECCV 在投论文(一作)
Marigold-RS:文本引导的深度估计创新
在构建 RS3DBench 的过程中,我提出了 Marigold-RS 方法,这是针对遥感单目深度估计的关键创新。
核心思想
融合 RS3DBench 中的地理文本描述与扩散模型,利用显式语义先验来引导深度生成,解决纯视觉模型在复杂地形中容易出现的”纹理-几何分离”问题。
技术要点
- 文本编码:将地理描述(地形类型、坡度、海拔范围等)编码为语义向量,注入扩散模型的条件输入
- 多模态融合:结合 RGB 视觉特征与地理文本语义,同步约束纹理与几何的一致性
- 稳定性增强:相比原始 Marigold,在复杂地形和边缘区域的细节恢复上显著提升
实验成果
- 准确性:相比 Marigold 基线获得 12.3% 平均 MAE 改善
- 鲁棒性:特别在高海拔、陡峭地形等极端场景中表现稳定
- 通用性:证明了文本语义对视觉歧义解决的核心作用,为后续多模态遥感模型奠定基础
Marigold-RS 的代码已开源,可在 GitHub 获取,配合 RS3DBench 数据集可直接复现实验结果。
实验与数据集对比
为进一步证明 RS3DBench 与 Marigold-RS 的有效性,下面展示三组实验:
1)9 种 Baseline 与我们的方法对比
该结果展示了在统一评测协议下,不同单目深度估计方法的横向比较。我们的方案在复杂地形与结构细节场景下表现更稳,说明数据集与方法设计确实带来了可量化收益。
2)文本质量与跨区域泛化 + 数据集定位
下面两张图中:左图说明我们做了文本评分、CLIP 余弦相似度与跨区域实验,证明文本描述质量与数据多样性是可信的;右图说明 RS3DBench 在公开数据集中处于独特位置,是首个同时具备“多区域 + 多分辨率 + 深度图与文本对齐”的大规模遥感基准。


这两组证据共同说明:RS3DBench 不仅“规模大”,而且在语义质量、空间覆盖和任务可用性上都具备更强支撑能力。
数据集统计分析

以上统计结果展示了数据集在不同分辨率和地形类型上的覆盖情况,验证了我们在数据构建阶段对多样性和代表性的把控。
可视化结果对比
分层对比展示了不同baseline在不同场景下的单目深度估计效果,并且我们提出的Marigold-RS方法在整体上表现更稳定,尤其在复杂地形和边缘区域的细节恢复上有明显优势。


文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!
部分内容可能已过时