RS3DBench：大规模遥感深度估计多模态基准（ECCV 在投） - 王睿之 | AI 研究与工程实践

王睿之

找不到相关结果。

主题色相

250

壁纸模式

横幅设置

文章布局

王睿之

浙大 AI 方向硕士生｜CV/多模态学习｜AAAI & CVPR Findings 一作 | 校十佳大学生 | 国家奖学金

欢迎访问我的个人作品站。可优先查看首页置顶的 6 篇项目/实习文章，快速了解科研与工程能力。

查看关于我

科研项目 3 实习经历 2 顶尖竞赛 1 工程项目 1

1484 字

7 分钟

RS3DBench：大规模遥感深度估计多模态基准（ECCV 在投）

2025-08-06

数据集

/

Benchmark

/

遥感

/

多模态

/

ECCV

相关资源#

📄 项目主页 💻 我们的Pipeline 🤗 数据集

为什么做这个基准#

遥感深度估计里，很多公开数据要么没有高质量深度，要么 RGB 与 DEM 对齐不够严格。模型在复杂地形中容易出现“纹理合理但几何错误”的结构幻觉。

为了解决这个瓶颈，我们构建了 RS3DBench，强调三件事：

多区域、多分辨率覆盖
严格像素对齐的 RGB-DEM 样本
可用于语义引导的地理文本描述

我在项目中的主要职责#

参与数据构建流程与质量标准制定
参与对齐检查、异常样本过滤与可视化核查
参与 benchmark 评测流程搭建与实验复现
参与文本描述生成、复核与质量回流流程

数据构建流程#

首先是整体 pipeline：从多源数据抓取、坐标对齐、后处理到文本描述生成，形成统一标准的数据生产链路。

我们数据集的 pipeline

数据构建思路（精简）#

多源数据抓取（遥感图像 + DEM）
坐标系统一、重投影与像素级对齐
云雾剔除、线性拉伸与质量筛查
文本描述生成 + 自动与人工双重审核
建立统一评测协议与基线模型对比

在图像后处理中，线性拉伸与质量检查对提升训练可用性很关键。

线性拉伸处理效果展示

文本描述由规则与模型协同生成，再结合审核流程保证语义可靠性。

文本提示生成

词云图

为了确保像素级一致性，我们做了专门的可视化对齐校验工具与人工核查。

UI 工具对齐示例

项目结果#

形成 54,951 组严格对齐 RGB-DEM 样本并配套文本描述
支撑 9 个先进单目深度估计模型系统评测
在文本引导扩散实验中，相比 Marigold 平均 MAE 改善 12.3%
成果支撑 ECCV 在投论文（一作）

Marigold-RS：文本引导的深度估计创新#

在构建 RS3DBench 的过程中，我提出了 Marigold-RS 方法，这是针对遥感单目深度估计的关键创新。

核心思想#

融合 RS3DBench 中的地理文本描述与扩散模型，利用显式语义先验来引导深度生成，解决纯视觉模型在复杂地形中容易出现的”纹理-几何分离”问题。

技术要点#

文本编码：将地理描述（地形类型、坡度、海拔范围等）编码为语义向量，注入扩散模型的条件输入
多模态融合：结合 RGB 视觉特征与地理文本语义，同步约束纹理与几何的一致性
稳定性增强：相比原始 Marigold，在复杂地形和边缘区域的细节恢复上显著提升

实验成果#

准确性：相比 Marigold 基线获得 12.3% 平均 MAE 改善
鲁棒性：特别在高海拔、陡峭地形等极端场景中表现稳定
通用性：证明了文本语义对视觉歧义解决的核心作用，为后续多模态遥感模型奠定基础

Marigold-RS 的代码已开源，可在 GitHub 获取，配合 RS3DBench 数据集可直接复现实验结果。

实验与数据集对比#

为进一步证明 RS3DBench 与 Marigold-RS 的有效性，下面展示三组实验：

1）9 种 Baseline 与我们的方法对比#

该结果展示了在统一评测协议下，不同单目深度估计方法的横向比较。我们的方案在复杂地形与结构细节场景下表现更稳，说明数据集与方法设计确实带来了可量化收益。

9种baseline和我们的方法对比 — 9 种 baseline 对比：我们的方法在精度与稳定性上更均衡

2）文本质量与跨区域泛化 + 数据集定位#

下面两张图中：左图说明我们做了文本评分、CLIP 余弦相似度与跨区域实验，证明文本描述质量与数据多样性是可信的；右图说明 RS3DBench 在公开数据集中处于独特位置，是首个同时具备“多区域 + 多分辨率 + 深度图与文本对齐”的大规模遥感基准。

文本评分、CLIP相似度与跨区域实验

与其他数据集对比（多区域、多分辨率、深度图+文本对齐）

这两组证据共同说明：RS3DBench 不仅“规模大”，而且在语义质量、空间覆盖和任务可用性上都具备更强支撑能力。

数据集统计分析#

数据集统计分布信息

以上统计结果展示了数据集在不同分辨率和地形类型上的覆盖情况，验证了我们在数据构建阶段对多样性和代表性的把控。

可视化结果对比#

分层对比展示了不同baseline在不同场景下的单目深度估计效果，并且我们提出的Marigold-RS方法在整体上表现更稳定，尤其在复杂地形和边缘区域的细节恢复上有明显优势。

部分比较示例

全部比较示例

文章分享

如果这篇文章对你有帮助，欢迎分享给更多人！

RS3DBench：大规模遥感深度估计多模态基准（ECCV 在投）

https://example.com/posts/interview/03-rs3dbench-eccv/

作者

王睿之

发布于

2025-08-06

许可协议

CC BY-NC-SA 4.0

最后更新于 2025-08-06，距今已过 235 天

部分内容可能已过时

Kaggle MAP：学生数学误区识别竞赛方案复盘

Pinnacle 巅峰对决：面向机考训练的万人级刷题平台

相关文章智能推荐

REALM-DiT：可控多模态遥感生成（ICML 在投）

实习经历围绕遥感场景中 RGB、DEM、Land-cover 难以统一生成与对齐的问题，介绍我在滨江研究院科研实习中的核心贡献与成果。

D³-RSMDE：40× 加速的遥感单目深度估计（AAAI）

科研项目在遥感单目深度估计中实现“高保真 + 高效率”，介绍我参与设计的 D³-RSMDE 方法与关键实验结论。

XCellAligner：不可配准病理切片的跨模态细胞对齐（CVPR Findings）

科研项目面向 H&E 与 mIF 相邻切片不可配准场景，介绍我在无监督跨模态细胞语义对齐中的方法设计与工程落地。

Kaggle MAP：学生数学误区识别竞赛方案复盘

顶尖竞赛复盘我在 Kaggle MAP（Charting Student Math Misunderstandings）竞赛中获得银牌的核心思路与工程实现。

Pinnacle 巅峰对决：面向机考训练的万人级刷题平台

工程项目介绍我在 Pinnacle 刷题平台中的推荐算法研发与工程实现，重点体现从算法到线上业务的完整闭环。

随机文章随机推荐

王睿之

浙大 AI 方向硕士生｜CV/多模态学习｜AAAI & CVPR Findings 一作 | 校十佳大学生 | 国家奖学金

欢迎访问我的个人作品站。可优先查看首页置顶的 6 篇项目/实习文章，快速了解科研与工程能力。

查看关于我

文章

7

分类

4

标签

30

总字数

11,522

运行时长

0 天

最后活动

0 天前

目录