D³-RSMDE：40× 加速的遥感单目深度估计（AAAI） - 王睿之 | AI 研究与工程实践

王睿之

找不到相关结果。

主题色相

250

壁纸模式

横幅设置

文章布局

王睿之

浙大 AI 方向硕士生｜CV/多模态学习｜AAAI & CVPR Findings 一作 | 校十佳大学生 | 国家奖学金

欢迎访问我的个人作品站。可优先查看首页置顶的 6 篇项目/实习文章，快速了解科研与工程能力。

查看关于我

科研项目 3 实习经历 2 顶尖竞赛 1 工程项目 1

1067 字

5 分钟

D³-RSMDE：40× 加速的遥感单目深度估计（AAAI）

2025-12-09

遥感

/

深度估计

/

Diffusion

/

ViT

/

AAAI

相关资源#

📄 项目主页 💻 代码仓库

项目背景#

遥感单目深度估计长期存在一个矛盾：

ViT 路线推理快，但细节容易糊
Diffusion 路线细节好，但推理慢、成本高

我参与的一作工作 D³-RSMDE，目标是在遥感场景里同时实现：

细节质量接近扩散模型
推理速度接近轻量 ViT 模型

我负责的工作#

参与整体方法设计：粗结构先验 + 轻量扩散细化
推进 PLBR（Progressive Linear Blending Refinement）细化策略实验
跑通多数据集对比、消融与可视化分析
整理论文与开源展示材料

关键动机#

我们观察到扩散模型在前半程大量时间都花在“先搭粗结构”，这其实可以由更快的 ViT 模块替代，再把扩散用于后半程的细节修复。

动机图：用 ViT 跳过繁琐的 diffusion 去噪前大半的步骤，节省40倍时间

方法核心#

Step 1：ViT 先回归粗结构#

先用 ViT 类模块快速回归一个结构可靠的粗深度图，避免扩散模型从纯噪声“慢慢找结构”。

Step 2：在潜空间做少步细化#

在粗深度先验基础上，用轻量 U-Net 在潜空间做少步迭代细化，重点恢复高频细节。

Step 3：PLBR 稳定引导#

PLBR 让模型在每步细化时同时参考“粗结构”与“当前结果”，兼顾全局稳定和局部细节增强。

结果与价值#

相比 Marigold 获得 40× 级推理加速
LPIPS 指标相对领先模型下降 11.85%
证明了“结构先验 + 轻量细化”在遥感场景中的实用性

在可视化对比中，可以明显看到方法在纹理细节和结构稳定性上的优势。

和其他 baseline 做单目深度估计比较

效率方面，推理速度和显存占用也更适合真实部署，整体显存占用和推理速度与轻量级ViT相当，但细节质量却接近扩散模型。

我们的推理速度和占用显存图对比

实验结果（对比 + 消融）#

本节展示了两类关键实验，分别回答“总体性能是否提升”和“每个模块是否真的有贡献”两个问题。

1）单目深度估计实验对比结果#

该表格展示了在多个数据集和指标上的整体对比结果。可以看到 D³-RSMDE 可以很好的保证细节质量，验证了“ViT 粗结构 + 扩散细化”这一路线在精度与效率之间更均衡。

单目深度估计实验对比结果 — 单目深度估计实验对比结果：在多指标上兼顾精度与效率

2）消融实验#

消融实验用于验证各组件（如粗结构先验、少步细化、是否添加VAE）的独立贡献。结果表明，完整方案优于去除任意关键模块的版本，说明性能提升来自系统性设计而非单点技巧。并且是否使用VAE对精度并没有太多的影响，说明使用VAE并不会导致性能下降，但能带来更好的效率和更低的显存占用。

消融实验 — 消融实验：各模块均对最终性能有稳定贡献

项目收获#

对“算法效果 vs 工程效率” trade-off 有了系统性理解
能独立完成从实验设计到结论表达的闭环
能把复杂 pipeline 抽象成可维护模块

文章分享

如果这篇文章对你有帮助，欢迎分享给更多人！

D³-RSMDE：40× 加速的遥感单目深度估计（AAAI）

https://example.com/posts/interview/02-d3-rsmde-aaai/

作者

王睿之

发布于

2025-12-09

许可协议

CC BY-NC-SA 4.0

最后更新于 2025-12-09，距今已过 110 天

部分内容可能已过时

XCellAligner：不可配准病理切片的跨模态细胞对齐（CVPR Findings）

Kaggle MAP：学生数学误区识别竞赛方案复盘

相关文章智能推荐

REALM-DiT：可控多模态遥感生成（ICML 在投）

实习经历围绕遥感场景中 RGB、DEM、Land-cover 难以统一生成与对齐的问题，介绍我在滨江研究院科研实习中的核心贡献与成果。

RS3DBench：大规模遥感深度估计多模态基准（ECCV 在投）

科研项目面向遥感深度估计中的几何歧义与数据对齐瓶颈，介绍我参与构建的 RS3DBench 数据集与评测体系。

XCellAligner：不可配准病理切片的跨模态细胞对齐（CVPR Findings）

科研项目面向 H&E 与 mIF 相邻切片不可配准场景，介绍我在无监督跨模态细胞语义对齐中的方法设计与工程落地。

Kaggle MAP：学生数学误区识别竞赛方案复盘

顶尖竞赛复盘我在 Kaggle MAP（Charting Student Math Misunderstandings）竞赛中获得银牌的核心思路与工程实现。

Pinnacle 巅峰对决：面向机考训练的万人级刷题平台

工程项目介绍我在 Pinnacle 刷题平台中的推荐算法研发与工程实现，重点体现从算法到线上业务的完整闭环。

随机文章随机推荐

王睿之

浙大 AI 方向硕士生｜CV/多模态学习｜AAAI & CVPR Findings 一作 | 校十佳大学生 | 国家奖学金

欢迎访问我的个人作品站。可优先查看首页置顶的 6 篇项目/实习文章，快速了解科研与工程能力。

查看关于我

文章

7

分类

4

标签

30

总字数

11,522

运行时长

0 天

最后活动

0 天前

目录