D³-RSMDE:40× 加速的遥感单目深度估计(AAAI)

1067 字
5 分钟
D³-RSMDE:40× 加速的遥感单目深度估计(AAAI)

相关资源#

项目背景#

遥感单目深度估计长期存在一个矛盾:

  • ViT 路线推理快,但细节容易糊
  • Diffusion 路线细节好,但推理慢、成本高

我参与的一作工作 D³-RSMDE,目标是在遥感场景里同时实现:

  • 细节质量接近扩散模型
  • 推理速度接近轻量 ViT 模型

我负责的工作#

  • 参与整体方法设计:粗结构先验 + 轻量扩散细化
  • 推进 PLBR(Progressive Linear Blending Refinement)细化策略实验
  • 跑通多数据集对比、消融与可视化分析
  • 整理论文与开源展示材料

关键动机#

我们观察到扩散模型在前半程大量时间都花在“先搭粗结构”,这其实可以由更快的 ViT 模块替代,再把扩散用于后半程的细节修复。

动机图:用 ViT 跳过繁琐的 diffusion 去噪前大半的步骤,节省40倍时间
动机图:用 ViT 跳过繁琐的 diffusion 去噪前大半的步骤,节省40倍时间

方法核心#

Step 1:ViT 先回归粗结构#

先用 ViT 类模块快速回归一个结构可靠的粗深度图,避免扩散模型从纯噪声“慢慢找结构”。

Step 2:在潜空间做少步细化#

在粗深度先验基础上,用轻量 U-Net 在潜空间做少步迭代细化,重点恢复高频细节。

Step 3:PLBR 稳定引导#

PLBR 让模型在每步细化时同时参考“粗结构”与“当前结果”,兼顾全局稳定和局部细节增强。

结果与价值#

  • 相比 Marigold 获得 40× 级推理加速
  • LPIPS 指标相对领先模型下降 11.85%
  • 证明了“结构先验 + 轻量细化”在遥感场景中的实用性

在可视化对比中,可以明显看到方法在纹理细节和结构稳定性上的优势。

和其他 baseline 做单目深度估计比较
和其他 baseline 做单目深度估计比较

效率方面,推理速度和显存占用也更适合真实部署,整体显存占用和推理速度与轻量级ViT相当,但细节质量却接近扩散模型。

我们的推理速度和占用显存图对比
我们的推理速度和占用显存图对比

实验结果(对比 + 消融)#

本节展示了两类关键实验,分别回答“总体性能是否提升”和“每个模块是否真的有贡献”两个问题。

1)单目深度估计实验对比结果#

该表格展示了在多个数据集和指标上的整体对比结果。可以看到 D³-RSMDE 可以很好的保证细节质量,验证了“ViT 粗结构 + 扩散细化”这一路线在精度与效率之间更均衡。

单目深度估计实验对比结果
单目深度估计实验对比结果:在多指标上兼顾精度与效率

2)消融实验#

消融实验用于验证各组件(如粗结构先验、少步细化、是否添加VAE)的独立贡献。结果表明,完整方案优于去除任意关键模块的版本,说明性能提升来自系统性设计而非单点技巧。并且是否使用VAE对精度并没有太多的影响,说明使用VAE并不会导致性能下降,但能带来更好的效率和更低的显存占用。

消融实验
消融实验:各模块均对最终性能有稳定贡献

项目收获#

  • 对“算法效果 vs 工程效率” trade-off 有了系统性理解
  • 能独立完成从实验设计到结论表达的闭环
  • 能把复杂 pipeline 抽象成可维护模块

文章分享

如果这篇文章对你有帮助,欢迎分享给更多人!

D³-RSMDE:40× 加速的遥感单目深度估计(AAAI)
https://example.com/posts/interview/02-d3-rsmde-aaai/
作者
王睿之
发布于
2025-12-09
许可协议
CC BY-NC-SA 4.0
最后更新于 2025-12-09,距今已过 110 天

部分内容可能已过时

Profile Image of the Author
王睿之
浙大 AI 方向硕士生|CV/多模态学习|AAAI & CVPR Findings 一作 | 校十佳大学生 | 国家奖学金
个人主页导航
欢迎访问我的个人作品站。可优先查看首页置顶的 6 篇项目/实习文章,快速了解科研与工程能力。
分类
标签
站点统计
文章
7
分类
4
标签
30
总字数
11,522
运行时长
0
最后活动
0 天前

目录