D³-RSMDE:40× 加速的遥感单目深度估计(AAAI)
1067 字
5 分钟
D³-RSMDE:40× 加速的遥感单目深度估计(AAAI)
相关资源
项目背景
遥感单目深度估计长期存在一个矛盾:
- ViT 路线推理快,但细节容易糊
- Diffusion 路线细节好,但推理慢、成本高
我参与的一作工作 D³-RSMDE,目标是在遥感场景里同时实现:
- 细节质量接近扩散模型
- 推理速度接近轻量 ViT 模型
我负责的工作
- 参与整体方法设计:粗结构先验 + 轻量扩散细化
- 推进 PLBR(Progressive Linear Blending Refinement)细化策略实验
- 跑通多数据集对比、消融与可视化分析
- 整理论文与开源展示材料
关键动机
我们观察到扩散模型在前半程大量时间都花在“先搭粗结构”,这其实可以由更快的 ViT 模块替代,再把扩散用于后半程的细节修复。
方法核心
Step 1:ViT 先回归粗结构
先用 ViT 类模块快速回归一个结构可靠的粗深度图,避免扩散模型从纯噪声“慢慢找结构”。
Step 2:在潜空间做少步细化
在粗深度先验基础上,用轻量 U-Net 在潜空间做少步迭代细化,重点恢复高频细节。
Step 3:PLBR 稳定引导
PLBR 让模型在每步细化时同时参考“粗结构”与“当前结果”,兼顾全局稳定和局部细节增强。
结果与价值
- 相比 Marigold 获得 40× 级推理加速
- LPIPS 指标相对领先模型下降 11.85%
- 证明了“结构先验 + 轻量细化”在遥感场景中的实用性
在可视化对比中,可以明显看到方法在纹理细节和结构稳定性上的优势。

效率方面,推理速度和显存占用也更适合真实部署,整体显存占用和推理速度与轻量级ViT相当,但细节质量却接近扩散模型。

实验结果(对比 + 消融)
本节展示了两类关键实验,分别回答“总体性能是否提升”和“每个模块是否真的有贡献”两个问题。
1)单目深度估计实验对比结果
该表格展示了在多个数据集和指标上的整体对比结果。可以看到 D³-RSMDE 可以很好的保证细节质量,验证了“ViT 粗结构 + 扩散细化”这一路线在精度与效率之间更均衡。
2)消融实验
消融实验用于验证各组件(如粗结构先验、少步细化、是否添加VAE)的独立贡献。结果表明,完整方案优于去除任意关键模块的版本,说明性能提升来自系统性设计而非单点技巧。并且是否使用VAE对精度并没有太多的影响,说明使用VAE并不会导致性能下降,但能带来更好的效率和更低的显存占用。
项目收获
- 对“算法效果 vs 工程效率” trade-off 有了系统性理解
- 能独立完成从实验设计到结论表达的闭环
- 能把复杂 pipeline 抽象成可维护模块
文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!
D³-RSMDE:40× 加速的遥感单目深度估计(AAAI)
https://example.com/posts/interview/02-d3-rsmde-aaai/ 最后更新于 2025-12-09,距今已过 110 天
部分内容可能已过时
相关文章 智能推荐
1
REALM-DiT:可控多模态遥感生成(ICML 在投)
实习经历 围绕遥感场景中 RGB、DEM、Land-cover 难以统一生成与对齐的问题,介绍我在滨江研究院科研实习中的核心贡献与成果。
2
RS3DBench:大规模遥感深度估计多模态基准(ECCV 在投)
科研项目 面向遥感深度估计中的几何歧义与数据对齐瓶颈,介绍我参与构建的 RS3DBench 数据集与评测体系。
3
XCellAligner:不可配准病理切片的跨模态细胞对齐(CVPR Findings)
科研项目 面向 H&E 与 mIF 相邻切片不可配准场景,介绍我在无监督跨模态细胞语义对齐中的方法设计与工程落地。
4
Kaggle MAP:学生数学误区识别竞赛方案复盘
顶尖竞赛 复盘我在 Kaggle MAP(Charting Student Math Misunderstandings)竞赛中获得银牌的核心思路与工程实现。
5
Pinnacle 巅峰对决:面向机考训练的万人级刷题平台
工程项目 介绍我在 Pinnacle 刷题平台中的推荐算法研发与工程实现,重点体现从算法到线上业务的完整闭环。
随机文章 随机推荐