REALM-DiT：可控多模态遥感生成（ICML 在投） - 王睿之

项目背景与目标#

在杭州滨江区块链与数据安全研究院科研实习期间，我负责并推进了 2.5D 遥感沙盘多模态生成相关工作。项目目标是突破传统遥感生成“只会生成 RGB、缺少几何语义一致性”的瓶颈，实现同一框架下的可控多模态联合生成。

具体希望同时生成并严格对齐：

这项工作核心不只是“看起来像”，而是“纹理-几何-语义一致且可控”。

现在的遥感生成方法大多只关注 RGB 视觉质量，生成的图像虽然好看，但地形逻辑往往不对，无法用于后续分析和仿真，不能做到可控。
多模态训练中，RGB、DEM、Land-cover 之间的无法对齐和噪声问题严重，导致生成的 DEM 和 Land-cover 与 RGB 不一致，缺乏物理和语义上的统一。

为了让生成的多种模态对齐，我们必须训练一个5通道VAE，让它从同一个潜空间变量中解码出RGB、DEM、Land-cover三种模态。这样才能保证它们在结构和语义上保持一致。
但是如果直接随机初始化训练得到 5通道VAE，虽然重建质量不错，但交给DiT模型生成时会出噪声。
我们尝试了多种方法例如只输入RGB，解码出DEM和Land-cover，虽然能生成，但由于只输入了RGB，因此导致DEM和Land-cover质量不稳定；又比如使用谷歌的Orchid vae的distill loss，但是它在DiT上失效了。

因此我们设计了 GSM-VAE，通过冻结原始权重的Encoder+仅训练新加的通道的Encoder+原始的Decoder全部启用训练。这样的方式既让模型拥有了DEM和Land-cover的信息输入，又保持了潜空间分布一致性，最终在DiT上生成的RGB、DEM、Land-cover三者都具有较好的质量和一致性。

先从整体流程看，这个框架分为数据与提示词构建、统一潜空间建模、区域可控生成三部分。

将样本组织为像素对齐四元组（RGB / DEM / Land-cover / Landform），并构建分层文本提示词（全局、区域、地形级别细粒度）用于可控训练。

通过统一编码器将异构模态投影到拓扑一致的潜空间，减少多模态训练中的结构错位与噪声扩散，增强 DEM 与语义布局的一致性。

通过 attention log-bias 方式注入区域约束，实现“局部可控 + 全局语义一致”的统一生成，不依赖对主干网络的大规模改造。

为了更直观说明方法有效性，这里展示两组核心表格实验：

这组结果主要验证 统一潜空间（GSM-VAE） 是否真的提升了跨模态重建质量。可以看到在 RGB、DEM、Land-cover 的联合重建上，结构一致性与细节保真都更稳定，说明“先对齐潜空间再做生成”是有效的。

这组结果主要验证 区域可控机制（REALM） 的效果。和基线相比，加入区域约束后，局部控制能力与全局语义一致性同时提升，说明模型不仅能“生成出来”，还能“按指定区域稳定生成”。

为了保证“不同模态之间同位对齐”，我们重点检查了 RGB、DEM、Land-cover 三者的一致性。

最后是和 baseline 的可控生成对比，能看到在区域控制和整体语义一致性上都有提升。