导读:研究发现,现有的基于扩散模型的遥感图像超分辨率(SR)方法因从头训练或仅依赖低分辨率输入,容易导致生成先验受损和保真度丢失;通过引入预训练稳定扩散模型、多模态大语言模型(MLLM)的语义先验以及类别先验,能够为遥感图像重建提供丰富的高层语义线索,显著提升重建图像的感知质量与像素级保真度。
高分辨率遥感影像在环境监测、资源调查、土地覆被分类、灾害识别等任务中具有重要价值。然而,受制于传感器性能、成像条件和获取成本,实际应用中常常只能获得分辨率较低、细节模糊的遥感影像。超分辨率重建技术希望从低分辨率图像中恢复更多高分辨率细节,从而为后续遥感解译与智能分析提供更高质量的数据基础。但遥感影像超分辨率并不是简单的图像放大问题。一个核心挑战在于:低分辨率图像丢失了大量高频纹理与语义细节,同一幅低分辨率输入往往对应多种可能的高分辨率结果。传统卷积神经网络、Transformer 和 GAN 方法虽然在一定程度上改善了重建效果,但仍面临不同局限:卷积模型容易产生过平滑结果,Transformer 训练复杂、代价较高,GAN 则常出现训练不稳定和模式崩塌问题。近年来,扩散模型在自然图像超分领域展现出较强生成能力,但在遥感场景中,若仅依赖低分辨率输入,仍然难以恢复复杂地物的真实结构和纹理。

(a)Bicubic (b) DLMSR
图1|遥感影像超分辨率效果示意:双三次插值与 DLMSR 重建结果对比。
围绕现有扩散模型在遥感超分任务中的局限,研究重点关注两个问题:
1.生成先验如何保留?
大多数方法选择从头开始训练(Train from scratch)扩散模型,这不仅需要海量的计算资源和训练数据,还难以捕获合成模型中强大的生成先验,导致重建效果不佳。
2.低分辨率图像的信息如何补足?
如果超分模型只把低分辨率影像作为输入条件,那么其获得的先验过于有限,缺乏高层语义指导的模型在恢复图像边缘、结构和高频纹理时,极易产生伪影或不真实的细节。
针对上述问题,北京大学黄舟团队创新性地提出了一种多级先验引导的扩散模型遥感图像超分辨率方法(DLMSR)。研究不再仅仅局限于对扩散模型网络结构的微调,而是聚焦于“如何提取并高效融合多维度的语义与类别先验”,以此约束并引导扩散模型的去噪过程。

图2|提出的 DLMSR 总体框架。该框架将多种先验信息引入图像超分辨率重建过程,包括由多模态大语言模型(MLLM)生成的内容先验和纹理先验、预训练稳定扩散模型(SD)的生成先验,以及全局类别先验。首先对这些先验进行编码以提取特征,随后通过级联先验融合模块将其自适应地注入去噪过程,从而对稳定扩散模型的潜空间进行调制。
主要发现 1:预训练扩散模型的生成先验显著提升重建质量
研究表明,直接复用在大规模自然图像数据集上预训练的稳定扩散模型(Stable Diffusion)作为骨干网络,并在微调阶段仅调整极少数参数,能够完美保留大模型固有的生成先验。相比于从头训练的基线模型,引入预训练生成先验后,模型的峰值信噪比(PSNR)从 24.12 dB 提升至 26.97 dB,感知指标 FID 显著降低了 5.14,验证了复用大模型先验的强效性。这一结果说明,在遥感超分任务中,模型性能不仅取决于网络结构本身,也高度依赖其是否拥有高质量的生成先验基础。
主要发现 2:多模态大语言模型(MLLM)能为退化图像提供关键的内容与纹理补偿
研究进一步发现,单独依赖低分辨率输入难以恢复复杂场景中的真实细节,而多模态大语言模型生成的内容描述和纹理描述,可以为超分模型提供额外的高层语义线索。例如,内容先验能够描述影像中包含的对象、场景布局与结构关系,纹理先验则有助于补充表面特征、颜色与局部细节。实验表明,同时引入内容先验和纹理先验后,模型性能进一步提升,优于只使用其中单一先验的情形。研究认为,这类语义先验本质上是在为超分任务提供缺失信息的合理提示,从而缓解低分辨率输入带来的不确定性。
主要发现 3:类别先验有助于减少语义偏移和伪细节生成
扩散模型在开放域超分辨率中常因自由度过高而产生错误伪细节(例如将孤岛重建为老鼠)。团队引入了一个联合优化的类别分类器,为去噪过程注入明确的全局类别感知约束。分类器在 AID 数据集上达到了 95.36% 的综合分类准确率,能够赋予 UNet 模型高层语义视角的理解,确保重建地物契合其实际类别的先验特征。
• 遥感图像的超分辨率不应仅在像素和低级视觉特征上做文章,结合多模态语言大模型(MLLM)提供的高层认知线索,是解决视觉逆问题(如图像恢复、去雾、去噪)的重要趋势。
• 在通用的AI图像修复中,生成模型(如GAN或纯扩散模型)为了视觉上的“好看”,经常会凭空编造出不切实际的伪影或错误的纹理(即“幻觉”现象),这在科学严谨的遥感应用中是致命的。本研究启示未来的遥感AI设计,必须将地物固有的物理属性、空间拓扑关系以及地理学规律作为显式约束注入模型,实现从艺术视觉重建向科学保真重建的跨越。
• 以往的修复算法往往在高保真度与高感知度之间不可兼得。本研究这种超分辨率重建,能够直接转化为下游实际应用的效能提升。例如,在城市精细化管理中能更精准地识别违法建筑边界;在精准农业中能清晰分辨作物的生长脊线;在防灾减灾中能提供更清晰的道路受损痕迹,真正让AI修复技术服务于实战。
这项研究表明,遥感影像超分辨率的关键,不只是设计更复杂的网络结构,更在于如何为模型提供足够丰富、足够可靠的先验信息。DLMSR 通过联合利用生成先验、内容先验、纹理先验和类别先验,为扩散模型提供了更完整的重建依据,有效缓解了遥感超分辨率中的不适定问题。从更广的视角看,这项工作也反映出遥感图像处理方法正在从单纯的像素级增强,转向融合视觉生成、语义理解与场景认知的综合框架。未来,随着多模态大模型与生成模型的进一步发展,遥感影像重建有望实现从“放大图像”到“理解场景并重建细节”的重要转变。上述研究成果以 “Multi-level Priors-Guided Diffusion-based Remote Sensing Image Super-Resolution” 为题,发表于期刊 ISPRS Journal of Photogrammetry and Remote Sensing。北京大学-香港理工大学联合培养博士生卢立静为论文第一作者,黄舟教授为论文通讯作者。研究得到了国家重点研发计划项目 (2023YFB3906102) 的支持。
文章信息: Multi-level Priors-Guided Diffusion-based Remote Sensing Image Super-Resolution. ISPRS Journal of Photogrammetry and Remote Sensing, 228 (2025) 756-770.
DOI: https://doi.org/10.1016/j.isprsjprs.2025.07.020.