新闻动态
<

新闻动态

新闻动态

您所在位置: 首页 > 新闻动态 > 正文

学术成果 | GeoPix——像素级遥感多模态大模型

发布时间:2025-06-11 14:32 来源: 作者:

1

导言


     

近期,北京大学时空大数据与社会感知研究组推出了GeoPix,它是一个面向遥感图像的多模态大模型,首次将遥感图像理解能力从“看图说话”进一步拓展到像素级实例分割,通过自然语言引导实现精细目标提取。通过为多模态大模型引入一个掩码预测器,GeoPix能够根据语言模型的分割指令 token,引导视觉编码器提取的特征生成对应的分割掩码。该模型引领遥感多模态大模型从区域级感知迈向像素级理解,实现更细粒度的图像解析能力。

GeoPix 不止能“看图说话”,更能“看图指物”,让遥感图像的理解细致到每一个像素。

2

研究背景

在遥感多模态大模型领域,已有模型在图像描述(Image Captioning)、视觉问答(VQA)以及目标定位(Visual Grounding)等任务中取得了显著进展。然而,这些任务大多停留在图像级或区域级,缺乏对“像素级互动”的支持——例如,用户希望通过自然语言指定图像中的目标区域并获得对应掩码时,现有模型往往难以胜任。


     

图1 遥感多模态大模型发展历程,截止2025年1月(截取自Awesome-Remote-Sensing-Multimodal-Large-Language-Models)

3

模型概述

GeoPix在通用领域多模态大语言模型(LLaVA-1.5 7B)的基础上,融入了多尺度掩码预测模块(Mask Predictor),能够根据文本指令精准生成对应实例的分割掩码。针对遥感场景,我们设计了一个类级别的可学习记忆模块(Class-wise Learnable Memory, CLM),用于捕捉和存储跨类别的语义信息,增强模型对复杂遥感场景中不同实例的理解能力。


图2 GeoPix模型结构,由多模态大语言模型和掩码预测模块组成。


在遥感图像中,相同类别的目标往往呈现出高度一致的空间形态与几何结构——例如,无论拍摄区域和分辨率如何变化,飞机、汽车或球场等相同类别的实例具有类似的轮廓。对此存在的相同点,我们设计类级别的可学习记忆模块以自适应学习该类级别共享信息。具体而言,该模块能够学习同一类别不同实例间共享的信息,在推理过程中利用其学习到的内容作为辅助记忆,增强模型对具体实例的特征表达能力。换言之,CLM 就像是一个类级的“语义图谱”,在模型处理特定实例时,能够调取对应类的共性语义作为补充,从而实现更准确、稳定的分割效果。

4

数据构建

为了支撑自然语言引导下的像素级实例分割任务,我们构建了GeoPixInstruct。该数据集包含SIOR-T、FAST-T和SOTA-T三个子集,共包含65,000余张遥感图像,涵盖超过14万个实例,为每个实例提供了文本描述、边框标注和掩码标注。我们通过整合DIOR-RSVG中的实例描述与SAMRS的DIOR子集中的实例掩码构建SIOR-T子集。对于FAST-T和SOTA-T子集,我们提出了基于GPT-4o的两阶段的实例描述生成流程,先通过结构化提示生成实例描述,再结合人工修正构建高质量微调集。通过对微调GPT-4o,使其生成准确的实例文本描述。



图3 针对遥感图像实例描述的GPT指令及生成内容例子。


SIOR-T、FAST-T 、SOTA-T三个子集在目标的尺寸相对图像面积的比例(θ)、实例数量(φ)等方面呈现递增的分割难度。其中,SIOR-T难度较低,FAST-T为中等难度,而SOTA-T由于目标小、密集度高,构成最高的分割挑战。



图4 三个子集实例数量与实例相对图像面积的分布图,越左下角分割难度越高。

5

训练方法

由于文本生成与实例分割这两类任务对模型训练的侧重点不同——文本生成依赖语言能力的快速学习,而掩码预测更依赖视觉分支的精细建模与稳定训练,因此我们设计了一种两阶段训练策略,使模型能够在图像描述、视觉问答、目标定位等文本生成任务,以及指引性多实例分割任务中实现全面提升。

具体而言,在第一阶段,我们重点提升模型的文本生成能力,通过对大语言模型设置较高的LoRA Rank(128),增强大语言模型的学习速率,使其能够在较少的训练步数内掌握遥感领域中的语言理解与生成任务,并保持良好的泛化性能。在第二阶段,我们将LoRA Rank降低至 8,以控制大语言模型的参数更新速率,使其保持已有的文本能力,同时将训练重点转向掩码预测模块,从而有效提升分割精度,并降低对语言能力产生干扰。

6

模型性能

GeoPix在除了扩展遥感多模态大模型的能力至支持自然语言引导下进行实例分割任务,还继承了以往遥感多模态大语言模型在图像描述(ImageCaptioning)、视觉问答(VQA)和目标定位(VisualGrounding)任务中的强大能力。

在指引性实例分割任务中,GeoPix在SIOR-T子集上实现了84.25的mIoU,达到当前SOTA水平;在更具挑战性的FAST-T和SOTA-T子集中,相较于支持多任务的大模型如LISA和PixelLM,GeoPix的mIoU提高了4%–5%;与专注单任务的模型相比,其分割性能也保持一致,展现出优秀的多任务泛化能力。



图5 GeoPix在不同实例数量、不同实例类别情况下基于自然语言指引的实例分割效果可视化。

7

总结

在本推文中,我们分享了最新的研究成果 —— 面向遥感领域的多模态大语言模型GeoPix。该模型突破性地将遥感图像理解从传统的图像级、区域级任务进一步拓展到像素级别的精细理解。

为提升分割精度,GeoPix引入了类别可学习记忆模块,能够动态提取并存储与不同类别相关的地理上下文信息。同时,我们构建了高质量的训练数据集GeoPixInstruct,整合多个遥感公开数据源,并借助 GPT-4o 自动生成实例级描述,为像素级任务提供了丰富、准确的语言指导。

考虑到多模态、多任务优化中常见的“任务拉扯”问题,我们提出了一种两阶段训练策略,在保持文本生成能力的基础上,有效提升了分割模块的性能。

实验结果表明,GeoPix 在像素级任务上达到了显著性能提升,并在图像级与区域级任务中依旧保持了强劲表现,全面展示了遥感多模态模型在迈向“细粒度视觉理解”道路上的巨大潜力。

8

参考资料

1. R. Ou, Y. Hu, F. Zhang, J. Chen and Y. Liu, "GeoPix: A multimodal large language model for pixel-level image understanding in remote sensing," in IEEE Geoscience and Remote Sensing Magazine, doi: 10.1109/MGRS.2025.3560293.


2. Github仓库:https://github.com/Norman-Ou/GeoPix

素材来源:S3-Lab

材料整理:区睿哲,胡媛

内容排版:尹瀚玙

以上内容转自未名时空


上一篇:学术成果丨北京大学郭庆华团队在Earth’s Future发文量化中国天然林恢复对气候变化的缓解潜力
下一篇:共赴未来,“职”引未来 | 2025北京大学遥感所硕士生就业经验分享交流会