近日,西北工业大学光电与智能研究院王琦教授团队在人工智能领域取得重要进展,先后在多模态指令引导分割和遥感图像变化检测两个方向实现突破。团队提出的“RISE”自监督强化学习框架和“GenCD”通用变化检测框架的相关研究成果——《Reasoning via Implicit Self-supervised Emergence for Instruction Segmentation》以及《Exploring Generalizable Remote Sensing Change Detection via Low-Rank Exchange Adaptation of Vision Foundation Model》——均已被人工智能领域著名国际会议(CCF A类会议)AAAI(Association for the Advancement of Artificial Intelligence)录用。
多模态指令引导分割方向
指令引导分割根据自然语言指令生成目标像素级掩码,在人机交互和智能机器人等领域具有广泛应用价值。然而,现有方法依赖昂贵几何标注,且难以监督复杂空间关系与世界知识的组合推理,限制了大模型在开放场景下的能力。

图1:RISE框架图
针对此,王琦教授团队提出自监督框架RISE,创新设计“隐式自监督涌现机制”,摒弃几何真值,仅用语义对齐分数作为奖励信号驱动强化学习,从而激发模型潜在推理能力,自发涌现包含空间感知和属性推理的高质量思维链。实验显示,RISE在无几何监督下,于ReasonSeg基准取得58.7 gIoU,与全监督方法持平。该研究证明复杂视觉推理可通过语义信号自发涌现,为摆脱标注束缚、挖掘大模型潜能提供新范式。论文作者为博士生周情、贾玉钰及高君宇副教授,通讯作者为王琦教授。
遥感图像变化检测方向
遥感变化检测通过双时相图像监测地表动态,在灾害响应、生态保护和土地管理等领域应用广泛。但现有方法难以应对跨平台、季节光照及突发事件带来的域偏移,泛化能力不足成为落地瓶颈。

图2:GenCD框架图
针对此,王琦教授团队提出通用框架GenCD,创新设计“低秩交换适配策略(LREA)”,通过低秩矩阵实现任务适配,并引入交换分支对齐双时相特征,有效抑制伪变化的同时保留基础模型强大的特征提取能力。实验显示,GenCD在涵盖三大任务的8个跨数据集基准中表现出色,尤其在跨灾害事件(如地震损毁)场景中展现卓越鲁棒性,准确识别其他模型遗漏的损毁建筑物。该研究为遥感变化检测泛化问题提供新思路,并为视觉基础模型在地球观测领域应用树立新标杆。论文作者为博士生张铭威、胡憬韬及李强教授,通讯作者为王琦教授。
上述两项工作均得到国家自然科学基金等项目资助,并在国防军事领域有很大的应用前景,充分彰显团队在多模态视觉推理与遥感智能感知领域的探索与创新能力。
(文:周情、张铭威,审核:赵斌)

搜索
英文
联系我们
首页 