VIM研究组在零样本学习领域取得新进展

  


  近日,中国科学技术大学信息科学技术学院的王子磊副教授在组合零样本学习方向取得了新进展。该研究团队指出之前的组合零样本学习工作主要关注未知属性-对象组合,忽略了现实场景中测试图像可能包含的多种形式的未知因素,例如新的语义概念或新的图像风格等,为此提出了现实组合零样本学习任务,该任务在统一的实验环境中考虑各种类型的未知因素。相关成果以“A Dynamic Learning Method towards Realistic Compositional Zero-Shot Learning”为题发表在人工智能顶级国际会议AAAI2024


  组合零样本学习(Compositional Zero-shot Learning, CZSL)任务旨在识别所见的新颖属性和对象概念的组合。例如,训练数据集可能包括“去皮的苹果”和“成熟的苹果”的图像,可能需要在测试过程中识别“切片的苹果”。虽然之前的 CZSL 研究取得了很大进展,但忽略了一个关键问题,即测试图像还可能包含以前未见过的属性和对象概念或未见过的样式。为此,研究人员首先提出现实组合零样本学习(Realistic Compositional Zero-Shot Learning, RCZSL)设置,其中测试图像包含所有三种类型的未知因素及其组合。因此,根据所包含的未知因素的类型,测试集可以分为六个不同的组。具体来说,有已见风格和未见风格的两大类测试图像,分别包括已见组合、已见概念的未见组合、未见概念的未见组合三种。下图中展示了一种极端情况,即这三种类型的未知因素同时存在于单个测试图像中,包括未见属性、未见概念和未见风格。


图1 提出的现实组合零样本学习设置与其他设置的对比


  为了解决现实组合零样本学习问题,研究人员首先对MIT-States数据集进行了重新标注,因为以前的研究指出该数据集中大部分图像的标注是错误的。此外,研究人员利用预训练的生成对抗网络(GAN)模型将MIT-States中的图像转换到不同的领域,还将整个图像数据集划分为训练集、验证集和测试集,其中后两个集合进一步划分为前述的六个不同组。


图2 模型结构图


  在方法层面,研究人员提出了一种动态学习方法来解决领域偏移问题。在视觉特征层面,首先将图像的风格和语义成分结合起来,通过堆叠低层次的卷积特征统计数据,并分别对高层次的特征进行全局平均池化(GAP),以获得视觉嵌入。随后创建系数预测模块,以生成固定卷积核的权重。最终,动态卷积模块根据预测的系数自适应生成卷积核,从而调整模型以适应新的领域和组合。此外,提供了两种生成组合的语义原型的可选方法,一种是利用CLIP模型的文本编码器,另一种是使用对象条件网络结合Glove的属性和对象词向量。然后,将调整到相同大小的低层次视觉特征堆叠起来,输入到语义调制器中。原始的组合原型通过定位与输入图像相关的区域动态更新。通过结合上述技术,所提出的方法可以通过动态调节视觉特征和组合原型来弥合由未知因素引起的领域转移。实验结果表明,在传统的CZSL设置和所提出的RCZSL设置上,该方法显著优于基线方法和最先进的方法。

  

  中国科学科学技术大学自动化系博士研究生胡效鸣为该论文第一作者,中国科学技术大学信息科学技术学院王子磊副教授,为该论文的通讯作者和第二作者。该研究得到了国家自然科学基金的支持。


 

 论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/28000 

 代码地址:待更新





Back to top