VIM研究组在零样本图像分类方向取得新进展

近日,中国科大视觉与多媒体研究组与中科院自动化所谭铁牛院士课题组合作在零样本分类问题上取得新进展。该团队通过构造伪属性标签提高不同可见类间区分度,显著的提高了模型零样本分类能力。相关成果以“Exploiting Semantic Attributes for Transductive Zero-Shot Learning”为题发表在学术会议ICASSP2023上。


零样本分类旨在利用标签之间共享的属性关系,将模型的分类能力泛化到训练集中不存在的类别上。目前研究热点集中于转导式零样本学习(Transductive Zero-Shot Learning),该设置下我们能获取到无标签的不可见类数据。当前领域先进方法通常使用生成的方法解决该问题。整体包括三个步骤:(1)使用当前数据以及各类的属性向量训练生成器,使之能够在给定类别属性的条件下生成对应的视觉特征。(2)通过输入对应属性表示,我们使用训练好的生成器生成不可见类的数据。(3)利用生成的带标签的数据训练相应的分类器。最后测试该分类器在零样本任务上的性能。


其中的关键问题在于设计高性能的生成器。我们关注到过去的方法在训练生成器的过程中,并没有显式的区分不同可见类,这将导致生成的不可见类样本的视觉特征混叠在一起,导致最终分类器不能学到有效的分类信号。为了解决该问题,我们在训练生成器过程中引入了额外的属性解码器,它能够将视觉特征映射为相应的属性向量。我们使用其为无标签的不可见类样本生成伪属性标签,并以条件向量的形式添加到生成器的训练过程中,用于挖掘不同可见类之间的信息。模型的整体结构如图 1 所示。


图 1 生成器模型的整体结构示意图

  该研究在五个标准的零样本分类数据集上进行评估,在传统零样本分类和广义的零样本分类指标上都取得了显著的提升,同时特征可视化表明该方法生成的特征在区分度上比以往方法要更好。


  中国科学技术大学硕士生王政博为本文第一作者,中科院自动化所梁坚副研究员为本工作的通讯作者。该研究工作得到国家自然科学基金项目的资助。


论文链接:https://arxiv.org/abs/2303.09849

代码链接:暂无


Back to top