VIM研究组在组合式零样本学习方向取得新进展


  组合式零样本学习(Compositional Zero-Shot Learning)——即识别未见过的属性与物体的组合类别——是计算机视觉研究中的一项重要任务。传统的组合式零样本学习方法未能考虑不同子类的图像特征之间的差异。近期,中科大VIM研究组王子磊副教授的团队提出了一种基于子类判别性信息学习的组合式零样本图像分类方法,该方法通过结合解耦式与合成式学习方法的优势,缓解同一语义概念在不同子类之中的视觉表征不一致的问题。相关成果以“Leveraging Sub-Class Discrimination for Compositional Zero-Shot Learning”为题发表在AAAI 2023。


  组合式零样本图像分类任务假定对于训练集的每张图像,存在着属性和物体两项标注信息。而对于测试集图像,其类别是由见过的概念组合而成的新类别。传统的组合式零样本学习方法可被归为解耦式方法与合成式方法。解耦式学习方法将图像特征解耦为属性相关的信息和物体相关的信息两部分特征,而后用这两部分特征分别对于图像的属性与物体类别进行识别。在测试阶段,对于两个分支的预测进行结合,以得到模型对未见过类别样本的组合预测。而合成式方法则通常需要使用语义概念的词向量来建立针对每个组合进行分类的分类器。在测试阶段,模型可以使用相同的手段生成未见过的组合类别的分类器权重。尽管这两类方法均取得了一定的效果,但他们均没有考虑到组合式零样本模型的子类判别性问题。解耦式组合式零样本学习方法会显式拉近同一类别的图像特征,但实际上,同一类别中不同子类的图像特征具有不同的视觉表现,将其显示拉近容易破坏模型的泛化性能。而另一方面,合成式方法往往使用固定的“语义概念”的词向量来构造可见类别与不可见类别的分类器,因此模型无法保证在语义空间之中的子类判别能力。




  为解决这一问题,该工作使用合成式学习分支获得关于子类判别性的信息,并用这部分信息辅助解耦式学习分支的训练。具体而言,合成式学习分支直接得到组合分类的特征,该特征能够随不同组合的变化而变化,因此对于一个输入样本,我们使用两个映射器将合成式分支的特征分别映射至属性域和物体域之中,并与解耦分支的特征构成一对正样本,不同子类的解耦分支特征则作为负样本;此外,我们使用另一个映射器根据两部分解耦分支的特征构造组合特征,通过约束生成的组合特征能被组合分类器所正确地分类,子类判别性能够被保留在原始的解耦分支特征之中;最后,我们使用合成式分支特征对解耦分支的分类器进行动态调制,使得分类器原型能够根据输入图像的子类不同而相应地变化。该工作在UT-Zappos与CGQA数据集上分别进行实验,实验结果表明该工作所提出的简单模型可以取得较为良好的结果。消融实验结果说明该工作所提出的各项改进均能够提升模型效果。


  我校信息科学技术学院的博士研究生胡效鸣为本论文第一作者,王子磊副教授为论文通讯作者。该工作得到了国家自然科学基金委的资助。


论文链接: AAAI2023-SCD

代码链接: https://github.com/hxm97/SCD-CZSL 




Back to top