VIM研究组在小样本图像分类方向取得新进展

  近日,中国科大视觉与多媒体研究组与中科院自动化所谭铁牛院士课题组合作,提出基于多模态学习的小样本图像分类新方法,该方法利用文本信息作为语义增强提高小样本图像特征的判别能力,有效提升了小样本图像分类的精度。相关成果以“Semantic Prompt for Few-Shot Image Recognition”为题,将发表在计算机视觉顶级国际会议CVPR2023。


  小样本图像分类是一个非常有挑战性的任务,并且在很大程度上还没有得到解决,因为它要求只使用少量几张示例图像学习一个全新的类别。对训练数据进行扩充是实现小样本图像分类的一个有效途径,其中语言模态的数据因收集成本低、描述能力强的特点在近期受到较多关注。一些研究工作尝试使用文本特征来增强小样本分类器的鲁棒性,尽管这些方法有一定效果,但它们仍未改善小样本图像本身存在的特征判别能力差的问题,因此性能提升有限。


图1. 语义提示方法示意图

图2. 语义提示方法框图



  针对上述问题,本文提出一个新的语义提示方法(Semantic Prompt,SP),该方法可以利用训练图像类别标签中的文本信息提高视觉特征的判别能力。如图1所示,本文使用文本特征作为语义提示来自适应地调整图像编码器的特征提取过程,使得图像编码器只关注和语义提示相关的视觉特征,而忽略其他干扰信息。如图2所示,为了实现语义提示对图像编码器的动态调整,本文提出了两种互补的信息交互机制。第一种为空间交互机制,该机制将语义提示特征和图像块特征串联在一起,然后送入Transformer层中,通过自注意力层语义提示可以和每个图像块特征进行信息交互从而使模型关注类别相关的图像区域。第二种为通道交互机制,该机制首先从所有位置的图像特征中提取视觉语境文特征,然后将视觉语境特征和语义提示拼接在一起经过MLP得到调制向量,最后将调制向量加到每个图像块特征上以实现对视觉特征逐通道的调整。通过将两种机制结合,本文提出的语义提示方法可以有效提高特征的判别性,并在四个小样本图像分类数据集上将1-shot分类精度平均提高3.67%。


  陈文弢(中国科学技术大学博士生)、司晨阳(南洋理工大学博士后)为本工作的并列第一作者。中科院自动化所张彰副研究员为本工作的通讯作者。该研究工作得到科技部国家重点研发计划、国家自然科学基金等项目的资助。


论文链接:https://arxiv.org/pdf/2303.14123.pdf 

代码链接:待更新




Back to top