近日,VIM研究组在图像分类任务的模型自适应学习方向取得了新进展。团队探索了模型源域对抗扰动和源域后门攻击的脆弱性在模型自适应任务中的继承问题,并针对此提出了一种模型预处理方法进行防御,这项研究为模型自适应安全领域提供了新思路。相关成果以“AdaptGuard: Defending Against Universal Attacks for Model Adaptation”为题发表于计算机视觉顶级国际会议ICCV2023。
模型自适应方法利用在源域数据上预训练的源域模型结合目标域上的无标签数据进行自适应,以实现在目标域具有更高性能的目标。由于学习过程中无需接触源域的训练数据,所以模型自适应方法具有很高的效率与很好的隐私保护能力,在一些对于数据隐私很重视的场景中(例如医学图像)很受欢迎。虽然模型自适应可以以一种注重隐私的模式运用源域知识,但是这也对目标域用户产生了潜在的安全隐患。目前已有的自适应方法无条件地信任源域模型,但是实际上,源域模型的提供者可以向模型中植入后门,或者计算针对已有模型的对抗扰动,从而可以利用先验知识更有效地攻击使用其模型的用户。源域一方针对模型的攻击是模型自适应真实存在的隐患,之前的工作并没有涉及,本工作是第一个对此进行讨论的工作。
研究人员通过实验发现,对于成功植入源域模型的后门,或者根据源域模型求出的对抗扰动,可以直接在目标域自适应后的模型上成功实现攻击。即源域模型对于上述通用攻击(即与样本无关的攻击)的脆弱性,在模型自适应后,仍然没有被消除。因为这种攻击隐患的存在,所以我们为目标域用户方提出了一种基于蒸馏的模型预处理防御方法AdaptGuard,以实现对潜在攻击的防御同时尽可以保留其在目标域任务上的性能。
图1 AdaptGuard的主要流程示意图
AdaptGuard主要思路是避免直接使用过拟合于源域的模型参数,对模型进行预处理,之后仍进行标准的模型自适应方法,所以AdaptGuard与已有的模型自适应方法是一个正交的关系。如图1所示,AdaptGuard将源域模型视为教师网络,以ImageNet预训练模型作为学生网络,利用无标签的目标域数据进行知识蒸馏,使学生网络模仿源域模型的预测。在此过程中,为了使训练稳定并提升目标域性能,在学生网络上引入自蒸馏方法。在此基础上,使用模型的预测生成目标域样本的伪标签,并计算其针对学生网络的“对抗样本”,以此扩充目标域数据集,从而降低模型预测针对输入空间扰动的敏感性。在模型预处理后,仍接入已有的模型自适应方法,进一步提升其在目标域性能。研究人员在三个常用数据集和两种经典模型自适应方法上进行了实验,AdaptGuard在尽可能保留目标域性能的同时,成功防御了UAP,GAP等对抗扰动和Blended,SIG等后门攻击。
我校信息科学技术学院的博士生生力军为本论文第一作者,王子磊副教授为论文第四作者。该工作得到了国家自然科学基金委、北京市科技新星计划的资助。
论文链接:https://arxiv.org/abs/2303.10594
代码链接:https://github.com/TomSheng21/AdaptGuard