近日,中国科大视觉与多媒体研究组提出业界首个基于迁移学习的骨架动作识别工作。该研究探索在有标注的源域数据集和无标注的目标域数据集在风格和类别上都不相同的情况下,如何利用源域数据辅助目标域数据的结构学习。相关成果以“Collaborating Domain-shared and Target-specific Feature Clustering for Cross-domain 3D Action Recognition”为题,将发表在计算机视觉顶级国际会议ECCV2022上。
骨架动作识别旨在对由骨架数据组成的序列进行动作分类。由于骨架数据在隐私保护上的优势等原因,近年来受到学术界越来越多的关注。目前的骨架动作识别方法采用传统的有监督训练方式,即先在有标注的源数据上训练,后在无标注的目标数据上测试。然而,这些方法假设源数据和目标数据有着相同的分布,这在现实世界是难以满足的。为了解决这个问题,本文首先了定义了一个跨域骨架动作识别的任务。如图1所示,我们假设存在一个有标注的源域数据集和一个无标注的目标域数据集,且源域数据集和目标域数据集具有不同的风格(“节点数目,数据质量”)和不同的动作类别。跨域骨架动作识别任务的目的是利用源域数据和目标域数据训练好一个聚类模型,能够实现对目标域的数据精确地聚类。
图1. 跨域骨架动作识别任务示意图
针对这个跨域骨架识别这个任务,本文提出了一个基于多模型协同训练的跨域骨架动作识别方法。该方法的核心思想是对源域有监督训练模型和目标域无监督训练模型进行协同训练。如图2所示,本框架包含左右两个并行的支路,而这两个支路上主要包含了基础模块(Base Module, BM),在线聚类模块(Online Clustering Module,OCM),协同聚类模块(Collaborative Clustering Module,CCM)这三种模块单元。具体而言,我们首先在两支路上都设置一个基础模块,分别通过源数据上的有监督学习和目标数据上的无监督学习方式来优化各自的特征提取器;之后,我们再在两支路的特征提取器后各放置一个在线聚类模块,用以对目标样本的特征进行聚类。特别地,我们使用了一种在线生成伪标签的方式来引导并优化特征的聚类过程;最后我们提出了一个协同聚类模块,用于对两支路的知识互相交换并互相学习,从而以协同训练的方式来联合优化两个支路的聚类结果。实验结果表明,本文提出的跨域骨架动作识别方法可以有效提高目标域的聚类效果,并在三个跨域骨架动作识别数据集上取得了最好的性能。
图2. 基于多模型协同训练的跨域骨架动作识别方法框图
我校信息科学技术学院的博士研究生刘钦颖为本论文第一作者,王子磊副教授为论文通讯作者。该工作得到了国家自然科学基金委的资助。