近日,我院软件与安全团队2023级硕士生朱万全等人在网络与信息安全顶级期刊《IEEE Transactions on Information Forensics and Security》发表了题为“SSLDefender: Backdoor Defense in Self-Supervised Learning via Distillation-guided Unlearning”的研究论文。

自监督学习能够利用大量未标注数据训练编码器,学习到高质量的数据表示,有力推动了计算机视觉等领域的发展。然而,研究表明自监督学习同样面临多种安全与隐私威胁,其中后门攻击尤为突出——攻击者可在预训练阶段植入后门,使得下游分类器继承该恶意行为,严重影响模型安全性。目前,后门防御方法多集中于监督学习场景,严重依赖标注信息,难以直接迁移至自监督学习范式。此外,针对自监督学习的现有防御策略多局限于在训练阶段识别并剔除污染数据,对于已经嵌入后门的预训练编码器,尚缺乏有效的修复机制。为此,我们提出SSLDefender,这是自监督学习中一种基于图像的新颖的后门缓解方法,可以直接在后门编码器上有效地去除后门属性。具体来说,首先,我们采用了基于互信息最大化的触发还原方法,更快速有效地获得与目标后门影响力相似的触发器。其次,我们设计了蒸馏引导遗忘学习的策略,在有效遗忘后门特征的同时,保证干净知识的保留,以防过度遗忘。对六个基准数据集的广泛实验评估表明,无论是否迁移到下游数据集,SSLDefender都能成功地将Badencoder的ASR降到2%左右,同时保证模型在主任务上的精度,性能远高于SOTA方法。

《IEEE Transactions on Information Forensics and Security》是公认的网络与信息安全领域的顶级期刊,也是中国计算机学会推荐的A类期刊。