Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis
本文 “Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis” 提出一种新的检测黑盒对抗攻击的框架 GWAD,通过分析查询更新模式来检测攻击,在多种攻击场景下展现出高检测性能和泛化能力,对推动机器学习安全防御发展有重要意义。
摘要-Abstract
Adversarial attacks remain a significant threat that can jeopardize the integrity of Machine Learning (ML) models. In particular, query-based black-box attacks can generate malicious noise without having access to the victim model’s architecture, making them practical in real-world contexts. The community has proposed several defenses against adversarial attacks, only to be broken by more advanced and adaptive attack strategies. In this paper, we propose a framework that detects if an adversarial noise instance is being generated. Unlike existing stateful defenses that detect adversarial noise generation by monitoring the input space, our approach learns adversarial patterns in the input update similarity space. In fact, we propose to observe a new metric called Delta Similarity (DS), which we show it captures more efficiently the adversarial behavior. We evaluate our approach against 8 state-of-the-art attacks, including adaptive attacks, where the adversary is aware of the defense and tries to evade detection. We find that our approach is significantly more robust than existing defenses both in terms of specificity and sensitivity.
对抗攻击仍然是一个重大威胁,可能会危及机器学习(ML)模型的完整性。特别是,基于查询的黑盒攻击可以在无法访问受害模型架构的情况下生成恶意噪声,这使得其在实际环境中具有实用性。现在已经提出了几种针对对抗攻击的防御措施,但却被更先进和自适应的攻击策略所突破。在本文中,我们提出了一个框架,用于检测是否正在生成对抗噪声实例。与现有的通过监测输入空间来检测对抗噪声生成的有状态防御不同,我们的方法在输入更新相似性空间中学习对抗模式。实际上,我们提出观察一种称为增量相似性(DS)的新指标,我们表明它能更有效地捕捉对抗行为。我们针对 8 种最先进的攻击(包括自适应攻击,其中攻击者知道防御并试图逃避检测)评估我们的方法。我们发现,我们的方法在特异性和敏感性方面都比现有防御更加稳健。
引言-Introduction
这部分内容主要介绍了研究背景和动机,指出对抗攻击尤其是基于查询的黑盒攻击对机器学习系统构成严重威胁,现有防御方法存在缺陷,进而提出从新视角检测黑盒对抗攻击的思路,具体内容如下:
- 对抗攻击的威胁模型:对抗攻击是机器学习系统可信度的关键威胁,主要有白盒和黑盒两种威胁模型。白盒攻击假设攻击者可访问模型参数、架构和梯度;黑盒攻击更具现实意义,攻击者只能通过输入输出与模型交互,在机器学习即服务(MLaaS)场景中尤为突出,已有许多高效的基于查询的黑盒攻击方法被提出。
- 现有防御方法的局限性:现有多数对抗攻击防御方法是 “事后” 检测,即假设对抗样本已生成。近期针对黑盒场景的研究虽尝试在攻击生成过程中进行检测,如Stateful Detection、Blacklight和PIHA等方法,通过监测输入查询的异常来识别攻击,但这些方法都聚焦于输入样本分析,易被自适应攻击者绕过,例如Oracle-guided Adaptive Rejection Sampling(OARS)攻击就能突破这些防御,这凸显了需要更强大的防御策略。
- 本文的研究思路和贡献:本文从新视角解决黑盒场景中对抗样本生成的检测问题,将关注点从输入模式转移到更新模式。由于基于查询的攻击方法通常依赖零阶优化来估计梯度,会按特定模式迭代更新输入示例,而良性查询不太可能有这种结构化更新。因此,本文引入Delta Similarity(DS)指标来分析查询序列中更新之间的关系,基于DS提出Gradient’s Watch Adversarial Detection(GWAD)框架,能高效识别攻击模式且误报率低。同时,本文还将评估GWAD的泛化能力、在自适应攻击下的鲁棒性,并展示其可与其他防御方法结合提升防御效果。
图1. 对我们思路的一个高层次说明。生成对抗样本的恶意查询序列与良性查询的模式不同;攻击步骤需要随机向量更新来进行梯度估计。
DS-Delta Similarity
该部分旨在提出一种新的度量指标DS,以有效区分基于查询的黑盒对抗攻击和良性查询,为后续的攻击检测奠定理论基础。具体内容如下:
- DS提出的背景:基于查询的黑盒对抗攻击常采用零阶优化估计梯度,此过程会按特定模式迭代更新输入示例,这与良性查询不同。为区分两者行为,需要分析输入更新空间中查询的差异或相似性,进而提出DS指标。
- DS的定义:设 { x i − 2 , x i − 1 , x i } \{x_{i - 2}, x_{i - 1}, x_{i}\} {xi−2,xi−1,xi} 为对模型 F F F 的三个查询, δ i = x i − x i − 1 \delta_{i}=x_{i}-x_{i - 1} δi=xi−xi−1 表示两个查询间的更新, D S DS DS 被定义为更新 δ i − 1 \delta_{i - 1} δi−1 和 δ i \delta_{i} δi 之间的余弦相似度,即 D S = cos ∠ δ i − 1 δ i \mathcal{D S}=\cos\angle\delta_{i - 1}\delta_{i} DS=cos∠δi−1δi.
- 理论假设:基于零阶优化过程的特性,假设DS能代表基于查询的对抗序列的特定模式,且与良性查询的DS模式不同,在补充材料中从几何角度对该假设进行了进一步说明 。
- 实证分析:为验证假设,对良性和恶意查询的DS分布进行实证分析。使用来自良性示例和最先进的黑盒攻击的各种查询序列,在三个不同的图像分类数据集及相应目标模型(CIFAR-10和ResNet18、TinyImageNet和EfficientNet、ImageNet和VGG-16)上进行实验。结果表明,良性查询的DS分布方差大,而攻击查询的DS分布有一个或多个主要成分,如NES在 − 0.7071 -0.7071 −0.7071 处有强DS成分,HSJA的DS大多集中在 − 0.5 -0.5 −0.5 和 + 1.0 +1.0 +1.0. 这说明基于查询的黑盒对抗攻击在DS空间会留下独特痕迹,支持了在DS空间中可区分攻击行为的假设。
图2. 良性查询与基于查询的最先进黑盒对抗攻击的DS分布。我们可以明显看出良性查询和对抗攻击的分布之间存在显著差异。因此,这些分布适合进行分类。
提出的防御框架GWAD-Proposed defense framework: GWAD
该部分提出了基于Delta Similarity(DS)的Gradient Watch Adversarial Detection(GWAD)防御框架,用于识别正在进行的对抗样本生成尝试和检测潜在的对抗攻击,主要包含特征提取和攻击分类器两部分内容:
- 用于攻击检测/分类的特征:攻击的DS分布与良性查询差异显著,且每种攻击方法都有独特的DS分布特征。因此,通过计算一系列查询的DS值,使用直方图表示法生成用于攻击分类的特征,即“Histogram of Ds”(HoDS)。具体来说,对每三个查询计算一个DS值,选取最后256个DS值生成直方图,该直方图在
−
1.0
≤
D
S
≤
1.0
-1.0\leq DS\leq1.0
−1.0≤DS≤1.0 的范围内设置200个等间距区间,再额外设置一个
D
S
=
1.0
DS = 1.0
DS=1.0 的区间。由于直方图的强度会随查询序列变化,所以对其进行最小-最大归一化处理,最终生成一个
1
×
201
1×201
1×201 的HoDS特征向量。
图3. GWAD基于查询的对抗攻击检测框架流程框图。 - 攻击分类器:将提取的HoDS特征向量输入到分类器中,以检测攻击查询并识别具体的攻击方法。为此训练了一个全连接神经网络,该网络包含六个全连接层,使用ReLU作为激活函数,通过Log-Softmax输出层生成分类概率。网络架构在进行简单的超参数优化后,使用随机梯度下降(SGD)优化器,以128的批大小训练100个epoch.
图4. Sign - Opt的5000个攻击查询的DS分布(左图);对应两个窗口(a)、(b)的HoDS(右图)。
实验-Experiments
实验设置-Experimental Setup
该部分主要介绍了评估GWAD性能的实验设置,包括实验场景、数据集、模型、攻击配置等方面,具体如下:
- 实验场景:将GWAD应用于基于查询的黑盒攻击针对图像分类任务中DNN模型的场景,以此评估GWAD的性能。
- 数据集和模型:使用两个标准图像分类数据集CIFAR - 10和ImageNet。此外,考虑三个实际用例,分别选用Hollywood Heads Dataset、FLIR ADAS和BIRDSAI数据集,这些数据集的数据样本相似性不同,用于模拟不同的挑战级别。同时介绍了实验中使用的DNN模型及其基线准确率,部分模型用于训练GWAD,部分用于攻击检测评估。
- 攻击配置:评估针对六种最先进的基于查询的黑盒攻击方法的检测性能,这些攻击方法包括NES、SimBA等。使用测试集中的样本生成对抗样本,每种攻击方法的查询预算设定为5K,通过
ρ
=
∥
x
~
−
x
∥
2
/
∥
x
∥
2
\rho=\|\tilde{x}-x\|_{2}/\|x\|_{2}
ρ=∥x~−x∥2/∥x∥2 计算攻击方法为实现成功攻击所添加的扰动比例,并将噪声比例预算限制为
ρ
=
0.1
\rho = 0.1
ρ=0.1. 实验中各攻击方法的超参数设置在补充材料第5节详细说明 。
表2. 基于查询的黑盒对抗攻击方法。它们在CIFAR-10数据集上训练的MobileNet-V2模型上的基线无目标攻击成功率(ASR),以及更新类型。
泛化性能评估-Generalization Property Evaluation
这部分主要评估了GWAD在不同数据集上的泛化性能,即GWAD在一个数据集上训练后,能否对其他数据集上的攻击进行有效检测。具体内容如下:
- 实验目的:测试GWAD在不同数据集上的泛化能力,探究在一个数据集的DS分布上训练的GWAD,是否能推广到检测其他数据集上的攻击。
- 实验方法:从CIFAR-10和ImageNet这两个数据集提取HoDS特征,并分别训练GWAD,得到GWAD-CIFAR10和GWAD-ImageNet两个分类器。使用这两个分类器对CIFAR-10和ImageNet数据集进行攻击检测评估,实验选用了多种最先进的攻击方法,旨在展示GWAD识别攻击模式的能力。
- 实验结果:实验结果显示GWAD具有较高的泛化能力。例如,GWAD-CIFAR10对CIFAR-10验证特征集的分类准确率为98.22%,在ImageNet验证集上也达到了97.32%的高准确率;GWAD-ImageNet在ImageNet上的分类准确率为98.94%,在CIFAR-10上为86.36%。值得注意的是,该准确率对应多类分类,不仅包括检测攻击,还能识别攻击类型,且在这些基准测试中,检测率均保持100%。
表1. DNN模型的准确率。部分DNN用于训练GWAD,而其他的则用于攻击检测评估。
图5. GWAD在验证集HoDS特征集上的攻击分类性能混淆矩阵:(a)和(b)分别展示了GWAD-CIFAR10在CIFAR-10和ImageNet上的性能;(c)和(d)分别展示了GWAD-ImageNet在CIFAR-10和ImageNet上的性能。 - 结果分析:通过混淆矩阵分析发现,GWAD在攻击识别性能上存在一定模式,某些攻击(如Sign-Opt和SimBA)的查询之间会出现误分类情况。这是因为这些攻击在DS分布上具有相似的主要成分,例如SimBA和Sign-Flip攻击在0和 -1处有共同的主要DS成分。后续实验中,选择GWAD-CIFAR10继续进行研究,并简称为GWAD。
敏感性评估-Sensitivity Evaluation
该部分主要评估了GWAD的攻击检测性能,将其与其他先进的有状态检测方法进行对比,以探究GWAD在检测基于查询的黑盒攻击时的有效性和优越性。具体内容如下:
- 评估方法:针对分别用于ImageNet和CIFAR-10的EfficientNet和MobileNet-V2模型,进行六种基于查询的黑盒攻击。在每次攻击中,每种方法执行无目标攻击直至达到查询预算。GWAD在每次攻击过程中,从500个随机检查点监测攻击查询序列并提取HoDS特征。
- 评估结果:GWAD对所有攻击方法的攻击查询正确检测率均超过99.42%。不过,由于部分攻击的DS分布相似,攻击识别在某些情况下会受到影响。
表3. GWAD对针对在ImageNet上训练的EfficientNet和在CIFAR-10上训练的MobileNetv2的10万个攻击查询序列的敏感性。“Recogn.”表示攻击识别(多类,包括良性和6种攻击类型),“Detect”表示二元分类(良性/攻击)。 - 对比分析:将GWAD的性能与Blacklight和PIHA等先进的有状态检测方法进行比较,结果显示在对CIFAR-10/MobileNet-V2进行100K次攻击查询的检测中,GWAD几乎达到了完美的检测率,而其他基准方法在检测某些攻击(如BA攻击)时大多失败。此外,对于GWAD未知的QEBA和Surfree攻击,GWAD依然能达到100%的检测率,进一步证明了其检测性能的优越性。
表4. 将GWAD的敏感性与基准有状态检测方法(Blacklight和PIHA)进行对比,测试环境为针对在CIFAR-10上训练的MobileNet-v2进行10万次攻击查询的序列。
特异性评估-Specificity Evaluation
这部分主要评估了GWAD在处理各种良性查询时的特异性,即测量其误报率(FPR),并与相关工作进行对比。具体内容如下:
- 评估方法:使用五个代表特定现实场景的公开可用数据集,在不同的良性查询场景下对GWAD进行评估,计算其误报率,并与Blacklight和PIHA等相关工作进行比较。
- 评估场景及结果
表5. 在代表实际应用场景的良性示例查询序列上的误报率对比。- 多类图像场景:对Tiny-ImageNet、CIFAR-10和ImageNet等图像分类任务进行测试。在这些任务中,图像之间的相似性通常较低。GWAD对来自CIFAR-10和Tiny-ImageNet的图像序列没有反应,而在ImageNet图像序列中,只有0.03%的图像触发了GWAD的误报。
- 城市场景图像场景:使用FLIR ADAS数据集,该数据集专为自动驾驶车辆设计,包含城市场景的RGB和IR格式图像。由于车辆在行驶过程中连续拍摄图像,这些图像之间的相似度较高。GWAD在监测该数据集的测试序列时,误报率为0%。
- 鸟瞰图像场景:采用BIRDSAI数据集,这是一个用于航空智能监控系统的红外图像数据集,图像具有较高的相似性。GWAD在监测该数据集约40K夜间图像时,只有1.29%的图像触发误报。值得注意的是,PIHA不适用于BIRDSAI的灰度图像,因为其色调为0。
- 连续相似图像场景:利用Hollywood Heads数据集进行评估,该数据集包含单类示例的查询序列,特别是从连续电影帧中注释的人类头部图像子集,相邻图像之间相似度高。在处理这类高相似单类图像序列时,GWAD的误报率(FPR)低于Blacklight。具体来说,GWAD的FPR为17.99%,而Blacklight为25.47%,PIHA为26.19%。
图6. Hollywood Head数据集图像示例:(a) 低相似度图像;(b) 中等相似度图像;(c) 高相似度图像
表6. 误报率对比:GWAD、Blacklight和PIHA对来自Hollywood Head数据集的相似图像序列进行监测的结果。
自适应攻击-Adaptive Attacks
不规则批次:良性样本注入-Irregular Batch: Benign Example Injection
这部分内容主要介绍了一种名为“不规则批次:良性样本注入(Irregular Batch: Benign Example Injection)”的方法,旨在防御基于查询的黑盒对抗攻击,通过向攻击者的查询序列中注入良性样本来干扰攻击,具体内容如下:
- 方法原理:基于查询的黑盒攻击在生成对抗样本时,会按照一定模式迭代更新输入示例,这种模式在Delta Similarity(DS)空间中具有独特特征。通过向攻击者的查询序列中注入良性示例,可以扰乱攻击的迭代更新模式,使攻击难以收敛到有效的对抗样本。
- 注入策略:在攻击过程中,根据一定的规则和时机向攻击者的查询序列中插入良性示例。注入的良性示例应与原始查询序列在数据分布和特征上具有一定的相似性,以避免引起攻击者的警觉。
- 实验验证:为验证该方法的有效性,进行了相关实验。实验结果表明,通过注入良性示例,能够显著降低攻击的成功率。例如,在某些攻击场景下,攻击成功率从原本的较高水平大幅下降,证明了该方法在防御基于查询的黑盒对抗攻击方面的有效性。
- 与GWAD结合:将“不规则批次:良性示例注入”方法与GWAD(Gradient’s Watch Adversarial Detection)框架相结合,进一步提升防御效果。GWAD可以检测攻击的发生,而良性示例注入可以干扰攻击过程,两者相辅相成,能够更有效地抵御对抗攻击。
图7. (a)展示了随着良性示例注入率的增加,对于HopSkipJumpAttack(HSJA)、自然进化策略(NES)和Sign-Opt攻击方法,实现成功攻击所需的查询数量;(b)展示了梯度监测对抗检测(GWAD)的攻击检测准确率。
OARS自适应攻击-OARS Adaptive Attack
这部分内容主要介绍了OARS(Oracle-guided Adaptive Rejection Sampling)自适应攻击及其与GWAD(Gradient Watch Adversarial Detection)之间的关系,具体内容如下:
- OARS攻击简介:OARS是一种专门设计用于绕过有状态检测的自适应攻击方法。它通过识别扰动方向(借助随机噪声)来避开自适应有状态检测方法,然后将修改后的样本注入目标模型。这种攻击方式能够有效应对一些传统的有状态检测机制,展现出较强的绕过能力。
- 对其他检测方法的影响:OARS攻击成功绕过了Blacklight和PIHA等有状态防御方法。这些方法在面对OARS攻击时,无法有效检测到攻击行为,导致攻击能够顺利进行,说明OARS攻击在对抗这些传统检测方法时具有一定的优势。
表7. OARS-NES针对Blacklight、PIHA和GWAD的自适应攻击性能。结果以(攻击成功率(下降)/检测率(上升))的格式呈现。 - 与GWAD的对比:尽管OARS攻击对其他有状态检测方法有较好的绕过效果,但它无法绕过GWAD。GWAD能够有效检测到OARS攻击,这是因为GWAD是基于Delta Similarity(DS)来检测攻击,而OARS攻击在DS空间中会留下独特的痕迹,使得GWAD能够识别出攻击行为。实验结果表明,在面对OARS攻击时,GWAD的检测率可以达到100%,充分证明了GWAD相对于其他检测方法在检测基于查询的黑盒攻击方面的优越性和有效性。
表8. 各种OARS自适应攻击针对Blacklight、PIHA和GWAD的攻击成功率(ASR)。攻击成功率越低,说明防御效果越好。
评论记录:
回复评论: