网络空间安全|CVPR2025 | 对抗样本&智能安全方向论文汇总

在这里插入图片描述

汇总结果来源：CVPR 2025 Accepted Papers

若文中出现的 论文链接 和 GitHub链接 点不开，则说明还未公布，在公布后笔者会及时添加. 若笔者未及时添加，欢迎读者告知.

文章根据题目关键词搜索，可能会有遗漏. 若笔者出现遗漏，欢迎告知.

部分文章还未公布正文，只有名称.

Mind the Gap：通过查询更新分析检测正在进行中的黑盒对抗攻击
Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis | 对抗防御

论文链接

GitHub链接

摘要：对抗攻击仍然是一个重大威胁，可能会危及机器学习（ML）模型的完整性。特别是，基于查询的黑盒攻击可以在无法访问受害模型架构的情况下生成恶意噪声，这使得其在实际环境中具有实用性。现在已经提出了几种针对对抗攻击的防御措施，但却被更先进和自适应的攻击策略所突破。在本文中，我们提出了一个框架，用于检测是否正在生成对抗噪声实例。与现有的通过监测输入空间来检测对抗噪声生成的有状态防御不同，我们的方法在输入更新相似性空间中学习对抗模式。实际上，我们提出观察一种称为增量相似性（DS）的新指标，我们表明它能更有效地捕捉对抗行为。我们针对 8 种最先进的攻击（包括自适应攻击，其中攻击者知道防御并试图逃避检测）评估我们的方法。我们发现，我们的方法在特异性和敏感性方面都比现有防御更加稳健。

AnyAttack：可用于任何图像的针对视觉语言模型的目标性对抗攻击
AnyAttack: Targeted Adversarial Attacks on Vision-Language Models Toward Any Images | 对抗攻击 | 视觉语言模型

论文链接

GitHub链接

摘要：由于其多模态能力，视觉语言模型（VLMs）在现实场景中找到了许多有影响力的应用。然而，最近的研究表明，VLMs 容易受到基于图像的对抗攻击，特别是目标性的对抗图像，这些图像操纵模型生成由攻击者指定的有害内容。当前的攻击方法依赖于预定义的目标标签来创建有针对性的对抗攻击，这限制了它们在大规模鲁棒性评估中的可扩展性和适用性。在本文中，我们提出了 AnyAttack，这是一个自监督框架，无需标签监督即可为 VLMs 生成有针对性的对抗图像，允许任何图像作为攻击的目标。我们的框架采用“预训练和微调”范式，对抗噪声生成器在大规模 LAION-400M 数据集上进行预训练。这种大规模预训练使我们的方法在广泛的 VLMs 中具有强大的可迁移性。在五个主流开源 VLMs（CLIP、BLIP、BLIP2、InstructBLIP 和 MiniGPT-4）上进行的三个多模态任务（图像文本检索、多模态分类和图像字幕）的广泛实验证明了我们攻击的有效性。此外，我们成功地将 AnyAttack 转移到多个商业 VLMs，包括 Google Gemini、Claude Sonnet、Microsoft Copilot 和 OpenAI GPT。这些结果揭示了 VLMs 面临的前所未有的风险，强调了需要有效的对策。

TAPT：用于视觉语言模型鲁棒推理的测试时对抗提示微调
TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models

论文链接

GitHub链接（无）

摘要：像CLIP这样的大规模预训练视觉语言模型（VLMs）在各种下游任务中展现出了卓越的零样本泛化能力。然而，最近的研究表明，CLIP的推理性能会因微小的对抗扰动而大幅下降，尤其是在视觉模态方面，这构成了重大的安全威胁。为了缓解这一漏洞，在本文中，我们提出了一种名为测试时对抗提示调整（TAPT）的新型防御方法，以增强CLIP在面对视觉对抗攻击时的推理鲁棒性。TAPT是一种测试时防御方法，它学习防御性的双模态（文本和视觉）提示，以强化CLIP的推理过程。具体而言，这是一种无监督方法，通过最小化多视图熵并对齐对抗-干净分布，为每个测试样本优化防御性提示。我们在11个基准数据集上评估了TAPT的有效性，这些数据集包括ImageNet和其他10个零样本数据集。结果表明，TAPT在对抗AutoAttack（AA）时，将原始CLIP的零样本对抗鲁棒性提高了至少48.9%，同时在很大程度上保持了在干净样本上的性能。此外，TAPT在各种骨干网络上均优于现有的对抗提示调整方法，平均鲁棒性提升至少36.6%.

通过前向传播细化提高视觉Transformer的对抗可迁移性
Improving Adversarial Transferability on Vision Transformers via Forward Propagation Refinement

论文链接

GitHub链接

摘要：视觉 Transformer（ViTs）已广泛应用于各种计算机视觉和视觉语言任务中。为了深入了解它们在实际场景中的鲁棒性，对 ViTs 上的可迁移对抗样本进行了广泛研究。提高对抗可迁移性的一种典型方法是通过细化替代模型。然而，现有的关于 ViTs 的工作将其替代模型的细化限制在反向传播上。在这项工作中，我们专注于前向传播细化（FPR），并具体细化 ViTs 的两个关键模块：注意力图和标记嵌入。对于注意力图，我们提出了注意力图多样化（AMD），它使某些注意力图多样化，并在反向传播期间隐含地施加有益的梯度消失。对于标记嵌入，我们提出了动量标记嵌入（MTE），它积累历史标记嵌入以稳定注意力和 MLP 块中的前向更新。我们使用从 ViTs 转移到各种 CNN 和 ViTs 的对抗样本进行了广泛的实验，证明我们的 FPR 平均比当前最佳（反向）替代模型细化方法高出高达 7.0%. 我们还验证了它相对于流行防御方法的优越性以及与其他转移方法的兼容性。

Adv-CPG：带有面部对抗攻击的定制肖像生成框架
Adv-CPG: A Customized Portrait Generation Framework with Facial Adversarial Attacks | 对抗攻击

论文链接

GitHub链接

摘要：近期的定制肖像生成（CPG）方法以面部图像和文本提示作为输入，引起了广泛关注。尽管这些方法生成高保真度的肖像，但它们无法防止生成的肖像被恶意人脸识别系统跟踪和滥用。为了解决这个问题，本文提出了一种带有面部对抗攻击的定制肖像生成框架（Adv-CPG）。具体来说，为了实现面部隐私保护，我们设计了一个轻量级的局部身份加密器和一个加密增强器。它们分别通过直接注入目标身份和添加额外的身份指导来实现渐进式双层加密保护。此外，为了完成细粒度和个性化的肖像生成，我们开发了一种多模态图像定制器，能够生成可控的细粒度面部特征。据我们所知，Adv-CPG 是第一个将面部对抗攻击引入 CPG 的研究。大量实验证明了 Adv-CPG 的优越性，例如，所提出的 Adv-CPG 的平均攻击成功率分别比最先进的基于噪声的攻击方法和无约束攻击方法高 28.1%和 2.86%.

DEAL：面向高质量红外成像的数据高效对抗学习
DEAL: Data-Efficient Adversarial Learning for High-Quality Infrared Imaging | 对抗训练

论文链接

GitHub链接

摘要：热成像通常会受到硬件限制和不可预测的环境因素引起的动态、复杂退化的影响。高质量红外数据的稀缺性，加上动态、复杂退化的挑战，使得使用现有方法难以恢复细节。在本文中，我们通过将这些退化因素建模为对热图像的对抗攻击，通过最小-最大优化将热退化模拟集成到训练过程中。该模拟是动态的，以最大化目标函数，从而捕获广泛的退化数据分布。这种方法可以在有限的数据下进行训练，从而提高模型性能。此外，我们引入了一种双交互网络，该网络将脉冲神经网络的优势与尺度变换相结合，以具有尖锐的脉冲信号强度捕获退化特征。这种架构在保持高效特征表示的同时确保了紧凑的模型参数。大量实验表明，我们的方法不仅在各种单一和复合退化下实现了卓越的视觉质量，而且在仅使用五十张清晰图像进行训练时，在处理方面实现了显著减少，在效率和准确性方面优于现有技术。

NitroFusion：通过动态对抗训练实现高保真单步扩散
NitroFusion: High-Fidelity Single-Step Diffusion through Dynamic Adversarial Training | 对抗训练

论文链接

GitHub链接

摘要：我们引入了 NitroFusion，这是一种与单步扩散的完全不同的方法，它通过动态对抗框架实现高质量生成。虽然单步方法具有显著的速度优势，但与多步方法相比，它们通常会遭受质量下降的问题。就像一组艺术评论家通过专注于构图、色彩和技巧等不同方面提供全面反馈一样，我们的方法维持着大量的专业判别器头，共同指导生成过程。每个判别器组在不同噪声水平下针对特定质量方面发展专业知识，提供多样化的反馈，从而实现高保真单步生成。我们的框架结合了：（i）具有专业判别器组的动态判别器池以提高生成质量；（ii）防止判别器过拟合的策略性刷新机制；以及（iii）用于多尺度质量评估的全局-局部判别器头，以及用于平衡生成的无条件/有条件训练。此外，我们的框架独特地支持通过自下而上的细化进行灵活部署，允许用户使用同一模型在 1-4 个去噪步骤之间动态选择，以直接权衡质量和速度。通过全面的实验，我们证明 NitroFusion 在多个评估指标上显著优于现有的单步方法，尤其在保留精细细节和全局一致性方面表现出色。

STEREO：一种用于文生图扩散模型中进行对抗鲁棒概念擦除的两阶段框架
STEREO: A Two-Stage Framework for Adversarially Robust Concept Erasing from Text-to-Image Diffusion Models

论文链接

GitHub链接

摘要：大规模文本到图像生成（T2IG）模型的迅速扩散引发了人们对其在生成有害内容方面可能被滥用的担忧。尽管已经提出了许多从 T2IG 模型中擦除不期望概念的方法，但它们仅提供了一种虚假的安全感，因为最近的研究表明，概念擦除模型（CEM）很容易被对抗性攻击欺骗以生成已擦除的概念。在不显著降低模型效用（生成良性概念的能力）的情况下进行对抗性鲁棒概念擦除的问题仍然是一个未解决的挑战，特别是在对手可以访问 CEM 的白盒设置中。为了解决这一差距，我们提出了一种名为 STEREO 的方法，它包括两个不同的阶段。在第一阶段，通过利用来自对抗训练的鲁棒优化原则，充分搜索能够从 CEM 中再生已擦除概念的强大且多样化的对抗性提示。在第二阶段“一次性稳健擦除”中，我们引入了基于锚概念的组合目标，以一次性稳健地擦除目标概念，同时尽量减少对模型效用的降低。通过在三种对抗性攻击下将提出的 STEREO 方法与四种最先进的概念擦除方法进行基准测试，我们证明了它能够实现更好的鲁棒性与效用的权衡。

将更强的单独攻击用于百万规模的对抗鲁棒性评估
Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks

论文链接

GitHub链接

摘要：随着深度学习模型越来越多地部署在安全关键型应用中，评估它们对对抗性扰动的脆弱性对于确保其可靠性和可信度至关重要。在过去十年中，已经提出了大量的白盒对抗鲁棒性评估方法（即攻击方法），从单步到多步方法，从单独方法到集成方法。尽管取得了这些进展，但在进行有意义且全面的鲁棒性评估方面仍然存在挑战，特别是在大规模测试以及确保评估反映现实世界中的对抗风险时。在这项工作中，我们专注于图像分类模型，并提出了一种新颖的单独攻击方法，即概率余量攻击（PMA），它在概率空间而不是对数空间中定义对抗余量。我们分析了 PMA 与现有的基于交叉熵或基于对数余量的攻击之间的关系，并表明 PMA 可以超越当前最先进的单独方法。基于 PMA，我们提出了两种类型的集成攻击，平衡了有效性和效率。此外，我们从现有的 CC3M 数据集创建了一个百万规模的数据集 CC1M，并使用它对经过对抗训练的 ImageNet 模型进行首次百万规模的白盒对抗鲁棒性评估。我们的发现为单独攻击与集成攻击之间以及小规模评估与百万规模评估之间的鲁棒性差距提供了有价值的见解。

基于弱监督对比对抗训练从半监督数据中学习鲁棒特征
Weakly Supervised Contrastive Adversarial Training for Learning Robust Features from Semi-supervised Data

论文链接

GitHub链接

摘要：现有的对抗性训练（AT）方法经常遭受不完全扰动，这意味着在生成对抗性示例（AE）时，并非所有非鲁棒特征都受到扰动。这导致非鲁棒特征和标签之间存在残余相关性，导致鲁棒特征的次优学习。然而，由于难以区分鲁棒和非鲁棒特征以及标记数据的稀疏性，实现完全扰动——扰动尽可能多的非鲁棒特征——具有挑战性。为了应对这些挑战，我们提出了一种称为弱监督对抗性对抗性训练（WSCAT）的新方法。WSCAT通过基于信息论的部分标记数据上的完整AE生成来破坏非鲁棒特征和标签之间的相关性，从而确保完全扰动以改进鲁棒特征的学习。广泛采用的基准上的广泛理论分析和全面实验验证了WSCAT的优越性。

CLIP 强大到足以反击：针对 CLIP 零样本对抗鲁棒性的测试时反击
CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP

论文链接

GitHub链接

摘要：尽管 CLIP 以零样本方式在图像文本匹配任务中得到广泛应用，但已被证明对添加到图像上的对抗性扰动高度敏感。最近的研究提出使用即时生成的对抗性样本对 CLIP 的视觉编码器进行微调，并在一系列下游数据集上展示出对对抗性攻击的改进的鲁棒性，这一特性被称为零样本鲁棒性。在本文中，我们表明旨在最大化分类损失的恶意扰动会导致“虚假稳定”的图像，并提出在推理期间利用 CLIP 的预训练视觉编码器来反击此类对抗性图像以实现鲁棒性。我们的范例简单且无需训练，提供了第一种在测试时保护 CLIP 免受对抗性攻击的方法，这与现有的旨在提高 CLIP 的零样本对抗鲁棒性的方法完全不同。我们在 16 个分类数据集上进行实验，并与从现有的对抗鲁棒性研究中改编的不依赖外部网络的测试时防御方法相比，展示了稳定且一致的收益，同时不会明显损害干净图像上的性能。我们还表明，我们的范例可以应用于经过对抗性微调的 CLIP 模型，以在测试时进一步增强其鲁棒性。

BEARD：用于数据集蒸馏的对抗鲁棒性基准测试
BEARD: Benchmarking the Adversarial Robustness for Dataset Distillation

论文链接

GitHub链接

BEARD Leaderboard

摘要：数据集蒸馏（Dataset Distillation，DD）是一种新兴技术，它将大规模数据集压缩为显著更小的合成数据集，同时保持较高的测试性能，并能够高效地训练大型模型。然而，当前的研究主要集中在有限压缩比下提高评估准确性，常常忽略了对抗鲁棒性等关键安全问题。评估这种鲁棒性的一个关键挑战在于蒸馏方法、模型架构和对抗攻击策略之间的复杂交互，这使得标准化评估变得复杂。为了解决这个问题，我们引入了 BEARD，这是一个开放且统一的基准，旨在系统地评估 DD 方法（包括 DM、IDM 和 BACON）的对抗鲁棒性。BEARD 涵盖了对 CIFAR10/100 和 TinyImageNet 等蒸馏数据集的各种对抗攻击（例如 FGSM、PGD、C&W）。利用对抗博弈框架，它引入了三个关键指标：鲁棒性比率（Robustness Ratio，RR）、攻击效率比率（Attack Efficiency Ratio，AE）和综合鲁棒性 - 效率指数（Comprehensive Robustness-Efficiency Index，CREI）。我们的分析包括统一的基准、各种每类图像（Images Per Class，IPC）设置以及对抗训练的效果。结果可在 BEARD Leaderboard 上获得，同时还有一个提供模型和数据集池的库，以支持可重复的研究。

通过多损失对抗搜索探索用于视觉语言模型越狱的视觉漏洞
Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models

论文链接

GitHub链接

摘要：尽管从基础语言模型继承了安全措施，但视觉语言模型（VLMs）可能仍然容易受到安全对齐问题的影响。通过实证分析，我们发现了两个关键结论：场景匹配的图像可以显著放大有害输出，并且与基于梯度的攻击中的常见假设相反，最小损失值并不能保证最佳攻击效果。基于这些见解，我们引入了 MLAI（多损失对抗图像），这是一种新颖的越狱框架，它利用场景感知图像生成进行语义对齐，利用平坦最小值理论进行稳健的对抗图像选择，并采用多图像协同攻击以提高效果。大量实验证明了 MLAI 的重大影响，在 MiniGPT-4 上实现了 77.75%的攻击成功率，在 LLaVA-2 上实现了 82.80%的攻击成功率，分别比现有方法大幅高出 34.37%和 12.77%。此外，MLAI 对商业黑盒 VLMs 显示出相当大的可转移性，成功率高达 60.11%。我们的工作揭示了当前 VLMs 安全机制中的基本视觉漏洞，并强调了需要更强的防御措施。

SceneTAP：现实世界环境中针对视觉语言模型的场景连贯的印刷体对抗规划器
SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments

论文链接

GitHub链接

摘要：大型视觉语言模型（LVLMs）在解释视觉内容方面表现出了卓越的能力。虽然现有工作表明这些模型容易受到故意放置的对抗性文本的攻击，但这些文本通常很容易被识别为异常。在本文中，我们提出了第一种生成场景连贯的印刷体对抗性攻击的方法，该方法通过基于大型语言模型（LLM）的代理的能力误导先进的 LVLMs，同时保持视觉自然性。我们的方法解决了三个关键问题：生成什么样的对抗性文本、将其放置在场景中的何处以及如何无缝集成。我们提出了一种无需训练、多模态的由 LLM 驱动的场景连贯的印刷体对抗性规划（SceneTAP），它采用三阶段过程：场景理解、对抗性规划和无缝集成。SceneTAP 利用思维链推理来理解场景、制定有效的对抗性文本、策略性地规划其放置位置，并提供在图像中自然集成的详细说明。接着是一个场景连贯的 TextDiffuser，它使用局部扩散机制执行攻击。我们通过打印并将生成的补丁放置在物理环境中，将我们的方法扩展到现实世界场景，展示了其实际意义。大量实验表明，我们的场景连贯的对抗性文本成功地误导了最先进的 LVLMs，包括 ChatGPT-4o，即使在捕获物理设置的新图像后也是如此。我们的评估表明，在保持视觉自然性和上下文适当性的同时，攻击成功率显著提高。这项工作突出了当前视觉语言模型对复杂的、场景连贯的对抗性攻击的脆弱性，并为潜在的防御机制提供了见解。

使用扰动伪造检测对抗性数据
Detecting Adversarial Data Using Perturbation Forgery

论文链接

GitHub链接

摘要：作为对抗攻击的一种防御策略，对抗性检测旨在根据自然数据和对抗性数据之间的分布差异和噪声模式差异，从数据流中识别并过滤出对抗性数据。尽管先前的检测方法在检测基于梯度的对抗攻击方面表现出色，但基于具有不平衡和各向异性噪声模式的生成模型的新攻击却能逃避检测。更糟糕的是，显著的推理时间开销和对未知攻击的有限性能使得现有技术在实际应用中不切实际。在本文中，我们探索了对抗性噪声分布之间的邻近关系，并证明了这些分布存在一个开覆盖。通过在对抗性噪声分布的开覆盖上进行训练，可以开发出一种对各种类型的未知攻击具有强大泛化性能的检测器。基于这一见解，我们启发式地提出了扰动伪造，它包括噪声分布扰动、稀疏掩码生成和伪对抗性数据生成，以训练一个能够检测任何未知的基于梯度、基于生成和物理对抗攻击的对抗性检测器。在多个通用和面部数据集上进行的综合实验，涵盖了广泛的攻击类型，验证了我们方法的强大泛化能力。

分治：基于扩散的对抗性净化中的异构噪声集成
Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial Purification

论文链接

GitHub链接

摘要：现有的基于扩散的净化方法旨在通过正向扩散过程引入一定量的噪声来破坏对抗性扰动，然后通过反向过程恢复干净的样本。然而，这种方法存在根本缺陷：正向过程在所有像素上的统一操作在对抗对抗性扰动时会损害正常像素，导致目标模型产生错误的预测。仅仅依赖低强度噪声不足以进行有效防御。为了解决这个关键问题，我们实施了一种基于神经网络可解释性的异构净化策略。我们的方法果断地将高强度噪声应用于目标模型关注的特定像素，而其余像素仅受到低强度噪声。这一要求促使我们重新设计扩散模型的采样过程，以便有效去除不同强度的噪声。此外，为了针对强适应性攻击评估我们的方法，我们提出的方法通过单步重采样大幅降低了时间成本和内存使用。来自三个数据集的大量实验的经验证据表明，我们的方法在很大程度上优于大多数当前的对抗训练和净化技术。

TAET：长尾分布上的两阶段对抗均衡训练
TAET: Two-Stage Adversarial Equalization Training on Long-Tailed Distributions

论文链接

GitHub链接

摘要：对抗鲁棒性在将深度神经网络部署于实际应用中仍然是一个重大挑战。尽管对抗训练被广泛认为是一种有前景的防御策略，但大多数现有研究主要集中在平衡数据集上，忽略了现实世界中的数据往往呈现出长尾分布这一事实，这给鲁棒性带来了巨大挑战。在本文中，我们对长尾分布背景下的对抗训练进行了深入分析，并确定了当前最先进的方法 AT-BSL 在这种情况下实现鲁棒性能的局限性。为了应对这些挑战，我们提出了一种新颖的训练框架 TAET，它包括一个初始稳定阶段，随后是一个分层的均衡对抗训练阶段。此外，先前关于长尾鲁棒性的工作在很大程度上忽略了一个关键评估指标——平衡准确率。为了填补这一空白，我们引入了平衡鲁棒性的概念，这是一种专门在长尾分布下测量鲁棒性的综合指标。大量实验表明，我们的方法优于现有的先进防御方法，在内存和计算效率方面都有显著提高。我们相信，这项工作在应对实际应用中的鲁棒性挑战方面迈出了重要的一步。

具有伪语义先验的无数据通用对抗性扰动
Data-free Universal Adversarial Perturbation with Pseudo-semantic Prior

论文链接

GitHub链接

摘要：无数据通用对抗扰动（UAP）是一种与图像无关的对抗攻击方式，它利用仅从随机噪声生成的单一扰动来欺骗深度神经网络，且不依赖任何数据先验信息。然而，传统的无数据UAP方法往往由于随机噪声中缺乏语义信息，导致其迁移性有限。为解决这一问题，我们提出了一种新颖的无数据通用攻击方法，该方法从UAP中递归生成伪语义先验，在无数据UAP框架内丰富语义内容。我们的方法基于这样一个观察结果：UAP本身固有潜在的语义信息，通过区域采样捕捉多种语义，可使生成的UAP作为替代数据先验。我们进一步引入样本重加权技术，聚焦受UAP影响较小的样本，突出难样本的重要性。利用伪语义先验中的语义信息，我们还融入了输入变换（通常在无数据UAP中因随机先验缺乏语义内容而效果不佳），以提升黑盒转移性。在ImageNet上进行的全面实验表明，我们的方法在平均愚弄率方面取得了显著领先的最先进性能，与现有的无数据UAP方法相比，显著提高了跨各种CNN架构的攻击转移性，甚至超越了依赖数据的UAP方法。

IDProtector：一种用于防止保留身份图像生成的对抗噪声编码器
IDProtector: An Adversarial Noise Encoder to Protect Against ID-Preserving Image Generation

论文链接

GitHub链接

摘要：最近，像 InstantID 这样的零样本方法彻底改变了保持身份的生成。与 DreamBooth 等多图像微调方法不同，这些零样本方法利用强大的面部编码器从单张肖像照片中提取身份信息，通过单次推理实现高效的保持身份的生成。然而，这种便利性给面部身份保护带来了新的威胁。本文旨在保护肖像照片免受未经授权的基于编码器的定制。我们引入了 IDProtector，这是一种对抗噪声编码器，可在单次前向传递中对肖像照片应用难以察觉的对抗噪声。我们的方法为肖像提供针对多种最先进的基于编码器的方法（包括 InstantID、IP-Adapter 和 PhotoMaker）的通用保护，同时确保对常见图像变换（如 JPEG 压缩、调整大小和仿射变换）具有鲁棒性。跨不同肖像数据集和生成模型的实验表明，IDProtector 对看不见的数据甚至闭源专有模型都能有效泛化。

真实世界图像超分辨率的对抗扩散压缩
Adversarial Diffusion Compression for Real-World Image Super-Resolution

论文链接

GitHub链接

摘要：真实世界图像超分辨率（Real-ISR）旨在从被复杂未知过程降质的低分辨率输入中重建高分辨率图像。虽然许多基于稳定扩散（Stable Diffusion，SD）的 Real-ISR 方法取得了显著成功，但它们缓慢的多步推理阻碍了实际部署。最近基于 SD 的单步网络，如 OSEDiff 和 S3Diff，缓解了这个问题，但由于依赖大型预训练 SD 模型，仍然产生了高昂的计算成本。本文在我们的对抗扩散压缩（Adversarial Diffusion Compression，ADC）框架下，通过将单步扩散网络 OSEDiff 提炼为一个精简的扩散生成对抗网络（diffusion-GAN）模型，提出了一种新颖的 Real-ISR 方法 AdcSR。我们仔细检查了 OSEDiff 的模块，将它们分为两类：（1）可移除的（VAE编码器、提示提取器、文本编码器等）和（2）可修剪的（去噪 U-Net 和VAE解码器）。由于直接移除和修剪可能会降低模型的生成能力，我们对修剪后的变分自编码器解码器进行预训练，以恢复其解码图像的能力，并采用对抗性提炼来补偿性能损失。这种基于 ADC 的扩散生成对抗网络混合设计在推理时间、计算量和参数方面分别有效地降低了 73%、78%和 74%的复杂性，同时保留了模型的生成能力。实验表明，我们提出的 AdcSR 在合成数据集和真实世界数据集上都实现了具有竞争力的恢复质量，与以前的单步基于扩散的方法相比，速度提高了高达 9.3 倍。

MOS-Attack：一种可扩展的多目标对抗攻击框架
MOS-Attack: A Scalable Multi-objective Adversarial Attack Framework

论文链接

GitHub链接

摘要：生成对抗样本对于评估和提高深度神经网络（DNNs）的鲁棒性至关重要，这带来了一个等同于最大化不可微的 0-1 损失函数的挑战。然而，现有的单目标方法，即对抗攻击，专注于替代损失函数，由于对多个损失函数的协同和冲突性质理解不足，未能充分利用使用多个损失函数的好处。为了克服这些限制，我们提出了基于多目标集合的攻击（MOS Attack），这是一种新颖的对抗攻击框架，利用多个损失函数并自动揭示它们之间的相互关系。MOS Attack 采用基于集合的多目标优化策略，能够在不增加额外参数的情况下纳入众多损失函数。它还能自动挖掘各种损失之间的协同模式，有助于用更少的目标生成强大的对抗攻击。大量实验表明，我们的 MOS Attack 优于单目标攻击。此外，通过利用已确定的协同模式，MOS Attack 在减少损失函数数量的情况下仍能继续显示出优越的结果。

攻击链：视觉语言模型对基于迁移的对抗攻击的鲁棒性
Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks

论文链接

GitHub链接

摘要：预训练视觉语言模型（VLMs）在图像和自然语言理解方面表现出了卓越的性能，例如图像字幕生成和响应生成。随着视觉语言模型的实际应用越来越广泛，其潜在的安全性和鲁棒性问题引起了人们的担忧，即对手可能会逃避系统，并通过恶意攻击使这些模型生成有害内容。因此，评估开源 VLMs 对对抗性攻击的鲁棒性越来越受到关注，其中基于迁移的攻击是一种具有代表性的黑盒攻击策略。然而，大多数现有的基于迁移的攻击忽略了视觉和文本模态之间语义相关性的重要性，导致对抗性样本生成和攻击性能欠佳。为了解决这个问题，我们提出了攻击链（CoA），它通过一系列中间攻击步骤，基于多模态语义更新迭代地增强对抗性样本的生成，实现了卓越的对抗性可迁移性和效率。此外，我们还提出了一种统一的攻击成功率计算方法用于自动逃避评估。在最现实和高风险的场景下进行的大量实验表明，我们的攻击策略可以仅使用黑盒攻击而无需了解受害模型的任何信息，有效地误导模型生成目标响应。我们论文中的综合鲁棒性评估提供了对 VLMs 漏洞的洞察，并为未来模型开发的安全考虑提供了参考。

基于对抗一致性蒸馏的即时对抗净化
Instant Adversarial Purification with Adversarial Consistency Distillation

论文链接

GitHub链接

摘要：神经网络尽管在包括图像分类在内的广泛应用中表现出色，但也容易受到细微的对抗性噪声的影响。尽管已经提出了一些基于扩散的净化方法，例如 DiffPure，但这些方法很耗时。在本文中，我们提出了一步控制净化（One Step Control Purification，OSCP），这是一种基于扩散的净化模型，可以在扩散模型的一次神经函数评估（Neural Function Evaluation，NFE）中净化对抗性图像。我们使用潜在一致性模型（Latent Consistency Model，LCM）和 ControlNet 进行一步净化。与其他基于扩散的净化方法相比，OSCP 在计算上更友好且时间效率更高；我们在 ImageNet 上实现了 74.19%的防御成功率，每次净化仅需 0.1 秒。此外，一致性蒸馏和对抗性扰动之间存在根本的不一致性。为了解决这种本体上的不和谐，我们提出了高斯对抗性噪声蒸馏（Gaussian Adversarial Noise Distillation，GAND），这是一种新颖的一致性蒸馏框架，有助于更细致地协调潜在空间动态，有效地弥合自然流形和对抗性流形之间的差距。我们的实验表明，GAND 不需要完全微调（Full Fine Tune，FFT）；参数高效微调（Parameter-Efficient Fine-Tuning，PEFT），例如 LoRA 就足够了。

通过打破不可见替代梯度实现对脉冲神经网络的有效且稀疏的对抗攻击
Towards Effective and Sparse Adversarial Attack on Spiking Neural Networks via Breaking Invisible Surrogate Gradients

论文链接

GitHub链接

摘要：脉冲神经网络（Spiking neural networks，SNNs）在处理低能耗的时空事件数据方面已显示出其能力。与传统的人工神经网络（Artificial neural networks，ANNs）类似，SNNs 也容易受到基于梯度的对抗攻击，其中梯度是通过时空反向传播（spatial-temporal back-propagation，STBP）和替代梯度（surrogate gradients，SGs）计算得出的。然而，对于仅用于推理的模型，SGs 可能是不可见的，因为它们不影响推理结果，并且当前基于梯度的攻击对于动态视觉传感器（Dynamic vision sensor，DVS）捕获的二进制动态图像无效。虽然一些方法通过通用 SGs 解决了不可见 SGs 的问题，但它们的 SGs 与受害模型缺乏相关性，导致性能欠佳。此外，现有的基于 SNN 的二进制攻击的不可感知性仍然不足。在本文中，我们引入了一种创新的潜在相关替代梯度（potential-dependent surrogate gradient，PDSG）方法，以在 SG 和模型之间建立强大的连接，从而提高具有不可见 SGs 的各种模型的对抗攻击的适应性。此外，我们提出了稀疏动态攻击（sparse dynamic attack，SDA）以有效地攻击二进制动态图像。利用生成-减少范式，SDA 可以充分优化对抗性扰动的稀疏性。实验结果表明，我们的 PDSG 和 SDA 在各种模型和数据集上优于最先进的基于 SNN 的攻击。具体而言，我们的 PDSG 在 ImageNet 上实现了 100％的攻击成功率，我们的 SDA 通过仅修改 CIFAR10DVS 上 0.24％的像素获得了 82％的攻击成功率。

Prompt2Perturb（P2P）：用于乳腺超声图像的基于文本引导扩散的对抗攻击
Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attack on Breast Ultrasound Images

论文链接

GitHub链接

摘要：深度神经网络（DNNs）在医学影像中为改善乳腺癌诊断带来了巨大希望。然而，这些模型极易受到对抗攻击——微小、难以察觉的变化可能误导分类器——这引发了对其可靠性和安全性的严重担忧。传统攻击依赖于固定范数的扰动，与人类感知不一致。相比之下，基于扩散的攻击需要预训练模型，在这些模型不可用时需要大量数据，这在数据稀缺的情况下限制了其实际应用。然而，在医学影像中，由于数据集的有限可用性，这通常是不可行的。基于可学习提示的最新进展，我们提出了 Prompt2Perturb（P2P），这是一种新颖的语言引导攻击方法，能够生成由文本指令驱动的有意义的攻击示例。在提示学习阶段，我们的方法利用文本编码器中的可学习提示来创建微妙但有影响力的扰动，这些扰动在引导模型朝向目标结果的同时保持难以察觉。与当前基于提示学习的方法相比，我们的 P2P 通过直接更新文本嵌入而脱颖而出，避免了重新训练扩散模型的需要。此外，我们利用仅优化早期反向扩散步骤可提高效率的发现，同时确保生成的对抗性示例包含微妙的噪声，从而在不引入明显伪影的情况下保持超声图像质量。我们表明，我们的方法在三个乳腺超声数据集上的 FID 和 LPIPS 指标方面优于最先进的攻击技术。此外，与现有的对抗攻击相比，生成的图像在外观上更自然且更有效。

无声品牌攻击：文生图扩散模型的无触发数据投毒攻击
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

论文链接

GitHub链接

摘要：文本到图像扩散模型在根据文本提示生成高质量内容方面取得了显著成功。然而，它们对公开可用数据的依赖以及用于微调的数据共享日益增长的趋势使得这些模型特别容易受到数据投毒攻击。在这项工作中，我们引入了无声品牌攻击，这是一种新颖的数据投毒方法，它操纵文本到图像扩散模型以生成包含特定品牌标志或符号的图像，而无需任何文本触发。我们发现，当某些视觉模式在训练数据中反复出现时，模型即使在没有提示提及的情况下也会自然地在其输出中重现它们。利用这一点，我们开发了一种自动化的数据投毒算法，该算法将标志不显眼地注入原始图像中，确保它们自然融合且不被检测到。在这个被投毒的数据集上训练的模型生成包含标志的图像，而不会降低图像质量或文本对齐。我们在大规模高质量图像数据集和风格个性化数据集的两种现实设置中对我们的无声品牌攻击进行了实验验证，即使没有特定的文本触发也能实现高成功率。人类评估和包括标志检测在内的定量指标表明，我们的方法可以偷偷地嵌入标志。

FedMIA：一种在联邦学习中利用“人人为我”原则的有效成员推理攻击。
FedMIA: An Effective Membership Inference Attack Exploiting "All for One" Principle in Federated Learning

论文链接

GitHub链接

摘要：联邦学习（Federated Learning，FL）是一种很有前景的方法，可在保护隐私的同时对分散的数据进行机器学习模型训练。然而，隐私风险，特别是成员推理攻击（Membership Inference Attacks，MIAs），其旨在确定特定数据点是否属于目标客户端的训练集，仍然是一个重大问题。联邦学习中现有的实现成员推理攻击的方法主要分析来自目标客户端的更新，重点关注诸如损失、梯度范数和梯度差等指标。但是，这些方法未能利用来自非目标客户端的更新，可能未充分利用可用信息。在本文中，我们首先基于非目标客户端的更新可能性制定了一个单尾似然比假设检验。在此基础上，我们引入了一种三步成员推理攻击（Membership Inference Attack，MIA）方法，称为 FedMIA，它遵循“人人为我”原则——利用来自多个通信回合中所有客户端的更新来提高成员推理攻击的有效性。理论分析和大量实验结果均表明，FedMIA 在分类和生成任务中均优于现有的成员推理攻击。此外，它可以作为现有方法的扩展进行集成，并且对各种防御策略、非独立同分布（Non-IID）数据和不同的联邦结构具有鲁棒性。

从域偏移角度重新审视针对大型视觉语言模型的后门攻击
Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift

论文链接

GitHub链接

摘要：指令微调增强了大型视觉语言模型（LVLMs），但由于其开放设计，增加了它们对后门攻击的脆弱性。与先前在静态设置下的研究不同，本文探索了在不匹配的训练和测试域中对 LVLM 指令微调的后门攻击。我们引入了一个新的评估维度，即后门域泛化，以评估在视觉和文本域偏移下攻击的鲁棒性。我们的发现揭示了两个见解：（1）当独特的触发模式独立于特定数据域或模型架构时，后门的泛化能力得到提高；（2）触发模式与干净语义区域之间的竞争交互，其中引导模型预测触发可以增强攻击的泛化能力。基于这些见解，我们提出了一种多模态归因后门攻击（MABA），它使用归因解释将与域无关的触发注入关键区域。对 OpenFlamingo、Blip-2 和 Otter 的实验表明，MABA 显著将泛化攻击成功率提高了 36.4%，在 0.2%的中毒率下实现了 97%的成功率。这项研究揭示了当前评估的局限性，并强调了增强的后门泛化能力如何对 LVLMs 构成安全威胁，即使在没有测试数据访问的情况下。

针对扩散模型语义水印的黑盒伪造攻击
Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models

论文链接

GitHub链接

摘要：将水印集成到潜在扩散模型（LDMs）的生成过程中，简化了生成内容的检测和归因。语义水印，如 Tree-Rings 和 Gaussian Shading，代表了一类新颖的水印技术，易于实现且对各种扰动具有高度鲁棒性。然而，我们的工作揭示了语义水印的一个基本安全漏洞。我们表明，攻击者可以利用不相关的模型，即使具有不同的潜在空间和架构（UNet 与 DiT），来进行强大而逼真的伪造攻击。具体来说，我们设计了两种水印伪造攻击。第一种通过在不相关的 LDM 中操纵任意图像的潜在表示以接近带水印图像的潜在表示，将目标水印印入真实图像中。我们还表明，该技术可用于水印去除。第二种攻击通过反转带水印的图像并用任意提示重新生成它来生成带有目标水印的新图像。两种攻击都只需要一张带有目标水印的参考图像。总体而言，我们的发现通过揭示攻击者在现实条件下可以轻松伪造或去除这些水印，对语义水印的适用性提出了质疑。

UIBDiffusion：扩散模型的通用不可察觉后门攻击
UIBDiffusion: Universal Imperceptible Backdoor Attack for Diffusion Models

论文链接

GitHub链接

摘要：近期研究表明，扩散模型（DMs）易受后门攻击。现有的后门攻击采用不加掩饰的触发器（例如，一个灰色盒子和眼镜），这些触发器包含明显的模式，虽然能产生显著的攻击效果，但很容易被人类检查和防御算法检测到。虽然可以通过降低后门的强度来提高隐蔽性，但这样做会大大损害其通用性和有效性。在本文中，我们提出了 UIBDiffusion，即扩散模型的通用不可察觉后门攻击，它使我们能够在逃避最先进的防御的同时实现卓越的攻击和生成性能。我们提出了一种基于通用对抗性扰动（UAPs）的新颖触发器生成方法，并揭示了这些最初为欺骗预训练的判别模型而设计的扰动可以被调整为对 DMs 有效的强大的不可察觉后门触发器。我们在各种数据集和目标上对具有不同类型采样器的多种类型的 DMs 评估 UIBDiffusion。实验结果表明，UIBDiffusion 具有三个优点：1）通用性，不可察觉的触发器是通用的（即，与图像和模型无关），其中单个触发器对任何图像和具有不同采样器的所有扩散模型都有效；2）实用性，与先前的工作相比，在低毒害率下，它实现了相当的生成质量（例如，FID），甚至更好的攻击成功率（即，ASR）；3）不可检测性，UIBDiffusion 对人类感知来说是合理的，并且可以绕过 Elijah 和 TERD，这是针对 DMs 后门的最先进防御。

利用特征微调混合改进迁移性目标性攻击
Improving Transferable Targeted Attacks with Feature Tuning Mixup

论文链接

GitHub链接

摘要：深度神经网络容易受到对抗样本的攻击，这些对抗样本可以在不同模型之间迁移。一个特别具有挑战性的问题是开发可迁移的目标性攻击，这种攻击可以误导模型预测特定的目标类别。虽然已经提出了各种方法来提高攻击的可迁移性，但它们往往会产生巨大的计算成本，同时改进有限。最近的干净特征混合方法使用随机的干净特征来扰动特征空间，但缺乏针对破坏对抗样本的优化，忽略了特定于攻击的扰动的优势。在本文中，我们提出了特征调谐混合（FTM），这是一种通过在特征空间中结合随机噪声和优化噪声来提高目标性攻击可迁移性的新方法。FTM 引入了可学习的特征扰动，并采用有效的随机更新策略进行优化。这些可学习的扰动有助于生成更强大的对抗样本，提高可迁移性。我们进一步证明，通过多个经过 FTM 扰动的代理模型的集成，可以提高攻击性能。在与 ImageNet 兼容的数据集上对各种模型进行的大量实验表明，我们的方法在保持低计算成本的同时，比最先进的方法有显著的改进。

通过多轮一致性对联邦学习的模型投毒攻击
Model Poisoning Attacks to Federated Learning via Multi-Round Consistency

论文链接

GitHub链接

摘要：模型投毒攻击是对联邦学习（FL）的重大安全威胁。现有的模型投毒攻击存在两个关键局限性：1）在部署防御措施时，它们的有效性欠佳；2）它们需要了解真实客户端上的模型更新或本地训练数据。在这项工作中，我们做出了一个关键观察，即它们的次优有效性源于仅在单个训练轮次中利用恶意客户端之间的模型更新一致性，使得攻击效果在训练轮次之间自我抵消。鉴于此观察结果，我们提出了 PoisonedFL，它在恶意客户端的模型更新之间强制实施多轮一致性，同时不需要关于真实客户端的任何知识。我们在五个基准数据集上的实证评估表明，PoisonedFL 突破了八种最先进的防御措施，并优于七种现有的模型投毒攻击。此外，我们还探索了针对 PoisonedFL 定制的新防御措施，但我们的结果表明，我们仍然可以调整 PoisonedFL 来突破它们。我们的研究表明，FL 系统的稳健性远低于先前的预期，这凸显了开发新防御机制的紧迫性。

针对大型视觉语言模型的自监督学习视觉编码器中的隐形后门攻击
Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models

论文链接

GitHub链接

摘要：自监督学习（SSL）视觉编码器学习高质量的图像表示，因此已成为开发大型视觉语言模型（LVLMs）视觉模态的重要组成部分。由于训练此类编码器的成本很高，预训练的编码器被广泛共享并部署到许多对安全至关重要或具有社会意义的 LVLMs 中。在这种实际情况下，我们揭示了一种新的后门威胁，即仅通过破坏视觉编码器就可以在这些 LVLMs 中引发显著的视觉幻觉。由于这些编码器的共享和重用，许多下游 LVLMs 可能从编码器继承后门行为，从而导致广泛的后门。在这项工作中，我们提出了 BADVISION，这是第一种利用 LVLMs 的 SSL 视觉编码器中的此漏洞的方法，采用了新颖的触发优化和后门学习技术。我们在两种类型的 SSL 编码器和 LVLMs 上跨八个基准进行了 BADVISION 的评估。我们表明，BADVISION 有效地将 LVLMs 驱动到攻击者选择的幻觉，攻击成功率超过 99%，同时在保持隐蔽性的情况下造成 77.6%的相对视觉理解误差。最先进的后门检测方法无法有效检测到我们的攻击。

黑暗中的内斗：联邦学习中的多标签后门攻击
Infighting in the Dark: Multi-Label Backdoor Attack in Federated Learning

论文链接

GitHub链接

摘要：联邦学习（FL）是一种保护隐私的去中心化机器学习框架，已被证明容易受到后门攻击。当前的研究主要集中在单标签后门攻击（SBA）上，其中攻击者具有一致的目标。然而，一个关键事实被忽略了：攻击者可能不合作，具有不同的目标，并独立操作，这呈现出一种更实际的场景，称为多标签后门攻击（MBA）。不幸的是，由于非合作攻击者相互排斥，先前的工作在 MBA 场景中是无效的。在这项工作中，我们进行了深入的调查，以揭示这种排斥的内在限制：为不同的目标构建类似的后门映射，导致后门功能之间的冲突。为了解决这个限制，我们提出了 Mirage，这是联邦学习中第一个非合作 MBA 策略，通过构建分布内（ID）后门映射，允许攻击者在无需串通的情况下将有效且持久的后门注入到全局模型中。具体来说，我们引入了一种对抗适应方法，以 ID 方式桥接后门特征和目标分布。此外，我们还进一步利用一种约束优化方法，以确保 ID 映射在全局训练动态中存活。广泛的评估表明，Mirage 优于各种最先进的攻击，并绕过现有的防御，实现平均攻击成功率大于 97%，并在 900 轮后保持 90%以上。这项工作旨在提醒研究人员注意这种潜在威胁，并激发有效防御机制的设计。

无法阻挡我：针对边缘设备的时延攻击学习鲁棒且硬件自适应的目标检测器
Can't Slow me Down: Learning Robust and Hardware-Adaptive Object Detectors against Latency Attacks for Edge Devices

论文链接

GitHub链接

摘要：目标检测是许多实时下游应用（如自动驾驶、增强现实和供应链管理）的基本推动因素。然而，神经网络的算法骨干对系统输入中难以察觉的扰动很脆弱，这些扰动通常被称为错误分类攻击。最近出现了一类新的时延攻击，其针对实时处理能力。它们通过在后处理模块中制造计算瓶颈，利用目标检测器中的新攻击面，导致级联故障并使实时下游任务面临风险。在这项工作中，我们通过对背景敏感的对抗训练（也考虑底层硬件能力）对这种攻击进行了初步尝试防御。我们首先在异构 GPU 设备之间建立时延攻击与硬件容量之间的系统级联系。基于特定的对抗行为，我们将目标性损失用作代理，并将背景注意力构建到对抗训练管道中，在干净准确性和鲁棒准确性之间实现合理平衡。大量实验表明，在 Jetson Orin NX 上，将实时处理能力从 13 FPS 恢复到 43 FPS，证明了防御的有效性，并且在干净准确性和鲁棒准确性之间有更好的权衡。

NoPain：基于最优传输奇异边界的无盒点云攻击
NoPain: No-box Point Cloud Attack via Optimal Transport Singular Boundary

论文链接

GitHub链接

摘要：对抗攻击利用深度模型对对抗样本的脆弱性。现有的点云攻击者是针对特定模型定制的，在白盒或黑盒设置下基于梯度迭代地优化扰动。尽管它们具有良好的攻击性能，但由于过度拟合代理模型的特定参数，它们通常难以生成可迁移的对抗样本。为了克服这个问题，我们将焦点转移到数据分布本身，并引入一种名为 NoPain 的新方法，该方法利用最优传输（OT）来识别数据流形的固有奇异边界，以进行跨网络点云攻击。具体来说，我们首先计算从噪声到目标特征空间的 OT 映射，然后通过定位不可微位置来识别奇异边界。最后，我们沿着奇异边界采样以生成对抗点云。一旦确定了奇异边界，NoPain 可以高效地生成对抗样本，而无需迭代更新或来自代理分类器的指导。大量实验表明，所提出的端到端方法在可迁移性和效率方面均优于基线方法，并且即使在面对防御策略时也保持显著优势。

通过方向对齐检查检测联邦学习中的后门攻击
Detecting Backdoor Attacks in Federated Learning via Direction Alignment Inspection

论文链接

GitHub链接

摘要：训练的分布式特性使联邦学习（FL）容易受到后门攻击，在后门攻击中，恶意的模型更新旨在损害全局模型在特定任务上的性能。现有的防御方法效果有限，因为它们忽略了良性和恶意模型更新在一般和细粒度方向上的不一致性。为了填补这一空白，我们引入了 AlignIns，这是一种旨在保护 FL 系统免受后门攻击的新型防御方法。AlignIns 通过方向对齐检查过程来研究每个模型更新的方向。具体来说，它检查模型更新与整体更新方向的对齐情况，并分析其重要参数的符号分布，与所有模型更新中的主要符号进行比较。表现出异常程度对齐的模型更新被认为是恶意的，因此会被过滤掉。我们提供了 AlignIns 的鲁棒性及其在联邦学习中的传播误差的理论分析。我们在独立同分布（IID）和非独立同分布的数据集上的实证结果表明，与最先进的防御方法相比，AlignIns 实现了更高的鲁棒性。

Edit Away and My Face Will not Stay：恶意生成编辑下的个人生物特征防御
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

论文链接

GitHub链接

摘要：扩散模型的最新进展使生成式图像编辑比以往任何时候都更容易。虽然这些发展让用户能够轻松地进行创造性编辑，但它们也引发了重大的伦理问题，特别是关于对人物肖像的恶意编辑，这威胁到个人的隐私和身份安全。现有的通用图像保护方法主要侧重于生成对抗性扰动来抵消编辑效果。然而，这些方法在防范各种编辑请求时往往表现出不稳定性。在这项工作中，我们为防止恶意编辑个人人物肖像引入了一种新颖的视角。与旨在阻止编辑生效的传统方法不同，我们的方法 FACELOCK 优化对抗性扰动，以确保原始生物特征信息（如面部特征）在编辑后要么被破坏，要么被大幅改变，使得编辑输出中的对象在生物特征上无法识别。我们的方法创新性地将人脸识别和视觉感知因素集成到扰动优化过程中，确保对各种编辑尝试提供强大的保护。此外，我们揭示了图像编辑中常用评估指标的几个关键问题，并揭示了容易被操纵的作弊方法，从而导致对保护的欺骗性评估。通过广泛的实验，我们证明 FACELOCK 在防御各种恶意编辑方面的性能显著优于所有基线。此外，我们的方法对净化技术也表现出很强的鲁棒性。全面的消融研究证实了我们的方法在各种基于扩散的编辑算法中的稳定性和广泛适用性。我们的工作不仅推进了生物特征防御的最先进技术，还为图像编辑中更安全和保护隐私的实践奠定了基础。

Saliuitl：基于集成显著度引导恢复针对 CNN 的对抗图块
Saliuitl: Ensemble Salience Guided Recovery of Adversarial Patches against CNNs

论文链接

GitHub链接

摘要：

在攻击-防御博弈中重新思考多出口神经网络的对抗鲁棒性
Rethinking the Adversarial Robustness of Multi-Exit Neural Networks in an Attack-Defense Game

论文链接

GitHub链接

摘要：

ProjAttacker：一种通过投影仪实现的用于人脸识别的可配置物理对抗攻击
ProjAttacker: A Configurable Physical Adversarial Attack for Face Recognition via Projector | 对抗攻击

论文链接

GitHub链接

摘要：

T-CIL：类增量学习中使用对抗性扰动进行温度缩放校准。
T-CIL: Temperature Scaling using Adversarial Perturbation for Calibration in Class-Incremental Learning

论文链接

GitHub链接

摘要：

一种统一、有适应性且可解释的对抗性图块检测器
A Unified, Resilient, and Explainable Adversarial Patch Detector

论文链接

GitHub链接

摘要：

PatchDEMUX：一种针对对抗性图块的多标签分类器的可证明鲁棒框架
PatchDEMUX: A Certifiably Robust Framework for Multi-label Classifiers Against Adversarial Patches

论文链接

GitHub链接

摘要：

A3：通过跨模态对抗特征对齐实现不可学习样本的小样本提示学习
A3: Few-shot Prompt Learning of Unlearnable Examples with Cross-Modal Adversarial Feature Alignment

论文链接

GitHub链接

摘要：

利用单个模型训练的 Checkpoint 增强对抗迁移性
Enhancing Adversarial Transferability with Checkpoints of a Single Model’s Training

论文链接

GitHub链接

摘要：

R-TPT：通过测试时提示微调提高视觉语言模型的对抗鲁棒性
R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning

论文链接

GitHub链接

摘要：

利用全局-局部协同对抗性扰动实现反定制化
Harnessing Global-local Collaborative Adversarial Perturbation for Anti-Customization

论文链接

GitHub链接

摘要：

从邻近中获益：通过对邻近类别进行对抗性扰动提高野外模型的鲁棒性
Gain from Neighbors: Boosting Model Robustness in the Wild via Adversarial Perturbations Toward Neighboring Classes

论文链接

GitHub链接

摘要：

通过假设空间增强提升对抗迁移性
Boosting Adversarial Transferability through Augmentation in Hypothesis Space

论文链接

GitHub链接

摘要：

沉默是金：在基于潜在扩散模型（LDM）的虚拟头像生成中利用对抗样本使音频控制无效
Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation

论文链接

GitHub链接

摘要：

对抗领域提示微调与生成以实现单领域泛化
Adversarial Domain Prompt Tuning and Generation for Single Domain Generalization

论文链接

GitHub链接

摘要：

PatchGuard：通过视觉Transformer和伪异常实现具有对抗鲁棒性的异常检测与定位
PatchGuard: Adversarially Robust Anomaly Detection and Localization through Vision Transformers and Pseudo Anomalies

论文链接

GitHub链接

摘要：

视觉语言模型的零样本对抗鲁棒性：一种真正的零样本且无需训练的方法
On the Zero-shot Adversarial Robustness of Vision-Language Models: A Truly Zero-shot and Training-free Approach

论文链接

GitHub链接

摘要：

RAEncoder：一种用于数据集知识产权保护的无标签可逆对抗样本编码器
RAEncoder: A Label-Free Reversible Adversarial Examples Encoder for Dataset Intellectual Property Protection

论文链接

GitHub链接

摘要：

眼见未必为实：用于硬标签三维场景攻击的对抗性自然目标优化
Seeing is Not Believing: Adversarial Natural Object Optimization for Hard-Label 3D Scene Attacks

论文链接

GitHub链接

摘要：

通过多样化参数增强提高人脸识别中对抗攻击的可迁移性
Improving the Transferability of Adversarial Attacks on Face Recognition with Diverse Parameters Augmentation

论文链接

GitHub链接

摘要：

提升 GNeRFs 的对抗鲁棒性：IL2-NeRF 攻击
Advancing Adversarial Robustness in GNeRFs: The IL2-NeRF Attack

论文链接

GitHub链接

摘要：

分身与对抗性漏洞
Doppelgängers and Adversarial Vulnerability

论文链接

GitHub链接

摘要：

“你的缩放因子是我的武器：通过缩放因子操纵对视觉 Transformer 进行目标性位翻转攻击”。
Your Scale Factors are My Weapon: Targeted Bit-Flip Attacks on Vision Transformers via Scale Factor Manipulation

论文链接

GitHub链接

摘要：

ACAttack：通过多模态响应解耦自适应交叉攻击 RGB-T 跟踪器
ACAttack: Adaptive Cross Attacking RGB-T Tracker via Multi-Modal Response Decoupling

论文链接

GitHub链接

摘要：

针对参数高效微调的梯度反转攻击
Gradient Inversion Attacks on Parameter-Efficient Fine-Tuning

论文链接

GitHub链接

摘要：

具有任意扰动的图神经网络抗投毒攻击的确定性认证
Deterministic Certification of Graph Neural Networks against Poisoning Attacks with Arbitrary Perturbations

论文链接

GitHub链接

摘要：

针对大规模图像描述模型的基于方差的成员推理攻击
Variance-Based Membership Inference Attacks Against Large-Scale Image Captioning Models

论文链接

GitHub链接

摘要：

通过优化驱动的多帧扰动框架实现自动驾驶中的持久、高效且稳健的轨迹预测攻击
Enduring, Efficient and Robust Trajectory Prediction Attack in Autonomous Driving via Optimization-Driven Multi-Frame Perturbation Framework

论文链接

GitHub链接

摘要：

针对自监督学习的隐形后门攻击
Invisible Backdoor Attack against Self-supervised Learning

论文链接

GitHub链接

摘要：

BadToken：针对多模态大语言模型的标记级后门攻击
BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models

论文链接

GitHub链接

摘要：

从头到尾：通过长尾学习实现高效的黑盒模型逆向攻击
From Head to Tail: Efficient Black-box Model Inversion Attack via Long-tailed Learning

论文链接

GitHub链接

摘要：模型逆攻击（Model Inversion Attacks，MIAs）旨在从模型中重建私有训练数据，从而导致隐私泄露，特别是在人脸识别系统中。尽管许多研究提高了白盒 MIAs 的有效性，但在攻击者能力有限的情况下，对提高效率和实用性的关注较少。现有的黑盒 MIAs 需要不切实际的大量查询，从而产生显著的开销。因此，我们分析了现有 MIAs 的局限性，并引入了具有长尾增强的代理模型逆攻击（Surrogate Modelbased Inversion with Long-tailed Enhancement，SMILE），这是一种面向高分辨率且查询高效的黑盒设置下的 MIA。我们首先从数据分布的角度分析 MIAs 的初始化，并提出一种长尾代理训练方法以获得高质量的初始点。然后，我们通过采用由 NGOpt 选择的无梯度黑盒优化算法来提高攻击的有效性。我们的实验表明，SMILE 优于现有的最先进的黑盒 MIAs，同时仅需要约 5%的查询开销。

针对文生图扩散模型的隐式偏差注入攻击
Implicit Bias Injection Attacks against Text-to-Image Diffusion Models

论文链接

GitHub链接

摘要：

两个比一个好：高效的鲁棒紧凑模型集成防御
Two is Better than One: Efficient Ensemble Defense for Robust and Compact Models

论文链接

GitHub链接

摘要：

CVPR2025 | 对抗样本&智能安全方向论文汇总 | 持续更新中~

评论记录：