本文详细介绍了多步骤的排版攻击管道,包括攻击自动生成和攻击增强。本文详细介绍了多步骤的排版攻击管道,包括攻击自动生成和攻击增强。

对抗性攻击生成方法论:使用指令误导视觉-大语言模型

2025/10/01 03:00

摘要和1. 引言

  1. 相关工作

    2.1 视觉-大语言模型

    2.2 可迁移对抗攻击

  2. 预备知识

    3.1 回顾自回归视觉-大语言模型

    3.2 基于视觉-大语言模型的自动驾驶系统中的印刷攻击

  3. 方法论

    4.1 印刷攻击的自动生成

    4.2 印刷攻击的增强

    4.3 印刷攻击的实现

  4. 实验

  5. 结论和参考文献

4 方法论

图1展示了我们印刷攻击流程的概述,该流程从提示工程到攻击标注,特别是通过攻击自动生成、攻击增强和攻击实现步骤。我们在以下小节中描述每个步骤的详细信息。

4.1 印刷攻击的自动生成

\ 为了生成有效的误导,对抗模式必须与现有问题保持一致,同时引导大语言模型给出错误答案。我们可以通过一个称为指令的概念来实现这一点,指令是指为大语言模型(如ChatGPT)配置目标,以施加特定约束同时鼓励多样化行为。在我们的上下文中,我们指导大语言模型生成ˆa作为给定答案a的相反,在给定问题q的约束下。因此,我们可以使用图2中的以下提示初始化对大语言模型的指令,

\ 图1:我们提出的流程是从通过指令生成攻击到通过命令和连接词增强,再到定位攻击并最终影响推理。

\ 图2:攻击生成约束的上下文指令。

\ 在生成攻击时,我们会根据问题类型施加额外的约束。在我们的上下文中,我们专注于以下任务:❶场景推理(如计数),❷场景对象推理(如识别),以及❸动作推理(如动作推荐),如图3所示,

\ 图3:攻击生成的模板指令和示例。

\ 这些指令鼓励大语言模型生成通过文本到文本对齐影响视觉-大语言模型推理步骤的攻击,并自动生成作为基准攻击的印刷模式。显然,上述印刷攻击仅适用于单任务场景,即单个问题和答案对。为了研究与多个对相关的多任务漏洞,我们还可以将公式推广到K对问题和答案,表示为qi,ai,以获得对抗性文本aˆi,其中i∈[1,K]。

\

:::info 作者

(1) Nhat Chung,新加坡A*STAR的CFAR和IHPC,以及越南VNU-HCM;

(2) Sensen Gao,新加坡A*STAR的CFAR和IHPC,以及中国南开大学;

(3) Tuan-Anh Vu,新加坡A*STAR的CFAR和IHPC,以及香港特别行政区香港科技大学;

(4) Jie Zhang,新加坡南洋理工大学;

(5) Aishan Liu,中国北京航空航天大学;

(6) Yun Lin,中国上海交通大学;

(7) Jin Song Dong,新加坡国立大学;

(8) Qing Guo,新加坡A*STAR的CFAR和IHPC,以及新加坡国立大学。

:::


:::info 本论文可在arxiv上获取,遵循CC BY 4.0 DEED许可。

:::

\

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。