摘要和1. 引言
相关工作
2.1 视觉-大语言模型
2.2 可迁移对抗攻击
预备知识
3.1 回顾自回归视觉-大语言模型
3.2 基于视觉-大语言模型的自动驾驶系统中的印刷攻击
方法论
4.1 印刷攻击的自动生成
4.2 印刷攻击的增强
4.3 印刷攻击的实现
实验
结论和参考文献
图1展示了我们印刷攻击流程的概述,该流程从提示工程到攻击标注,特别是通过攻击自动生成、攻击增强和攻击实现步骤。我们在以下小节中描述每个步骤的详细信息。

\ 为了生成有效的误导,对抗模式必须与现有问题保持一致,同时引导大语言模型给出错误答案。我们可以通过一个称为指令的概念来实现这一点,指令是指为大语言模型(如ChatGPT)配置目标,以施加特定约束同时鼓励多样化行为。在我们的上下文中,我们指导大语言模型生成ˆa作为给定答案a的相反,在给定问题q的约束下。因此,我们可以使用图2中的以下提示初始化对大语言模型的指令,
\ 
\ 
\ 在生成攻击时,我们会根据问题类型施加额外的约束。在我们的上下文中,我们专注于以下任务:❶场景推理(如计数),❷场景对象推理(如识别),以及❸动作推理(如动作推荐),如图3所示,
\ 
\ 这些指令鼓励大语言模型生成通过文本到文本对齐影响视觉-大语言模型推理步骤的攻击,并自动生成作为基准攻击的印刷模式。显然,上述印刷攻击仅适用于单任务场景,即单个问题和答案对。为了研究与多个对相关的多任务漏洞,我们还可以将公式推广到K对问题和答案,表示为qi,ai,以获得对抗性文本aˆi,其中i∈[1,K]。
\
:::info 作者:
(1) Nhat Chung,新加坡A*STAR的CFAR和IHPC,以及越南VNU-HCM;
(2) Sensen Gao,新加坡A*STAR的CFAR和IHPC,以及中国南开大学;
(3) Tuan-Anh Vu,新加坡A*STAR的CFAR和IHPC,以及香港特别行政区香港科技大学;
(4) Jie Zhang,新加坡南洋理工大学;
(5) Aishan Liu,中国北京航空航天大学;
(6) Yun Lin,中国上海交通大学;
(7) Jin Song Dong,新加坡国立大学;
(8) Qing Guo,新加坡A*STAR的CFAR和IHPC,以及新加坡国立大学。
:::
:::info 本论文可在arxiv上获取,遵循CC BY 4.0 DEED许可。
:::
\