本文詳細介紹了多步驟的排版攻擊流程,包括攻擊自動生成和攻擊增強。本文詳細介紹了多步驟的排版攻擊流程,包括攻擊自動生成和攻擊增強。

對抗性攻擊生成方法論:使用指令誤導視覺-LLMs

2025/10/01 03:00

摘要和 1. 引言

  1. 相關工作

    2.1 視覺-大型語言模型

    2.2 可遷移對抗攻擊

  2. 預備知識

    3.1 重新審視自迴歸視覺-大型語言模型

    3.2 基於視覺-大型語言模型的自動駕駛系統中的印刷攻擊

  3. 方法論

    4.1 印刷攻擊的自動生成

    4.2 印刷攻擊的增強

    4.3 印刷攻擊的實現

  4. 實驗

  5. 結論和參考文獻

4 方法論

圖 1 展示了我們印刷攻擊流程的概述,從提示工程到攻擊註釋,特別是通過攻擊自動生成、攻擊增強和攻擊實現步驟。我們在以下小節中描述每個步驟的詳細內容。

4.1 印刷攻擊的自動生成

\ 為了生成有效的誤導,對抗模式必須與現有問題保持一致,同時引導大型語言模型朝向錯誤答案。我們可以通過一個稱為指令的概念來實現這一點,指令是指為大型語言模型(如 ChatGPT)配置目標,以施加特定約束同時鼓勵多樣化行為。在我們的情境中,我們指導大型語言模型生成 ˆa 作為給定答案 a 的相反,在給定問題 q 的約束下。因此,我們可以使用圖 2 中的以下提示來初始化對大型語言模型的指令,

\ 圖 1:我們提出的流程是從通過指令生成攻擊到通過命令和連接詞增強,再到定位攻擊並最終影響推理。

\ 圖 2:攻擊生成約束的上下文指令。

\ 在生成攻擊時,我們會根據問題類型施加額外的約束。在我們的情境中,我們專注於 ❶ 場景推理(如計數)、❷ 場景物體推理(如識別)和 ❸ 行動推理(如行動建議)等任務,如圖 3 所示,

\ 圖 3:攻擊生成的模板指令和一個示例。

\ 這些指令鼓勵大型語言模型生成能夠通過文本到文本對齊影響視覺-大型語言模型推理步驟的攻擊,並自動生成作為基準攻擊的印刷模式。顯然,上述印刷攻擊僅適用於單任務場景,即單一問題和答案對。為了調查關於多個對的多任務漏洞,我們還可以將公式推廣到 K 對問題和答案,表示為 qi、ai,以獲得對抗性文本 aˆi,其中 i ∈ [1, K]。

\

:::info 作者

(1) Nhat Chung,新加坡 A*STAR 的 CFAR 和 IHPC,以及越南 VNU-HCM;

(2) Sensen Gao,新加坡 A*STAR 的 CFAR 和 IHPC,以及中國南開大學;

(3) Tuan-Anh Vu,新加坡 A*STAR 的 CFAR 和 IHPC,以及香港特別行政區香港科技大學;

(4) Jie Zhang,新加坡南洋理工大學;

(5) Aishan Liu,中國北京航空航天大學;

(6) Yun Lin,中國上海交通大學;

(7) Jin Song Dong,新加坡國立大學;

(8) Qing Guo,新加坡 A*STAR 的 CFAR 和 IHPC,以及新加坡國立大學。

:::


:::info 本論文可在 Arxiv 上獲取,採用 CC BY 4.0 DEED 許可證。

:::

\

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

您可能也會喜歡