Dieser Artikel beschreibt die mehrstufige Pipeline für typografische Angriffe, einschließlich Angriffs-Autogenerierung und Angriffs-Augmentation.Dieser Artikel beschreibt die mehrstufige Pipeline für typografische Angriffe, einschließlich Angriffs-Autogenerierung und Angriffs-Augmentation.

Methodik zur Generierung von Adversarial Attacks: Verwendung von Direktiven zur Irreführung von Vision-LLMs

Abstrakt und 1. Einleitung

  1. Verwandte Arbeiten

    2.1 Vision-LLMs

    2.2 Übertragbare gegnerische Angriffe

  2. Grundlagen

    3.1 Überprüfung von Auto-Regressiven Vision-LLMs

    3.2 Typografische Angriffe in Vision-LLMs-basierten AD-Systemen

  3. Methodik

    4.1 Auto-Generierung von typografischen Angriffen

    4.2 Erweiterungen von typografischen Angriffen

    4.3 Realisierungen von typografischen Angriffen

  4. Experimente

  5. Fazit und Referenzen

4 Methodik

Abbildung 1 zeigt einen Überblick über unsere Pipeline für typografische Angriffe, die vom Prompt-Engineering zur Angriffsannotation führt, insbesondere durch die Schritte der Auto-Generierung von Angriffen, Angriffserweiterung und Angriffsrealisierung. Wir beschreiben die Details jedes Schritts in den folgenden Unterabschnitten.

4.1 Auto-Generierung von typografischen Angriffen

\ Um nützliche Fehlleitungen zu erzeugen, müssen die gegnerischen Muster mit einer bestehenden Frage übereinstimmen und gleichzeitig das LLM zu einer falschen Antwort führen. Wir können dies durch ein Konzept namens Direktive erreichen, das sich auf die Konfiguration des Ziels für ein LLM, z.B. ChatGPT, bezieht, um spezifische Einschränkungen aufzuerlegen und gleichzeitig vielfältige Verhaltensweisen zu fördern. In unserem Kontext weisen wir das LLM an, ˆa als Gegenteil der gegebenen Antwort a zu generieren, unter der Einschränkung der gegebenen Frage q. Daher können wir Direktiven für das LLM mit den folgenden Prompts in Abb. 2 initialisieren,

\ Abbildung 1: Unsere vorgeschlagene Pipeline reicht von der Angriffsgenerierung über Direktiven zur Erweiterung durch Befehle und Konjunktionen bis zur Positionierung der Angriffe und schließlich zur Beeinflussung der Inferenz.

\ Abbildung 2: Kontext-Direktive für Einschränkungen der Angriffsgenerierung.

\ Bei der Generierung von Angriffen würden wir je nach Fragetyp zusätzliche Einschränkungen auferlegen. In unserem Kontext konzentrieren wir uns auf Aufgaben wie ❶ Szenenverständnis (z.B. Zählen), ❷ Szenenobjekterkennung (z.B. Erkennung) und ❸ Handlungsempfehlung (z.B. Aktionsempfehlung), wie in Abb. 3 dargestellt,

\ Abbildung 3: Vorlagen-Direktive für die Angriffsgenerierung und ein Beispiel.

\ Die Direktiven ermutigen das LLM, Angriffe zu generieren, die den Denkprozess eines Vision-LLM durch Text-zu-Text-Ausrichtung beeinflussen und automatisch typografische Muster als Benchmark-Angriffe erzeugen. Offensichtlich funktioniert der oben genannte typografische Angriff nur für Einzelaufgabenszenarien, d.h. ein einzelnes Paar von Frage und Antwort. Um Schwachstellen bei mehreren Aufgaben in Bezug auf mehrere Paare zu untersuchen, können wir die Formulierung auch auf K Paare von Fragen und Antworten verallgemeinern, bezeichnet als qi, ai, um den gegnerischen Text aˆi für i ∈ [1, K] zu erhalten.

\

:::info Autoren:

(1) Nhat Chung, CFAR und IHPC, A*STAR, Singapur und VNU-HCM, Vietnam;

(2) Sensen Gao, CFAR und IHPC, A*STAR, Singapur und Nankai Universität, China;

(3) Tuan-Anh Vu, CFAR und IHPC, A*STAR, Singapur und HKUST, HKSAR;

(4) Jie Zhang, Nanyang Technological University, Singapur;

(5) Aishan Liu, Beihang Universität, China;

(6) Yun Lin, Shanghai Jiao Tong Universität, China;

(7) Jin Song Dong, National University of Singapore, Singapur;

(8) Qing Guo, CFAR und IHPC, A*STAR, Singapur und National University of Singapore, Singapur.

:::


:::info Dieses Paper ist auf arxiv verfügbar unter der CC BY 4.0 DEED Lizenz.

:::

\

Marktchance
VisionGame Logo
VisionGame Kurs(VISION)
$0,0000647
$0,0000647$0,0000647
0,00%
USD
VisionGame (VISION) Echtzeit-Preis-Diagramm
Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an service@support.mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.