Abstrakt und 1. Einleitung
Verwandte Arbeiten
2.1 Vision-LLMs
2.2 Übertragbare gegnerische Angriffe
Grundlagen
3.1 Überprüfung von Auto-Regressiven Vision-LLMs
3.2 Typografische Angriffe in Vision-LLMs-basierten AD-Systemen
Methodik
4.1 Auto-Generierung von typografischen Angriffen
4.2 Erweiterungen von typografischen Angriffen
4.3 Realisierungen von typografischen Angriffen
Experimente
Fazit und Referenzen
Abbildung 1 zeigt einen Überblick über unsere Pipeline für typografische Angriffe, die vom Prompt-Engineering zur Angriffsannotation führt, insbesondere durch die Schritte der Auto-Generierung von Angriffen, Angriffserweiterung und Angriffsrealisierung. Wir beschreiben die Details jedes Schritts in den folgenden Unterabschnitten.

\ Um nützliche Fehlleitungen zu erzeugen, müssen die gegnerischen Muster mit einer bestehenden Frage übereinstimmen und gleichzeitig das LLM zu einer falschen Antwort führen. Wir können dies durch ein Konzept namens Direktive erreichen, das sich auf die Konfiguration des Ziels für ein LLM, z.B. ChatGPT, bezieht, um spezifische Einschränkungen aufzuerlegen und gleichzeitig vielfältige Verhaltensweisen zu fördern. In unserem Kontext weisen wir das LLM an, ˆa als Gegenteil der gegebenen Antwort a zu generieren, unter der Einschränkung der gegebenen Frage q. Daher können wir Direktiven für das LLM mit den folgenden Prompts in Abb. 2 initialisieren,
\ 
\ 
\ Bei der Generierung von Angriffen würden wir je nach Fragetyp zusätzliche Einschränkungen auferlegen. In unserem Kontext konzentrieren wir uns auf Aufgaben wie ❶ Szenenverständnis (z.B. Zählen), ❷ Szenenobjekterkennung (z.B. Erkennung) und ❸ Handlungsempfehlung (z.B. Aktionsempfehlung), wie in Abb. 3 dargestellt,
\ 
\ Die Direktiven ermutigen das LLM, Angriffe zu generieren, die den Denkprozess eines Vision-LLM durch Text-zu-Text-Ausrichtung beeinflussen und automatisch typografische Muster als Benchmark-Angriffe erzeugen. Offensichtlich funktioniert der oben genannte typografische Angriff nur für Einzelaufgabenszenarien, d.h. ein einzelnes Paar von Frage und Antwort. Um Schwachstellen bei mehreren Aufgaben in Bezug auf mehrere Paare zu untersuchen, können wir die Formulierung auch auf K Paare von Fragen und Antworten verallgemeinern, bezeichnet als qi, ai, um den gegnerischen Text aˆi für i ∈ [1, K] zu erhalten.
\
:::info Autoren:
(1) Nhat Chung, CFAR und IHPC, A*STAR, Singapur und VNU-HCM, Vietnam;
(2) Sensen Gao, CFAR und IHPC, A*STAR, Singapur und Nankai Universität, China;
(3) Tuan-Anh Vu, CFAR und IHPC, A*STAR, Singapur und HKUST, HKSAR;
(4) Jie Zhang, Nanyang Technological University, Singapur;
(5) Aishan Liu, Beihang Universität, China;
(6) Yun Lin, Shanghai Jiao Tong Universität, China;
(7) Jin Song Dong, National University of Singapore, Singapur;
(8) Qing Guo, CFAR und IHPC, A*STAR, Singapur und National University of Singapore, Singapur.
:::
:::info Dieses Paper ist auf arxiv verfügbar unter der CC BY 4.0 DEED Lizenz.
:::
\


