Cet article détaille le pipeline d'attaque typographique multi-étapes, comprenant la Génération Automatique d'Attaque et l'Augmentation d'Attaque.Cet article détaille le pipeline d'attaque typographique multi-étapes, comprenant la Génération Automatique d'Attaque et l'Augmentation d'Attaque.

Méthodologie pour la génération d'attaques adverses : Utilisation de directives pour induire en erreur les Vision-LLMs

2025/10/01 03:00

Abstrait et 1. Introduction

  1. Travaux connexes

    2.1 Vision-LLMs

    2.2 Attaques adverses transférables

  2. Préliminaires

    3.1 Revisiter les Vision-LLMs auto-régressifs

    3.2 Attaques typographiques dans les systèmes AD basés sur les Vision-LLMs

  3. Méthodologie

    4.1 Auto-génération d'attaque typographique

    4.2 Augmentations d'attaque typographique

    4.3 Réalisations d'attaques typographiques

  4. Expériences

  5. Conclusion et Références

4 Méthodologie

La Figure 1 présente un aperçu de notre pipeline d'attaque typographique, qui va de l'ingénierie de prompt à l'annotation d'attaque, notamment à travers les étapes d'Auto-génération d'attaque, d'Augmentation d'attaque et de Réalisation d'attaque. Nous décrivons les détails de chaque étape dans les sous-sections suivantes.

4.1 Auto-génération d'attaque typographique

\ Afin de générer une redirection utile, les modèles adverses doivent s'aligner avec une question existante tout en guidant le LLM vers une réponse incorrecte. Nous pouvons y parvenir grâce à un concept appelé directive, qui consiste à configurer l'objectif d'un LLM, par exemple ChatGPT, pour imposer des contraintes spécifiques tout en encourageant des comportements divers. Dans notre contexte, nous dirigeons le LLM pour générer ˆa comme opposé de la réponse donnée a, sous la contrainte de la question donnée q. Par conséquent, nous pouvons initialiser les directives au LLM en utilisant les prompts suivants dans la Fig. 2,

\ Figure 1: Notre pipeline proposé va de la génération d'attaque via des directives à l'augmentation par des commandes et des conjonctions pour positionner les attaques et finalement influencer l'inférence.

\ Figure 2: Directive contextuelle pour les contraintes de génération d'attaque.

\ Lors de la génération d'attaques, nous imposerions des contraintes supplémentaires en fonction du type de question. Dans notre contexte, nous nous concentrons sur les tâches de ❶ raisonnement de scène (par exemple, le comptage), ❷ raisonnement d'objet de scène (par exemple, la reconnaissance), et ❸ raisonnement d'action (par exemple, la recommandation d'action), comme suit dans la Fig. 3,

\ Figure 3: Directive de modèle pour la génération d'attaque, et un exemple.

\ Les directives encouragent le LLM à générer des attaques qui influencent l'étape de raisonnement d'un Vision-LLM par l'alignement texte-à-texte et produisent automatiquement des modèles typographiques comme attaques de référence. Clairement, l'attaque typographique susmentionnée ne fonctionne que pour des scénarios à tâche unique, c'est-à-dire une seule paire de question et réponse. Pour étudier les vulnérabilités multi-tâches par rapport à plusieurs paires, nous pouvons également généraliser la formulation à K paires de questions et réponses, notées qi, ai, pour obtenir le texte adverse aˆi pour i ∈ [1, K].

\

:::info Auteurs:

(1) Nhat Chung, CFAR et IHPC, A*STAR, Singapour et VNU-HCM, Vietnam;

(2) Sensen Gao, CFAR et IHPC, A*STAR, Singapour et Université de Nankai, Chine;

(3) Tuan-Anh Vu, CFAR et IHPC, A*STAR, Singapour et HKUST, HKSAR;

(4) Jie Zhang, Université Technologique de Nanyang, Singapour;

(5) Aishan Liu, Université de Beihang, Chine;

(6) Yun Lin, Université Jiao Tong de Shanghai, Chine;

(7) Jin Song Dong, Université Nationale de Singapour, Singapour;

(8) Qing Guo, CFAR et IHPC, A*STAR, Singapour et Université Nationale de Singapour, Singapour.

:::


:::info Cet article est disponible sur arxiv sous licence CC BY 4.0 DEED.

:::

\

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.