Abstrait et 1. Introduction
Travaux connexes
2.1 Vision-LLMs
2.2 Attaques adverses transférables
Préliminaires
3.1 Révision des Vision-LLMs auto-régressifs
3.2 Attaques typographiques dans les systèmes AD basés sur les Vision-LLMs
Méthodologie
4.1 Auto-génération d'attaque typographique
4.2 Augmentations d'attaque typographique
4.3 Réalisations d'attaques typographiques
Expériences
Conclusion et Références
Ayant démontré la compétence des Grands Modèles de Langage (LLMs) dans le raisonnement à travers divers benchmarks de langage naturel, les chercheurs ont étendu les LLMs avec des encodeurs visuels pour soutenir la compréhension multimodale. Cette intégration a donné naissance à diverses formes de Vision-LLMs, capables de raisonner sur la base de la composition d'entrées visuelles et linguistiques.
\ Pré-entraînement des Vision-LLMs. L'interconnexion entre les LLMs et les modèles de vision pré-entraînés implique le pré-entraînement individuel d'encodeurs unimodaux dans leurs domaines respectifs, suivi d'un entraînement conjoint à grande échelle vision-langage [17, 18, 19, 20, 2, 1]. À travers un corpus de langage visuel entrelacé (par exemple, MMC4 [21] et M3W [22]), les modèles auto-régressifs apprennent à traiter les images en les convertissant en jetons visuels, à les combiner avec des jetons textuels, et à les introduire dans les LLMs. Les entrées visuelles sont traitées comme une langue étrangère, améliorant les LLMs traditionnels uniquement textuels en permettant la compréhension visuelle tout en conservant leurs capacités linguistiques. Par conséquent, une stratégie de pré-entraînement simple peut ne pas être conçue pour gérer les cas où le texte d'entrée est significativement plus aligné avec les textes visuels dans une image qu'avec le contexte visuel de cette image.
\ Vision-LLMs dans les systèmes AD. Les Vision-LLMs se sont avérés utiles pour la perception, la planification, le raisonnement et le contrôle dans les systèmes de conduite autonome (AD) [6, 7, 9, 5]. Par exemple, des travaux existants ont quantitativement évalué les capacités linguistiques des Vision-LLMs en termes de fiabilité dans l'explication des processus de prise de décision de l'AD [7]. D'autres ont exploré l'utilisation des VisionLLMs pour les manœuvres véhiculaires [8, 5], et [6] a même validé une approche dans des environnements physiques contrôlés. Parce que les systèmes AD impliquent des situations critiques pour la sécurité, des analyses complètes de leurs vulnérabilités sont cruciales pour un déploiement et une inférence fiables. Cependant, les adoptions proposées des Vision-LLMs dans l'AD ont été directes, ce qui signifie que les problèmes existants (par exemple, les vulnérabilités contre les attaques typographiques) dans ces modèles sont probablement présents sans contre-mesures appropriées.
\
:::info Auteurs :
(1) Nhat Chung, CFAR et IHPC, A*STAR, Singapour et VNU-HCM, Vietnam ;
(2) Sensen Gao, CFAR et IHPC, A*STAR, Singapour et Université de Nankai, Chine ;
(3) Tuan-Anh Vu, CFAR et IHPC, A*STAR, Singapour et HKUST, HKSAR ;
(4) Jie Zhang, Université Technologique de Nanyang, Singapour ;
(5) Aishan Liu, Université de Beihang, Chine ;
(6) Yun Lin, Université Jiao Tong de Shanghai, Chine ;
(7) Jin Song Dong, Université Nationale de Singapour, Singapour ;
(8) Qing Guo, CFAR et IHPC, A*STAR, Singapour et Université Nationale de Singapour, Singapour.
:::
:::info Cet article est disponible sur arxiv sous licence CC BY 4.0 DEED.
:::
\


