Cet article examine le développement et l'application des Modèles de Vision-Langage de Grande Taille, en se concentrant sur leur intégration dans les systèmes de conduite autonome.Cet article examine le développement et l'application des Modèles de Vision-Langage de Grande Taille, en se concentrant sur leur intégration dans les systèmes de conduite autonome.

L'Intégration des Vision-LLMs dans les Systèmes AD : Capacités et Défis

Abstrait et 1. Introduction

  1. Travaux connexes

    2.1 Vision-LLMs

    2.2 Attaques adverses transférables

  2. Préliminaires

    3.1 Révision des Vision-LLMs auto-régressifs

    3.2 Attaques typographiques dans les systèmes AD basés sur les Vision-LLMs

  3. Méthodologie

    4.1 Auto-génération d'attaque typographique

    4.2 Augmentations d'attaque typographique

    4.3 Réalisations d'attaques typographiques

  4. Expériences

  5. Conclusion et Références

2 Travaux connexes

2.1 Vision-LLMs

Ayant démontré la compétence des Grands Modèles de Langage (LLMs) dans le raisonnement à travers divers benchmarks de langage naturel, les chercheurs ont étendu les LLMs avec des encodeurs visuels pour soutenir la compréhension multimodale. Cette intégration a donné naissance à diverses formes de Vision-LLMs, capables de raisonner sur la base de la composition d'entrées visuelles et linguistiques.

\ Pré-entraînement des Vision-LLMs. L'interconnexion entre les LLMs et les modèles de vision pré-entraînés implique le pré-entraînement individuel d'encodeurs unimodaux dans leurs domaines respectifs, suivi d'un entraînement conjoint à grande échelle vision-langage [17, 18, 19, 20, 2, 1]. À travers un corpus de langage visuel entrelacé (par exemple, MMC4 [21] et M3W [22]), les modèles auto-régressifs apprennent à traiter les images en les convertissant en jetons visuels, à les combiner avec des jetons textuels, et à les introduire dans les LLMs. Les entrées visuelles sont traitées comme une langue étrangère, améliorant les LLMs traditionnels uniquement textuels en permettant la compréhension visuelle tout en conservant leurs capacités linguistiques. Par conséquent, une stratégie de pré-entraînement simple peut ne pas être conçue pour gérer les cas où le texte d'entrée est significativement plus aligné avec les textes visuels dans une image qu'avec le contexte visuel de cette image.

\ Vision-LLMs dans les systèmes AD. Les Vision-LLMs se sont avérés utiles pour la perception, la planification, le raisonnement et le contrôle dans les systèmes de conduite autonome (AD) [6, 7, 9, 5]. Par exemple, des travaux existants ont quantitativement évalué les capacités linguistiques des Vision-LLMs en termes de fiabilité dans l'explication des processus de prise de décision de l'AD [7]. D'autres ont exploré l'utilisation des VisionLLMs pour les manœuvres véhiculaires [8, 5], et [6] a même validé une approche dans des environnements physiques contrôlés. Parce que les systèmes AD impliquent des situations critiques pour la sécurité, des analyses complètes de leurs vulnérabilités sont cruciales pour un déploiement et une inférence fiables. Cependant, les adoptions proposées des Vision-LLMs dans l'AD ont été directes, ce qui signifie que les problèmes existants (par exemple, les vulnérabilités contre les attaques typographiques) dans ces modèles sont probablement présents sans contre-mesures appropriées.

\

:::info Auteurs :

(1) Nhat Chung, CFAR et IHPC, A*STAR, Singapour et VNU-HCM, Vietnam ;

(2) Sensen Gao, CFAR et IHPC, A*STAR, Singapour et Université de Nankai, Chine ;

(3) Tuan-Anh Vu, CFAR et IHPC, A*STAR, Singapour et HKUST, HKSAR ;

(4) Jie Zhang, Université Technologique de Nanyang, Singapour ;

(5) Aishan Liu, Université de Beihang, Chine ;

(6) Yun Lin, Université Jiao Tong de Shanghai, Chine ;

(7) Jin Song Dong, Université Nationale de Singapour, Singapour ;

(8) Qing Guo, CFAR et IHPC, A*STAR, Singapour et Université Nationale de Singapour, Singapour.

:::


:::info Cet article est disponible sur arxiv sous licence CC BY 4.0 DEED.

:::

\

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.