Resumo e 1. Introdução
Trabalho Relacionado
2.1 Vision-LLMs
2.2 Ataques Adversariais Transferíveis
Preliminares
3.1 Revisitando Vision-LLMs Auto-Regressivos
3.2 Ataques Tipográficos em Sistemas AD Baseados em Vision-LLMs
Metodologia
4.1 Auto-Geração de Ataque Tipográfico
4.2 Aumentos de Ataque Tipográfico
4.3 Realizações de Ataques Tipográficos
Experiências
Conclusão e Referências
Tendo demonstrado a proficiência dos Modelos de Linguagem Grandes (LLMs) no raciocínio em vários benchmarks de linguagem natural, os investigadores estenderam os LLMs com codificadores visuais para suportar a compreensão multimodal. Esta integração deu origem a várias formas de Vision-LLMs, capazes de raciocinar com base na composição de entradas visuais e linguísticas.
\ Pré-treino de Vision-LLMs. A interconexão entre LLMs e modelos de visão pré-treinados envolve o pré-treino individual de codificadores unimodais nos seus respetivos domínios, seguido de treino conjunto de visão-linguagem em grande escala [17, 18, 19, 20, 2, 1]. Através de um corpus de linguagem visual intercalado (por exemplo, MMC4 [21] e M3W [22]), os modelos auto-regressivos aprendem a processar imagens convertendo-as em tokens visuais, combinando-os com tokens textuais e introduzindo-os nos LLMs. As entradas visuais são tratadas como uma língua estrangeira, melhorando os LLMs tradicionais apenas de texto ao permitir a compreensão visual enquanto mantêm as suas capacidades linguísticas. Portanto, uma estratégia de pré-treino direta pode não ser projetada para lidar com casos em que o texto de entrada está significativamente mais alinhado com textos visuais numa imagem do que com o contexto visual dessa imagem.
\ Vision-LLMs em Sistemas AD. Os Vision-LLMs provaram ser úteis para perceção, planeamento, raciocínio e controlo em sistemas de condução autónoma (AD) [6, 7, 9, 5]. Por exemplo, trabalhos existentes avaliaram quantitativamente as capacidades linguísticas dos Vision-LLMs em termos da sua confiabilidade na explicação dos processos de tomada de decisão da AD [7]. Outros exploraram o uso de VisionLLMs para manobras veiculares [8, 5], e [6] até validou uma abordagem em ambientes físicos controlados. Como os sistemas AD envolvem situações críticas de segurança, análises abrangentes das suas vulnerabilidades são cruciais para implantação e inferência confiáveis. No entanto, as adoções propostas de Vision-LLMs em AD têm sido diretas, o que significa que problemas existentes (por exemplo, vulnerabilidades contra ataques tipográficos) em tais modelos provavelmente estão presentes sem contramedidas adequadas.
\
:::info Autores:
(1) Nhat Chung, CFAR e IHPC, A*STAR, Singapura e VNU-HCM, Vietname;
(2) Sensen Gao, CFAR e IHPC, A*STAR, Singapura e Universidade Nankai, China;
(3) Tuan-Anh Vu, CFAR e IHPC, A*STAR, Singapura e HKUST, HKSAR;
(4) Jie Zhang, Universidade Tecnológica de Nanyang, Singapura;
(5) Aishan Liu, Universidade Beihang, China;
(6) Yun Lin, Universidade Jiao Tong de Xangai, China;
(7) Jin Song Dong, Universidade Nacional de Singapura, Singapura;
(8) Qing Guo, CFAR e IHPC, A*STAR, Singapura e Universidade Nacional de Singapura, Singapura.
:::
:::info Este artigo está disponível no arxiv sob licença CC BY 4.0 DEED.
:::
\


