Resumo e 1. Introdução
Trabalhos Relacionados
2.1 Vision-LLMs
2.2 Ataques Adversariais Transferíveis
Preliminares
3.1 Revisitando Vision-LLMs Auto-Regressivos
3.2 Ataques Tipográficos em Sistemas AD Baseados em Vision-LLMs
Metodologia
4.1 Auto-Geração de Ataque Tipográfico
4.2 Aumentações de Ataque Tipográfico
4.3 Realizações de Ataques Tipográficos
Experiências
Conclusão e Referências
A Figura 1 mostra uma visão geral do nosso pipeline de ataque tipográfico, que vai desde a engenharia de prompt até à anotação de ataque, particularmente através das etapas de Auto-Geração de Ataque, Aumentação de Ataque e Realização de Ataque. Descrevemos os detalhes de cada etapa nas subsecções seguintes.

\ Para gerar desorientação útil, os padrões adversariais devem alinhar-se com uma questão existente enquanto guiam o LLM para uma resposta incorreta. Podemos alcançar isto através de um conceito chamado diretiva, que se refere a configurar o objetivo para um LLM, por exemplo, ChatGPT, para impor restrições específicas enquanto encoraja comportamentos diversos. No nosso contexto, direcionamos o LLM para gerar ˆa como um oposto da resposta dada a, sob a restrição da questão dada q. Portanto, podemos inicializar diretivas para o LLM usando os seguintes prompts na Fig. 2,
\ 
\ 
\ Ao gerar ataques, imporíamos restrições adicionais dependendo do tipo de questão. No nosso contexto, focamo-nos em tarefas de ❶ raciocínio de cena (por exemplo, contagem), ❷ raciocínio de objeto de cena (por exemplo, reconhecimento), e ❸ raciocínio de ação (por exemplo, recomendação de ação), como se segue na Fig. 3,
\ 
\ As diretivas encorajam o LLM a gerar ataques que influenciam o passo de raciocínio de um Vision-LLM através do alinhamento texto-para-texto e produzem automaticamente padrões tipográficos como ataques de referência. Claramente, o ataque tipográfico acima mencionado só funciona para cenários de tarefa única, ou seja, um único par de pergunta e resposta. Para investigar vulnerabilidades multi-tarefa em relação a múltiplos pares, também podemos generalizar a formulação para K pares de perguntas e respostas, denotados como qi, ai, para obter o texto adversarial aˆi para i ∈ [1, K].
\
:::info Autores:
(1) Nhat Chung, CFAR e IHPC, A*STAR, Singapura e VNU-HCM, Vietname;
(2) Sensen Gao, CFAR e IHPC, A*STAR, Singapura e Universidade de Nankai, China;
(3) Tuan-Anh Vu, CFAR e IHPC, A*STAR, Singapura e HKUST, HKSAR;
(4) Jie Zhang, Universidade Tecnológica de Nanyang, Singapura;
(5) Aishan Liu, Universidade de Beihang, China;
(6) Yun Lin, Universidade Jiao Tong de Xangai, China;
(7) Jin Song Dong, Universidade Nacional de Singapura, Singapura;
(8) Qing Guo, CFAR e IHPC, A*STAR, Singapura e Universidade Nacional de Singapura, Singapura.
:::
:::info Este artigo está disponível no arxiv sob licença CC BY 4.0 DEED.
:::
\


