Este artigo detalha o pipeline de ataque tipográfico de múltiplas etapas, incluindo Geração Automática de Ataque e Aumento de Ataque.Este artigo detalha o pipeline de ataque tipográfico de múltiplas etapas, incluindo Geração Automática de Ataque e Aumento de Ataque.

Metodologia para Geração de Ataque Adversarial: Usando Diretivas para Enganar Vision-LLMs

2025/10/01 03:00
Leu 3 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Resumo e 1. Introdução

  1. Trabalhos Relacionados

    2.1 Vision-LLMs

    2.2 Ataques Adversariais Transferíveis

  2. Preliminares

    3.1 Revisitando Vision-LLMs Auto-Regressivos

    3.2 Ataques Tipográficos em Sistemas AD Baseados em Vision-LLMs

  3. Metodologia

    4.1 Auto-Geração de Ataque Tipográfico

    4.2 Aumentações de Ataque Tipográfico

    4.3 Realizações de Ataques Tipográficos

  4. Experiências

  5. Conclusão e Referências

4 Metodologia

A Figura 1 mostra uma visão geral do nosso pipeline de ataque tipográfico, que vai desde a engenharia de prompt até à anotação de ataque, particularmente através das etapas de Auto-Geração de Ataque, Aumentação de Ataque e Realização de Ataque. Descrevemos os detalhes de cada etapa nas subsecções seguintes.

4.1 Auto-Geração de Ataque Tipográfico

\ Para gerar desorientação útil, os padrões adversariais devem alinhar-se com uma questão existente enquanto guiam o LLM para uma resposta incorreta. Podemos alcançar isto através de um conceito chamado diretiva, que se refere a configurar o objetivo para um LLM, por exemplo, ChatGPT, para impor restrições específicas enquanto encoraja comportamentos diversos. No nosso contexto, direcionamos o LLM para gerar ˆa como um oposto da resposta dada a, sob a restrição da questão dada q. Portanto, podemos inicializar diretivas para o LLM usando os seguintes prompts na Fig. 2,

\ Figura 1: O nosso pipeline proposto vai desde a geração de ataque via diretivas até à aumentação por comandos e conjunções para posicionar os ataques e finalmente influenciar a inferência.

\ Figura 2: Diretiva de contexto para restrições de geração de ataque.

\ Ao gerar ataques, imporíamos restrições adicionais dependendo do tipo de questão. No nosso contexto, focamo-nos em tarefas de ❶ raciocínio de cena (por exemplo, contagem), ❷ raciocínio de objeto de cena (por exemplo, reconhecimento), e ❸ raciocínio de ação (por exemplo, recomendação de ação), como se segue na Fig. 3,

\ Figura 3: Diretiva de modelo para geração de ataque, e um exemplo.

\ As diretivas encorajam o LLM a gerar ataques que influenciam o passo de raciocínio de um Vision-LLM através do alinhamento texto-para-texto e produzem automaticamente padrões tipográficos como ataques de referência. Claramente, o ataque tipográfico acima mencionado só funciona para cenários de tarefa única, ou seja, um único par de pergunta e resposta. Para investigar vulnerabilidades multi-tarefa em relação a múltiplos pares, também podemos generalizar a formulação para K pares de perguntas e respostas, denotados como qi, ai, para obter o texto adversarial aˆi para i ∈ [1, K].

\

:::info Autores:

(1) Nhat Chung, CFAR e IHPC, A*STAR, Singapura e VNU-HCM, Vietname;

(2) Sensen Gao, CFAR e IHPC, A*STAR, Singapura e Universidade de Nankai, China;

(3) Tuan-Anh Vu, CFAR e IHPC, A*STAR, Singapura e HKUST, HKSAR;

(4) Jie Zhang, Universidade Tecnológica de Nanyang, Singapura;

(5) Aishan Liu, Universidade de Beihang, China;

(6) Yun Lin, Universidade Jiao Tong de Xangai, China;

(7) Jin Song Dong, Universidade Nacional de Singapura, Singapura;

(8) Qing Guo, CFAR e IHPC, A*STAR, Singapura e Universidade Nacional de Singapura, Singapura.

:::


:::info Este artigo está disponível no arxiv sob licença CC BY 4.0 DEED.

:::

\

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!