Ця стаття детально описує багатоетапний процес типографічної атаки, включаючи автоматичне генерування атак та посилення атак.Ця стаття детально описує багатоетапний процес типографічної атаки, включаючи автоматичне генерування атак та посилення атак.

Методологія генерації атак противника: використання директив для введення в оману Vision-LLMs

2025/10/01 03:00

Анотація та 1. Вступ

  1. Огляд літератури

    2.1 Vision-LLMs

    2.2 Переносні атаки противника

  2. Передумови

    3.1 Перегляд авторегресивних Vision-LLMs

    3.2 Типографічні атаки в системах AD на основі Vision-LLMs

  3. Методологія

    4.1 Автогенерація типографічної атаки

    4.2 Розширення типографічної атаки

    4.3 Реалізації типографічних атак

  4. Експерименти

  5. Висновок та посилання

4 Методологія

На рисунку 1 показано огляд нашого конвеєра типографічної атаки, який проходить від інженерії промптів до анотації атаки, зокрема через етапи Автогенерації атаки, Розширення атаки та Реалізації атаки. Ми описуємо деталі кожного етапу в наступних підрозділах.

4.1 Автогенерація типографічної атаки

\ Щоб створити корисне введення в оману, шаблони противника повинні відповідати існуючому питанню, одночасно спрямовуючи LLM до неправильної відповіді. Ми можемо досягти цього за допомогою концепції, яка називається директивою, що стосується налаштування мети для LLM, наприклад, ChatGPT, для накладання конкретних обмежень, одночасно заохочуючи різноманітну поведінку. У нашому контексті ми спрямовуємо LLM генерувати ˆa як протилежність даної відповіді a, за умови заданого питання q. Тому ми можемо ініціалізувати директиви для LLM, використовуючи наступні промпти на рис. 2,

\ Рисунок 1: Наш запропонований конвеєр - від генерації атаки через директиви до розширення за допомогою команд і сполучень для позиціонування атак і, нарешті, впливу на висновок.

\ Рисунок 2: Контекстна директива для обмежень генерації атаки.

\ При генерації атак ми накладаємо додаткові обмеження залежно від типу питання. У нашому контексті ми зосереджуємося на завданнях ❶ міркування про сцену (наприклад, підрахунок), ❷ міркування про об'єкти сцени (наприклад, розпізнавання) та ❸ міркування про дії (наприклад, рекомендації щодо дій), як показано на рис. 3,

\ Рисунок 3: Шаблонна директива для генерації атаки та приклад.

\ Директиви заохочують LLM генерувати атаки, які впливають на етап міркування Vision-LLM через вирівнювання тексту до тексту та автоматично створюють типографічні шаблони як еталонні атаки. Очевидно, що вищезгадана типографічна атака працює лише для сценаріїв з одним завданням, тобто однією парою питання та відповіді. Щоб дослідити вразливості багатозадачності щодо кількох пар, ми також можемо узагальнити формулювання до K пар питань і відповідей, позначених як qi, ai, щоб отримати текст противника aˆi для i ∈ [1, K].

\

:::info Автори:

(1) Nhat Chung, CFAR та IHPC, A*STAR, Сінгапур та VNU-HCM, В'єтнам;

(2) Sensen Gao, CFAR та IHPC, A*STAR, Сінгапур та Університет Нанкай, Китай;

(3) Tuan-Anh Vu, CFAR та IHPC, A*STAR, Сінгапур та HKUST, HKSAR;

(4) Jie Zhang, Технологічний університет Наньян, Сінгапур;

(5) Aishan Liu, Університет Бейхан, Китай;

(6) Yun Lin, Шанхайський університет Цзяо Тун, Китай;

(7) Jin Song Dong, Національний університет Сінгапуру, Сінгапур;

(8) Qing Guo, CFAR та IHPC, A*STAR, Сінгапур та Національний університет Сінгапуру, Сінгапур.

:::


:::info Ця стаття доступна на arxiv за ліцензією CC BY 4.0 DEED.

:::

\

Ринкові можливості
Логотип VisionGame
Курс VisionGame (VISION)
$0.0000632
$0.0000632$0.0000632
-2.31%
USD
Графік ціни VisionGame (VISION) в реальному часі
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою service@support.mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.