В этой статье подробно описывается многоступенчатый процесс типографической атаки, включая автоматическую генерацию атаки и расширение атаки.В этой статье подробно описывается многоступенчатый процесс типографической атаки, включая автоматическую генерацию атаки и расширение атаки.

Методология генерации состязательных атак: использование директив для введения в заблуждение Vision-LLMs

2025/10/01 03:00

Резюме и 1. Введение

  1. Связанные работы

    2.1 Vision-LLMs

    2.2 Переносимые состязательные атаки

  2. Предварительные сведения

    3.1 Пересмотр авторегрессивных Vision-LLMs

    3.2 Типографические атаки в системах AD на основе Vision-LLMs

  3. Методология

    4.1 Автогенерация типографической атаки

    4.2 Дополнения типографической атаки

    4.3 Реализации типографических атак

  4. Эксперименты

  5. Заключение и ссылки

4 Методология

Рисунок 1 показывает обзор нашего конвейера типографической атаки, который проходит от инженерии промптов до аннотации атаки, в частности через этапы Автогенерации атаки, Дополнения атаки и Реализации атаки. Мы описываем детали каждого шага в следующих подразделах.

4.1 Автогенерация типографической атаки

\ Чтобы создать полезное дезориентирование, состязательные паттерны должны соответствовать существующему вопросу, одновременно направляя LLM к неправильному ответу. Мы можем достичь этого с помощью концепции, называемой директивой, которая относится к настройке цели для LLM, например, ChatGPT, для наложения определенных ограничений при поощрении разнообразного поведения. В нашем контексте мы направляем LLM на генерацию ˆa как противоположности данного ответа a, при ограничении данного вопроса q. Поэтому мы можем инициализировать директивы для LLM, используя следующие промпты на рис. 2,

\ Рисунок 1: Наш предлагаемый конвейер - от генерации атаки через директивы к дополнению командами и союзами для позиционирования атак и, наконец, влияния на вывод.

\ Рисунок 2: Контекстная директива для ограничений генерации атаки.

\ При генерации атак мы накладываем дополнительные ограничения в зависимости от типа вопроса. В нашем контексте мы фокусируемся на задачах ❶ рассуждения о сцене (например, подсчет), ❷ рассуждения об объектах сцены (например, распознавание) и ❸ рассуждения о действиях (например, рекомендации действий), как показано на рис. 3,

\ Рисунок 3: Шаблонная директива для генерации атаки и пример.

\ Директивы побуждают LLM генерировать атаки, которые влияют на шаг рассуждения Vision-LLM через выравнивание текст-текст и автоматически создают типографические паттерны как эталонные атаки. Очевидно, что вышеупомянутая типографическая атака работает только для сценариев с одной задачей, т.е. одной пары вопрос-ответ. Для исследования уязвимостей с несколькими задачами в отношении нескольких пар мы также можем обобщить формулировку до K пар вопросов и ответов, обозначенных как qi, ai, чтобы получить состязательный текст aˆi для i ∈ [1, K].

\

:::info Авторы:

(1) Nhat Chung, CFAR и IHPC, A*STAR, Сингапур и VNU-HCM, Вьетнам;

(2) Sensen Gao, CFAR и IHPC, A*STAR, Сингапур и Нанкайский университет, Китай;

(3) Tuan-Anh Vu, CFAR и IHPC, A*STAR, Сингапур и HKUST, HKSAR;

(4) Jie Zhang, Наньянский технологический университет, Сингапур;

(5) Aishan Liu, Бэйханский университет, Китай;

(6) Yun Lin, Шанхайский университет Цзяо Тун, Китай;

(7) Jin Song Dong, Национальный университет Сингапура, Сингапур;

(8) Qing Guo, CFAR и IHPC, A*STAR, Сингапур и Национальный университет Сингапура, Сингапур.

:::


:::info Эта статья доступна на arxiv по лицензии CC BY 4.0 DEED.

:::

\

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно