Резюме и 1. Введение
Связанные работы
2.1 Vision-LLMs
2.2 Переносимые состязательные атаки
Предварительные сведения
3.1 Пересмотр авторегрессивных Vision-LLMs
3.2 Типографические атаки в системах AD на основе Vision-LLMs
Методология
4.1 Автогенерация типографической атаки
4.2 Дополнения типографической атаки
4.3 Реализации типографических атак
Эксперименты
Заключение и ссылки
Рисунок 1 показывает обзор нашего конвейера типографической атаки, который проходит от инженерии промптов до аннотации атаки, в частности через этапы Автогенерации атаки, Дополнения атаки и Реализации атаки. Мы описываем детали каждого шага в следующих подразделах.

\ Чтобы создать полезное дезориентирование, состязательные паттерны должны соответствовать существующему вопросу, одновременно направляя LLM к неправильному ответу. Мы можем достичь этого с помощью концепции, называемой директивой, которая относится к настройке цели для LLM, например, ChatGPT, для наложения определенных ограничений при поощрении разнообразного поведения. В нашем контексте мы направляем LLM на генерацию ˆa как противоположности данного ответа a, при ограничении данного вопроса q. Поэтому мы можем инициализировать директивы для LLM, используя следующие промпты на рис. 2,
\ 
\ 
\ При генерации атак мы накладываем дополнительные ограничения в зависимости от типа вопроса. В нашем контексте мы фокусируемся на задачах ❶ рассуждения о сцене (например, подсчет), ❷ рассуждения об объектах сцены (например, распознавание) и ❸ рассуждения о действиях (например, рекомендации действий), как показано на рис. 3,
\ 
\ Директивы побуждают LLM генерировать атаки, которые влияют на шаг рассуждения Vision-LLM через выравнивание текст-текст и автоматически создают типографические паттерны как эталонные атаки. Очевидно, что вышеупомянутая типографическая атака работает только для сценариев с одной задачей, т.е. одной пары вопрос-ответ. Для исследования уязвимостей с несколькими задачами в отношении нескольких пар мы также можем обобщить формулировку до K пар вопросов и ответов, обозначенных как qi, ai, чтобы получить состязательный текст aˆi для i ∈ [1, K].
\
:::info Авторы:
(1) Nhat Chung, CFAR и IHPC, A*STAR, Сингапур и VNU-HCM, Вьетнам;
(2) Sensen Gao, CFAR и IHPC, A*STAR, Сингапур и Нанкайский университет, Китай;
(3) Tuan-Anh Vu, CFAR и IHPC, A*STAR, Сингапур и HKUST, HKSAR;
(4) Jie Zhang, Наньянский технологический университет, Сингапур;
(5) Aishan Liu, Бэйханский университет, Китай;
(6) Yun Lin, Шанхайский университет Цзяо Тун, Китай;
(7) Jin Song Dong, Национальный университет Сингапура, Сингапур;
(8) Qing Guo, CFAR и IHPC, A*STAR, Сингапур и Национальный университет Сингапура, Сингапур.
:::
:::info Эта статья доступна на arxiv по лицензии CC BY 4.0 DEED.
:::
\


