Анотація та 1. Вступ
Огляд літератури
2.1 Vision-LLMs
2.2 Переносні атаки противника
Передумови
3.1 Перегляд авторегресивних Vision-LLMs
3.2 Типографічні атаки в системах AD на основі Vision-LLMs
Методологія
4.1 Автогенерація типографічної атаки
4.2 Розширення типографічної атаки
4.3 Реалізації типографічних атак
Експерименти
Висновок та посилання
На рисунку 1 показано огляд нашого конвеєра типографічної атаки, який проходить від інженерії промптів до анотації атаки, зокрема через етапи Автогенерації атаки, Розширення атаки та Реалізації атаки. Ми описуємо деталі кожного етапу в наступних підрозділах.

\ Щоб створити корисне введення в оману, шаблони противника повинні відповідати існуючому питанню, одночасно спрямовуючи LLM до неправильної відповіді. Ми можемо досягти цього за допомогою концепції, яка називається директивою, що стосується налаштування мети для LLM, наприклад, ChatGPT, для накладання конкретних обмежень, одночасно заохочуючи різноманітну поведінку. У нашому контексті ми спрямовуємо LLM генерувати ˆa як протилежність даної відповіді a, за умови заданого питання q. Тому ми можемо ініціалізувати директиви для LLM, використовуючи наступні промпти на рис. 2,
\ 
\ 
\ При генерації атак ми накладаємо додаткові обмеження залежно від типу питання. У нашому контексті ми зосереджуємося на завданнях ❶ міркування про сцену (наприклад, підрахунок), ❷ міркування про об'єкти сцени (наприклад, розпізнавання) та ❸ міркування про дії (наприклад, рекомендації щодо дій), як показано на рис. 3,
\ 
\ Директиви заохочують LLM генерувати атаки, які впливають на етап міркування Vision-LLM через вирівнювання тексту до тексту та автоматично створюють типографічні шаблони як еталонні атаки. Очевидно, що вищезгадана типографічна атака працює лише для сценаріїв з одним завданням, тобто однією парою питання та відповіді. Щоб дослідити вразливості багатозадачності щодо кількох пар, ми також можемо узагальнити формулювання до K пар питань і відповідей, позначених як qi, ai, щоб отримати текст противника aˆi для i ∈ [1, K].
\
:::info Автори:
(1) Nhat Chung, CFAR та IHPC, A*STAR, Сінгапур та VNU-HCM, В'єтнам;
(2) Sensen Gao, CFAR та IHPC, A*STAR, Сінгапур та Університет Нанкай, Китай;
(3) Tuan-Anh Vu, CFAR та IHPC, A*STAR, Сінгапур та HKUST, HKSAR;
(4) Jie Zhang, Технологічний університет Наньян, Сінгапур;
(5) Aishan Liu, Університет Бейхан, Китай;
(6) Yun Lin, Шанхайський університет Цзяо Тун, Китай;
(7) Jin Song Dong, Національний університет Сінгапуру, Сінгапур;
(8) Qing Guo, CFAR та IHPC, A*STAR, Сінгапур та Національний університет Сінгапуру, Сінгапур.
:::
:::info Ця стаття доступна на arxiv за ліцензією CC BY 4.0 DEED.
:::
\


