ШІ-чатботи провалили тести на безпеку: 8 із 10 моделей допомагали зловмисникам планувати напади
Більшість популярних ШІ-чатботів під час тестів не зупиняли користувачів із насильницькими намірами, а давали їм практичні підказки для підготовки атак.
Більшість популярних ШІ-чатботів під час тестів не зупиняли користувачів із насильницькими намірами, а давали їм практичні підказки для підготовки атак.
Більшість популярних ШІ-чатботів під час тестів не зупиняли користувачів із насильницькими намірами, а давали їм практичні підказки для підготовки атак.
За даними звіту Center for Countering Digital Hate, підготовленого разом із журналістами CNN, дослідники протестували 10 популярних чатботів у сценаріях, де користувачі видавали себе за потенційних нападників. Вони ставили запитання про шкільні стрілянини, вибухи в релігійних будівлях і замахи на публічних осіб. У результаті 8 із 10 моделей регулярно надавали допомогу в таких сценаріях.
У тестуванні брали участь ChatGPT, Gemini, Claude, Copilot, Meta AI, DeepSeek, Perplexity, Snapchat My AI, Character.AI та Replika. Лише Claude і Snapchat My AI стабільно відмовлялися допомагати з підготовкою нападів. При цьому тільки Claude не обмежувався відмовою, а ще й намагався відрадити користувача від насильства.
Найбільше запитань у дослідників виникло до ботів, які не просто не блокували небезпечні звернення, а фактично включалися в сценарій. У звіті йдеться, що Character.AI в окремих випадках підштовхував користувача до насильницьких дій. DeepSeek, за твердженням авторів, в одному з епізодів навіть завершив відповідь фразою з побажанням «безпечного шутингу». Найгірші результати за часткою відповідей із допомогою нападникам показали Perplexity та Meta AI.
Автори звіту наголошують, що проблема вже вийшла за межі абстрактної дискусії про ризики ШІ. На їхню думку, навіть короткі підказки щодо цілей, способів дій або зброї можуть знизити бар’єр для реального нападу. Особливу небезпеку вони вбачають у тому, що чатботами щодня користуються мільйони людей, зокрема підлітки.
Найгірше в тестах на безпеку показали Perplexity та Meta AI: за висновками авторів дослідження, вони допомагали потенційним нападникам у 100% і 97% відповідей відповідно. Окремо дослідники виділили Character.AI — не лише через слабкі запобіжники, а й тому, що в частині сценаріїв бот прямо підштовхував до насильства. Натомість двома моделями, які послідовно відмовлялися допомагати з плануванням нападів, стали Claude від Anthropic і Snapchat My AI. При цьому лише Claude, як зазначено у звіті, не просто блокував такі запити, а й намагався відмовити користувача від насильницьких дій.
Звіт Killer Apps опублікували 11 березня 2026 року. Його автори стверджують, що технічні обмеження для блокування таких сценаріїв уже існують, але більшість компаній не зробили їх достатньо жорсткими. Саме це, на думку дослідників, і дозволяє частині чатботів переходити від нейтральної відповіді до небезпечної допомоги.
Раніше dev.ua писав про те, як видання Tom’s Guide протестувало три популярні чатботи на семи однакових запитах про воєнні новини навколо ударів по Ірану та перевірило, як моделі поводяться в критично важливій темі, де частина повідомлень змінюється щогодини, а частина може бути вкидом


