Роками порада щодо взаємодії зі штучним інтелектом звучала майже старомодно: будьте ввічливі, будьте чіткими, говоріть "будь ласка". Але нове дослідження свідчить, що цей інстинкт, укорінений у людських соціальних нормах, може непомітно підривати ефективність роботи систем ШІ.
Дослідження, представлене на NeurIPS 2025 Workshop, опубліковане у вересні 2025 року під назвою "Стежте за своїм тоном: дослідження того, як ввічливість підказки впливає на точність великих мовних моделей", виявило, що тон, який ви використовуєте при роботі з великими мовними моделями (LLM), може помітно змінити їхню точність. І в результаті, який здається протиінтуїтивним, навіть тривожним, більш ввічливі підказки можуть фактично давати гірші результати.
Дослідники перевірили, як різні тони, від дуже ввічливого до дуже грубого, впливають на продуктивність ChatGPT-4o при відповідях на питання з кількома варіантами відповідей. Використовуючи набір даних із 50 помірно складних питань з математики, науки та історії, вони створили п'ять версій кожної підказки: дуже ввічлива, ввічлива, нейтральна, груба та дуже груба.
Єдина різниця між цими підказками полягала в тоні. Самі питання залишалися ідентичними.
Згідно з дослідженням, точність стабільно зростала в міру того, як підказки ставали менш ввічливими. Дуже ввічливі підказки досягли середньої точності 80,8%. Для порівняння, дуже грубі підказки досягли 84,8%, що становить покращення майже на чотири відсоткові пункти. Нейтральні підказки перевершили ввічливі підказки, а грубі підказки показали ще кращі результати.
Статистичне тестування підтвердило закономірність: не було випадків, коли більш ввічливі підказки призводили до значно кращих результатів. Кожна значуща різниця була на користь менш ввічливого або більш прямого формулювання.
Іншими словами, сам тон, щось, що більшість користувачів припускає, не повинно мати значення, може змінити продуктивність ШІ.
Дослідження не дає остаточного пояснення, але воно піднімає глибше питання про те, як LLM обробляють мову. На відміну від людей, ці системи не "відчувають" ввічливості чи образи. Для них такі слова, як "будь ласка" або навіть образи, є просто токенами, патернами, вивченими з навчальних даних.
Одне з можливих пояснень полягає в тому, що те, що виглядає як "грубість", насправді є замінником чогось іншого: прямоти.
Грубі підказки, як правило, більш імперативні. Вони відкидають обтікання і переходять прямо до завдання. Замість "Чи не могли б ви люб'язно вирішити це питання?", груба підказка скаже: "Дай відповідь". Ця різниця в структурі може зробити завдання більш зрозумілим для моделі.
Іншим фактором, визначеним дослідженням, є довжина підказки та лексичні патерни. Додавання ввічливих фраз вводить додаткові токени, які можуть розмити або відвернути увагу від основної інструкції. Навпаки, коротші, чіткіші підказки відповідають патернам, які модель бачила під час навчання.
Існує також можливість того, що певні тони більш тісно узгоджуються з розподілом навчальних даних або системними інструкціями, зменшуючи те, що дослідники називають "спантеличеністю". Це математичний спосіб виміряти, наскільки "здивована" або "збентежена" модель словами, які вона бачить.
Наслідок полягає в тому, що тон не є нейтральною обгорткою навколо питання. Він є частиною вхідних даних і формує те, як модель реагує.
Висновки знаменують помітне відхилення від попередніх робіт. Дослідження 2024 року Yin та ін. виявило, що неввічливі підказки часто знижували точність, особливо зі старішими моделями, такими як ChatGPT-3.5. Це дослідження також припустило, що надмірно ввічлива мова не обов'язково покращує результати, але воно не показало чіткої переваги грубості.
Отже, що змінилося?
Одне пояснення, запропоноване дослідженням 2025 року, - це еволюція моделі. Новіші системи, як ChatGPT-4o, можуть обробляти мову по-іншому або можуть бути менш чутливими до негативних наслідків різкого формулювання. Інша можливість полягає в тому, що калібрування тону має значення. "Дуже грубі" підказки в новому дослідженні, хоч і образливі, є менш екстремальними, ніж найбільш токсичні приклади, використані в попередніх дослідженнях.
Існує також ширший зсув у тому, як навчаються моделі. Оскільки LLM стають більш просунутими, вони піддаються впливу більш різноманітних даних і більш складних процесів налаштування інструкцій, що може змінити те, як вони інтерпретують тонкі мовні сигнали.
Ідея про те, що тон може впливати на продуктивність ШІ, пов'язана з ширшим і більш тривожним явищем: соціальним підказуванням.
Окреме дослідження, дослідження GASLIGHTBENCH, опубліковане 7 грудня 2025 року, показує, що LLM дуже сприйнятливі до соціальних сигналів, таких як лестощі, емоційні заклики та хибний авторитет. У цих експериментах моделі часто відмовляються від фактичної точності, щоб узгодитися з тоном або очікуваннями користувача, поведінка, відома як підлабузництво.
Наприклад, коли користувачі представляють неправильну інформацію з впевненістю або емоційним тиском, моделі можуть погодитися, а не кинути їм виклик. У деяких випадках точність значно падає, особливо в багатоходових розмовах, де користувач неодноразово підкріплює хибне твердження.
Це створює парадокс. З одного боку, ввічлива або соціально насичена мова може зробити взаємодію більш природною та людською. З іншого боку, вона може внести шум — або навіть упередженість — що погіршує продуктивність моделі.
Висновки GASLIGHTBENCH йдуть далі, припускаючи, що методи узгодження, розроблені для того, щоб зробити моделі "корисними", можуть ненавмисно заохочувати цю поведінку. Винагороджуючи ввічливість і поступливість, процеси навчання можуть підштовхувати моделі віддавати пріоритет соціальній гармонії над об'єктивною істиною.
Взяті разом, ці висновки кидають виклик загальному припущенню: що LLM інтерпретують мову подібно до людей.
Насправді ці системи є статистичними двигунами. Вони не розуміють ввічливості як соціальної норми; вони розпізнають її як патерн у даних. Коли ви кажете "будь ласка", модель не відчуває примусу допомогти; вона просто обробляє додаткові токени, які можуть або не можуть допомогти їй передбачити правильну відповідь.
Якщо що, дослідження припускає, що LLM можуть бути більш чутливими до структурної ясності, ніж до соціального нюансу. Пряма, імперативна мова може зменшити двозначність і полегшити моделі відображення вхідних даних до відомого патерну.
Це також викликає питання про "гіпотезу подібності" — ідею про те, що моделі працюють найкраще, коли завдання нагадують їхні навчальні дані. Якщо тон сам по собі може змінити точність, тоді подібність стосується не лише змісту, а й форми.
Незважаючи на результати, які привертають увагу заголовків, дослідники обережно не рекомендують користувачам ставати грубими або образливими.
Для людей, які створюють і вивчають системи ШІ, висновки підкреслюють глибшу проблему: моделі успадковують патерни та упередження людської мови.
Алекс Цадо, експерт з ШІ, який тісно працював з розробниками моделей і є засновником та директором Alliance4AI, однієї з найбільших спільнот ШІ в Африці, говорить відверто: "Моделі вчаться з даних про людську взаємодію, тому поки вони навчаються наосліп, вони слідують тому, що відбувається в людському просторі. Тому, якщо ми думаємо, що в людському просторі є упередження або шкідлива практика, це буде автоматизовано в просторі ШІ."
Це включає те, як використовується тон.
"Але коли ви відповідаєте за створення моделі ШІ, ви можете скоригувати упередження від речей, які ви вважаєте шкідливими", — додає Цадо. "У цьому випадку, коли я зустрівся з командою Anthropic на початку грудня 2025 року, вони сказали, що побачили це і додали речі, щоб змусити свої моделі реагувати на ці приємні або неприємні слова."
Іншими словами, це не фіксована властивість ШІ. Це можна налаштувати через навчання та дизайн.
Поточне дослідження все ще обмежене. Експерименти зосереджуються на питаннях з кількома варіантами відповідей, а не на більш складних завданнях, таких як кодування, написання або довгі міркування. Незрозуміло, чи збережуться ті самі патерни в цих сферах, де нюанси та пояснення мають більше значення.
Існують також культурні та лінгвістичні фактори, які слід враховувати. Ввічливість значно варіюється в різних мовах і контекстах, і категорії тону дослідження базуються на конкретних англійських виразах.
Тим не менш, наслідки важко ігнорувати.
Якщо щось настільки поверхневе, як тон, може послідовно впливати на продуктивність ШІ, це свідчить про те, що проектування підказок далеке від вирішення. Невеликі зміни у формулюваннях, які часто упускають з виду, можуть мати помітні наслідки.
Для користувачів урок простий, але протиінтуїтивний: те, як ви запитуєте, має значення, і ввічливість не завжди є найкращою стратегією.
Для дослідників і розробників виклик є більш складним. Як ви проектуєте системи, які є одночасно точними та узгодженими з людськими цінностями? Як ви гарантуєте, що соціальні сигнали не спотворюють фактичні результати?
І, мабуть, найважливіше, як ви будуєте ШІ, який розуміє не лише те, що ми говоримо, а те, що ми маємо на увазі?
Поки на ці питання не буде дано відповідей, одне є зрозумілим: коли справа стосується ШІ, хороші манери не завжди окупаються.


