ChatGPT может доминировать на рынке ИИ-чатботов, но новый отчет предполагает, что популярность не равна надежности. А...ChatGPT может доминировать на рынке ИИ-чатботов, но новый отчет предполагает, что популярность не равна надежности. А...

ChatGPT назван наименее надежным рабочим чат-ботом в новом отчете о надежности ИИ

2025/12/11 02:38

ChatGPT может доминировать на рынке ИИ-чатботов, но новый отчет показывает, что популярность не равна надежности. Исследование декабря 2025 года, изучающее работу ведущих ИИ-чатботов в повседневных рабочих сценариях, признало ChatGPT наименее надежным вариантом для профессиональных задач. Эти выводы вызывают новые опасения у компаний, которые все больше зависят от инструментов ИИ в повседневной работе.

Исследование, проведенное компанией Relum, не просто изучало характеристики на бумаге; они провели стресс-тестирование десяти основных ИИ-чатботов в реальных профессиональных сценариях. Результаты? Огромный разрыв между шумихой и реальностью.

Исследование оценивало каждый чатбот по четырем ключевым критериям. Это были частота галлюцинаций, оценки продукта пользователями, согласованность ответов по задачам и частота простоев. Каждый фактор вносил вклад в комплексную оценку риска надежности, причем более высокие баллы указывали на большие потенциальные проблемы на рабочем месте.

Вот статистика, которая должна не давать спать руководителям бизнеса: несмотря на контроль над огромными 81% рынка и высокие оценки пользователей, ChatGPT зафиксировал частоту галлюцинаций в 35%.

Простыми словами, это означает, что более одного из каждых трех ответов содержит сфабрикованную или неверную информацию. Если вы используете его для написания фантастического романа, это нормально, но если вы используете его для отчетов о соответствии или принятия финансовых решений, это рецепт катастрофы. Следовательно, исследование присвоило ChatGPT оценку риска надежности 99 из 99, худшую в группе.

ChatGPT named least reliable work chatbot in new AI reliability reportChatGPT

Google не справился лучше. Хотя у Gemini было лучшее время безотказной работы, он фактически показал худшие результаты по чистой точности, зарегистрировав самую высокую частоту галлюцинаций во всей группе - 38%. Это подчеркивает странный парадокс на текущем рынке ИИ: инструменты, которые мы используем больше всего, часто являются теми, кто больше всего борется за сохранение точности своих фактов.

Claude и Meta AI занимают неопределенную среднюю позицию. Claude, несмотря на то, что является фаворитом за свой стиль письма, занял второе место по ненадежности из-за частых простоев и 17% частоты галлюцинаций. Meta AI был более точным (15% галлюцинаций), но пользователям, похоже, не нравится опыт работы с ним, давая ему самую низкую оценку удовлетворенности в группе (3,4 из 5).

"Аутсайдеры" – Grok и DeepSeek перехватывают инициативу у ChatGPT

Если крупные имена теряют позиции, кто же на самом деле выполняет работу? Удивительно, но исследование указывает на Grok и DeepSeek как на самые надежные инструменты для профессионального использования. У них нет огромных маркетинговых бюджетов или узнаваемости бренда OpenAI, но они просто работали лучше. DeepSeek не зафиксировал ни одного сбоя в обслуживании и свел галлюцинации к минимуму.

Kimi также показал хорошие результаты, найдя золотую середину между согласованностью и временем безотказной работы. Между тем, платные варианты, такие как Perplexity AI, были надежными, но вызвали вопросы о том, стоит ли подписка своих денег, когда более дешевые, менее известные альтернативы превосходят их по производительности.

ChatGPT named least reliable work chatbot in new AI reliability report

Руководитель технологического отдела(CTO) Relum, Разван-Лучиан Хайдук, предупредил, что надежность должна быть центральным фактором при принятии решений о внедрении ИИ. Он отметил, что около 65% американских компаний теперь используют ИИ-чатботы в повседневных рабочих процессах. Почти 45% сотрудников признаются, что делятся конфиденциальной информацией компании с этими инструментами.

По мере того как ИИ все больше внедряется в повседневную работу, риски дезинформации множатся. Хайдук подчеркнул, что наиболее широко используемый чатбот не всегда является лучшим выбором для каждой отрасли. Точность, время безотказной работы и производительность для конкретных задач должны перевешивать узнаваемость бренда.

Отчет служит проверкой реальности для отрасли. Доверие не должно даваться только потому, что чатбот известен; оно должно быть заработано через последовательную, проверяемую правду. Прямо сейчас похоже, что лидерам рынка предстоит серьезно наверстывать упущенное.

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно