قد يهيمن ChatGPT على سوق روبوتات الدردشة القائمة على الذكاء الاصطناعي، لكن تقريرًا جديدًا يشير إلى أن الشعبية لا تعادل الجدارة بالثقة. فقد صنفت دراسة أجريت في ديسمبر 2025 تبحث في كيفية أداء روبوتات الدردشة الرائدة القائمة على الذكاء الاصطناعي في سيناريوهات العمل اليومية ChatGPT كأقل خيار موثوق للمهام المهنية. تثير النتائج مخاوف جديدة للشركات التي تعتمد بشكل متزايد على أدوات الذكاء الاصطناعي للعمليات اليومية.
لم تنظر الدراسة، التي أجرتها Relum، إلى المواصفات على الورق فحسب؛ بل اختبرت عشرة روبوتات دردشة رئيسية قائمة على الذكاء الاصطناعي في سيناريوهات مهنية واقعية. النتائج؟ انفصال هائل بين الضجة والواقع.
قيّمت الدراسة كل روبوت دردشة عبر أربعة معايير رئيسية. وهي معدل الهلوسة، وتقييمات المنتج من قبل العملاء، واتساق الاستجابة عبر المهام، وتكرار أوقات التوقف. ساهم كل عامل في درجة مخاطر الموثوقية المركبة، حيث تشير الدرجات الأعلى إلى مشاكل محتملة أكبر في مكان العمل.
إليك الإحصائية التي يجب أن تبقي قادة الأعمال مستيقظين طوال الليل: على الرغم من السيطرة على 81% من السوق والتباهي بتقييمات المستخدمين العالية، سجل ChatGPT معدل هلوسة بنسبة 35%.
بعبارة بسيطة، هذا يعني أن أكثر من إجابة واحدة من كل ثلاث إجابات يقدمها تحتوي على معلومات مختلقة أو غير صحيحة. إذا كنت تستخدمه لصياغة رواية خيالية، فهذا جيد، ولكن إذا كنت تستخدمه لتقارير الامتثال أو اتخاذ القرارات المالية، فهذه وصفة للكارثة. ونتيجة لذلك، حصل ChatGPT على درجة مخاطر موثوقية بلغت 99 من 99، وهي الأسوأ في المجموعة.
ChatGPT
لم يكن أداء Google أفضل. في حين أن Gemini كان لديه وقت تشغيل أفضل، إلا أنه في الواقع كان أداؤه أسوأ من حيث الدقة البحتة، مسجلاً أعلى معدل هلوسة في المجموعة بأكملها بنسبة 38%. يسلط هذا الضوء على مفارقة غريبة في سوق الذكاء الاصطناعي الحالي: الأدوات التي نستخدمها أكثر هي غالبًا تلك التي تكافح بشدة للحفاظ على دقة حقائقها.
يحتل Claude و Meta AI أرضية وسطى غامضة. على الرغم من كونه المفضل لأسلوب كتابته، تم تصنيف Claude كثاني أقل موثوقية بسبب أوقات التوقف المتكررة ومعدل الهلوسة بنسبة 17%. كان Meta AI أكثر دقة (15% هلوسة)، لكن يبدو أن المستخدمين لا يحبون التجربة، مما أعطاه أدنى تقييم للرضا في المجموعة (3.4 من 5).
إذا كانت الأسماء الكبيرة تفشل، فمن الذي يقوم بالعمل فعلاً؟ بشكل مفاجئ، تشير الدراسة إلى Grok و DeepSeek كأكثر الأدوات موثوقية للاستخدام المهني. ليس لديهم ميزانيات تسويقية ضخمة أو اعتراف بالعلامة التجارية مثل OpenAI، لكنهم ببساطة عملوا بشكل أفضل. سجل DeepSeek صفر انقطاع في الخدمة وحافظ على الهلوسات عند الحد الأدنى.
حقق Kimi أيضًا نتائج جيدة، حيث وجد نقطة مثالية بين الاتساق ووقت التشغيل. في الوقت نفسه، كانت الخيارات المدفوعة مثل Perplexity AI قوية ولكنها أثارت تساؤلات حول ما إذا كانت تكلفة الاشتراك تستحق ذلك عندما تتفوق البدائل الأقل شهرة والأرخص عليها.
حذر المدير التقني في Relum، رازفان-لوسيان هايدوك، من أن الموثوقية يجب أن تكون عاملاً مركزيًا في قرارات اعتماد الذكاء الاصطناعي. وأشار إلى أن حوالي 65% من الشركات الأمريكية تستخدم الآن روبوتات الدردشة القائمة على الذكاء الاصطناعي في سير العمل اليومي. يعترف ما يقرب من 45% من الموظفين بمشاركة معلومات حساسة عن الشركة مع هذه الأدوات.
مع تضمين الذكاء الاصطناعي بشكل أكبر في العمل الروتيني، تتضاعف مخاطر المعلومات المضللة. أكد هايدوك أن روبوت الدردشة الأكثر استخدامًا ليس دائمًا الأنسب لكل صناعة. يجب أن تفوق الدقة ووقت التشغيل والأداء المحدد للمهام الألفة بالعلامة التجارية.
يعد التقرير بمثابة فحص للواقع للصناعة. لا ينبغي منح الثقة لمجرد أن روبوت الدردشة مشهور؛ يجب أن تُكتسب من خلال الحقيقة المتسقة والقابلة للتحقق. في الوقت الحالي، يبدو أن قادة السوق لديهم بعض اللحاق الجاد للقيام به.

نسخ الرابطX (تويتر)لينكد إنفيسبوكالبريد الإلكتروني
DOT ينخفض بنسبة 2% بعد كسر الدعم الرئيسي
الـ
