ChatGPT puede dominar el mercado de chatbots de IA, pero un nuevo informe sugiere que la popularidad no equivale a la confiabilidad. Un estudio de diciembre de 2025 que examina cómo funcionan los principales chatbots de IA en escenarios laborales cotidianos ha clasificado a ChatGPT como la opción menos confiable para tareas profesionales. Los hallazgos generan nuevas preocupaciones para las empresas que dependen cada vez más de herramientas de IA para operaciones diarias.
El estudio, realizado por Relum, no solo analizó especificaciones en papel; sometieron a pruebas de estrés a diez importantes chatbots de IA en escenarios profesionales del mundo real. ¿Los resultados? Una desconexión masiva entre la expectativa y la realidad.
El estudio evaluó cada chatbot según cuatro criterios clave. Estos fueron la tasa de alucinación, las calificaciones de productos por parte de los clientes, la consistencia de respuesta en todas las tareas y la frecuencia de tiempo de inactividad. Cada factor contribuyó a una puntuación compuesta de riesgo de confiabilidad, donde puntuaciones más altas indican mayores problemas potenciales en el lugar de trabajo.
Aquí está la estadística que debería mantener despiertos a los líderes empresariales: A pesar de controlar un masivo 81% del mercado y presumir de altas calificaciones de usuarios, ChatGPT registró una tasa de alucinación del 35%.
En términos simples, eso significa que más de una de cada tres respuestas que da contiene información fabricada o incorrecta. Si lo estás usando para redactar una novela de fantasía, está bien, pero si lo estás usando para informes de cumplimiento o toma de decisiones financieras, esa es una receta para el desastre. En consecuencia, el estudio calificó a ChatGPT con una puntuación de riesgo de confiabilidad de 99 sobre 99, la peor del grupo.
ChatGPT
A Google no le fue mejor. Aunque Gemini tuvo mejor tiempo de actividad, en realidad funcionó peor en precisión pura, registrando la tasa de alucinación más alta de todo el grupo con un 38%. Esto destaca una extraña paradoja en el mercado actual de IA: las herramientas que más usamos son a menudo las que más luchan por mantener sus datos correctos.
Claude y Meta AI ocupan un terreno intermedio turbio. Claude, a pesar de ser favorito por su estilo de escritura, se clasificó como el segundo menos confiable debido a frecuentes tiempos de inactividad y una tasa de alucinación del 17%. Meta AI fue más preciso (15% de alucinación), pero los usuarios parecen no gustar de la experiencia, dándole la calificación de satisfacción más baja del grupo (3,4 de 5).
Si los grandes nombres están fallando, ¿quién está realmente haciendo el trabajo? Sorprendentemente, el estudio señala a Grok y DeepSeek como las herramientas más confiables para uso profesional. No tienen los enormes presupuestos de marketing o reconocimiento de marca de OpenAI, pero simplemente funcionaron mejor. DeepSeek registró cero interrupciones de servicio y mantuvo las alucinaciones al mínimo.
Kimi también obtuvo buenos resultados, encontrando un punto ideal entre consistencia y tiempo de actividad. Mientras tanto, las opciones de pago como Perplexity AI fueron sólidas pero plantearon preguntas sobre si el costo de suscripción vale la pena cuando alternativas más baratas y menos conocidas las están superando.
El Director de Producto de Relum, Razvan-Lucian Haiduc, advirtió que la confiabilidad debería ser un factor central en las decisiones de adopción de IA. Señaló que alrededor del 65% de las empresas estadounidenses ahora usan chatbots de IA en flujos de trabajo diarios. Casi el 45% de los empleados admiten compartir información sensible de la empresa con estas herramientas.
A medida que la IA se integra más en el trabajo rutinario, los riesgos de desinformación se multiplican. Haiduc enfatizó que el chatbot más ampliamente utilizado no siempre es el más adecuado para cada industria. La precisión, el tiempo de actividad y el rendimiento específico de tareas deberían pesar más que la familiaridad con la marca.
El informe sirve como una verificación de la realidad para la industria. La confianza no debería darse solo porque un chatbot sea famoso; debería ganarse a través de una verdad consistente y verificable. En este momento, parece que los líderes del mercado tienen mucho trabajo por hacer para ponerse al día.


