Los "Doctores" de IA están haciendo trampa en los exámenes de la facultad de medicina
dpa/picture alliance via Getty Images
Los sistemas de inteligencia artificial más avanzados del mundo están esencialmente haciendo trampa en las pruebas médicas, logrando puntuaciones impresionantes no a través de conocimientos médicos genuinos, sino explotando lagunas en cómo estas pruebas están diseñadas. Este descubrimiento tiene enormes implicaciones para la industria médica de IA de cien mil millones y para cada paciente que podría encontrarse con atención sanitaria impulsada por IA.
El Problema del Comportamiento fraudulento de la IA Médica
Piense en los puntos de referencia de la IA médica como pruebas estandarizadas que miden qué tan bien los sistemas de inteligencia artificial entienden la medicina. Así como los estudiantes toman los SAT para demostrar que están listos para la universidad, los sistemas de IA toman estos puntos de referencia médicos para demostrar que están listos para ayudar a los médicos a diagnosticar enfermedades y recomendar tratamientos.
Pero un reciente estudio innovador publicado por Microsoft Research revela que estos sistemas de IA no están realmente aprendiendo medicina. Solo se están volviendo muy buenos para hacer exámenes. Es como descubrir que un estudiante logró puntuaciones perfectas en el SAT no por entender matemáticas y lectura, sino por memorizar qué opción de respuesta tiende a ser correcta con más frecuencia.
Los investigadores sometieron a seis modelos de IA principales a rigurosas pruebas de estrés y descubrieron que estos sistemas logran altas puntuaciones médicas a través de sofisticados trucos para hacer exámenes en lugar de una comprensión médica real.
Cómo los Sistemas de IA Engañan al Sistema
El equipo de investigación descubrió múltiples formas en que los sistemas de IA falsifican la competencia médica, utilizando métodos que casi con seguridad harían que un estudiante humano fuera expulsado:
- Cuando los investigadores simplemente reorganizaron el orden de las respuestas de opción múltiple, moviendo la opción A a la opción C por ejemplo, el rendimiento de la IA disminuyó significativamente. Esto significa que los sistemas estaban aprendiendo "la respuesta suele estar en la posición B" en lugar de "la neumonía causa estos síntomas específicos".
- En preguntas que requerían analizar imágenes médicas como rayos X o resonancias magnéticas, los sistemas de IA seguían proporcionando respuestas correctas incluso cuando las imágenes se eliminaban por completo. GPT-5, por ejemplo, mantuvo un 37,7% de precisión en preguntas que requerían visualización incluso sin ninguna imagen, muy por encima del nivel de probabilidad aleatoria del 20%.
- Los sistemas de IA descubrieron cómo usar pistas en las opciones de respuesta incorrectas para adivinar la correcta, en lugar de aplicar conocimientos médicos reales. Los investigadores descubrieron que estos modelos dependían en gran medida de la redacción de las respuestas incorrectas, conocidas como "distractores". Cuando esos distractores fueron reemplazados con términos no médicos, la precisión de la IA colapsó. Esto reveló que se apoyaba en trucos para hacer exámenes en lugar de una comprensión genuina.
Su Atención Médica Con IA
Esta investigación llega en un momento en que la IA se está expandiendo rápidamente en la atención médica. El ochenta por ciento de los hospitales ahora utilizan IA para mejorar la atención al paciente y la eficiencia operativa, con médicos que dependen cada vez más de la IA para todo, desde leer rayos X hasta sugerir tratamientos. Sin embargo, este estudio sugiere que los métodos de prueba actuales no pueden distinguir entre competencia médica genuina y algoritmos sofisticados para hacer exámenes.
El estudio de Microsoft Research encontró que modelos como GPT-5 lograron un 80,89% de precisión en desafíos de imágenes médicas, pero cayeron al 67,56% cuando se eliminaron las imágenes. Esta disminución de 13,33 puntos porcentuales revela una dependencia oculta de señales no visuales. Más preocupante aún, cuando los investigadores sustituyeron imágenes médicas por otras que respaldaban diagnósticos diferentes, la precisión del modelo colapsó en más de treinta puntos porcentuales a pesar de que no hubo cambios en las preguntas de texto.
Considere este escenario: Un sistema de IA logra una puntuación del 95% en pruebas de diagnóstico médico y se implementa en salas de emergencia para ayudar a los médicos a evaluar rápidamente a los pacientes. Pero si ese sistema logró su alta puntuación a través de trucos para hacer exámenes en lugar de comprensión médica, podría pasar por alto síntomas críticos o recomendar tratamientos inapropiados cuando se enfrenta a pacientes reales cuyas condiciones no coinciden con los patrones que aprendió de las preguntas de las pruebas.
Se proyecta que el mercado de IA médica superará los cien mil millones para 2030, con sistemas de salud en todo el mundo invirtiendo fuertemente en herramientas de diagnóstico de IA. Las organizaciones de atención médica que compran sistemas de IA basados en impresionantes puntuaciones de referencia pueden introducir sin saberlo riesgos significativos para la seguridad del paciente. Los investigadores de Microsoft advierten que "las puntuaciones de referencia médicas no reflejan directamente la preparación para el mundo real".
Las implicaciones van más allá de las puntuaciones de las pruebas. El estudio de Microsoft reveló que cuando se pidió a los modelos de IA que explicaran su razonamiento médico, a menudo generaban "razonamientos convincentes pero defectuosos" o proporcionaban "respuestas correctas respaldadas por razonamientos fabricados". Un ejemplo mostró un modelo diagnosticando correctamente dermatomiositis mientras describía características visuales que no estaban presentes en la imagen, ya que no se proporcionó ninguna imagen en absoluto.
Incluso mientras la adopción de IA se acelera, la rápida adopción de IA en la medicina tiene preocupados a los investigadores, con expertos advirtiendo que los hospitales y universidades deben intervenir para llenar los vacíos en la regulación.
El Problema de Reconocimiento de Patrones de la IA
A diferencia de los estudiantes de medicina humanos que aprenden entendiendo cómo las enfermedades afectan al cuerpo humano, los sistemas de IA actuales aprenden encontrando patrones en los datos. Esto crea lo que los investigadores de Microsoft llaman "aprendizaje por atajos", encontrando el camino más fácil hacia la respuesta correcta sin desarrollar una comprensión genuina.
El estudio encontró que los modelos de IA podrían diagnosticar neumonía no interpretando características radiológicas, sino aprendiendo que "tos productiva" más "fiebre" coocurre estadísticamente con neumonía en los datos de entrenamiento. Esto es coincidencia de patrones, no comprensión médica.
Investigaciones recientes de Nature destacan preocupaciones similares, mostrando que la confianza en los sistemas de salud asistidos por IA sigue siendo problemática cuando estos sistemas no logran demostrar una comprensión genuina de los contextos médicos.
Avanzando Con la IA Médica
Los investigadores de Microsoft abogan por repensar cómo probamos los sistemas de IA médica. En lugar de confiar en puntuaciones de referencia, necesitamos métodos de evaluación que puedan detectar cuándo los sistemas de IA están manipulando las pruebas en lugar de aprender medicina.
La industria de IA médica enfrenta un momento crítico. Los hallazgos de Microsoft Research revelan que las impresionantes puntuaciones de referencia han creado una ilusión de preparación que podría tener graves consecuencias para la seguridad del paciente. A medida que la IA continúa expandiéndose en la atención médica, nuestros métodos para verificar estos sistemas deben evolucionar para igualar su sofisticación y su potencial para fallos sofisticados.
Source: https://www.forbes.com/sites/larsdaniel/2025/10/03/ai-doctors-cheat-medical-tests/








