Les "Docteurs" IA trichent aux examens des écoles de médecine
dpa/picture alliance via Getty Images
Les systèmes d'intelligence artificielle les plus avancés au monde trichent essentiellement lors des tests médicaux, obtenant des scores impressionnants non pas grâce à de véritables connaissances médicales, mais en exploitant des failles dans la conception de ces tests. Cette découverte a d'énormes implications pour l'industrie de l'IA médicale de cent milliards de dollars et pour chaque patient susceptible de rencontrer des soins de santé pilotés par l'IA.
Le problème de triche de l'IA médicale
Considérez les références de l'IA médicale comme des tests standardisés qui mesurent la compréhension de la médecine par les systèmes d'intelligence artificielle. Tout comme les étudiants passent des examens pour prouver qu'ils sont prêts pour l'université, les systèmes d'IA passent ces tests médicaux pour démontrer qu'ils sont prêts à aider les médecins à diagnostiquer des maladies et à recommander des traitements.
Mais une récente étude révolutionnaire publiée par Microsoft Research révèle que ces systèmes d'IA n'apprennent pas réellement la médecine. Ils deviennent simplement très doués pour passer des tests. C'est comme découvrir qu'un étudiant a obtenu des scores parfaits aux examens non pas en comprenant les mathématiques et la lecture, mais en mémorisant quelle réponse tend à être correcte le plus souvent.
Les chercheurs ont soumis six modèles d'IA de premier plan à des tests de stress rigoureux et ont découvert que ces systèmes obtiennent des scores médicaux élevés grâce à des astuces sophistiquées de passage de tests plutôt que par une véritable compréhension médicale.
Comment les systèmes d'IA trichent
L'équipe de recherche a découvert plusieurs façons dont les systèmes d'IA simulent la compétence médicale, en utilisant des méthodes qui conduiraient presque certainement à l'expulsion d'un étudiant humain :
- Lorsque les chercheurs ont simplement réorganisé l'ordre des réponses à choix multiples, déplaçant par exemple l'option A vers l'option C, les performances de l'IA ont considérablement chuté. Cela signifie que les systèmes apprenaient que "la réponse est généralement en position B" plutôt que "la pneumonie provoque ces symptômes spécifiques".
- Pour les questions nécessitant l'analyse d'images médicales comme des radiographies ou des IRM, les systèmes d'IA fournissaient encore des réponses correctes même lorsque les images étaient complètement supprimées. GPT-5, par exemple, a maintenu une précision de 37,7 % sur les questions visuelles même sans aucune image, bien au-dessus du niveau de chance aléatoire de 20 %.
- Les systèmes d'IA ont découvert comment utiliser des indices dans les mauvaises réponses pour deviner la bonne, plutôt que d'appliquer de véritables connaissances médicales. Les chercheurs ont constaté que ces modèles s'appuyaient fortement sur la formulation des mauvaises réponses, connues sous le nom de "distracteurs". Lorsque ces distracteurs ont été remplacés par des termes non médicaux, la précision de l'IA s'est effondrée. Cela a révélé qu'elle s'appuyait sur des astuces de passage de tests plutôt que sur une véritable compréhension.
Vos soins de santé avec l'IA
Cette recherche arrive à un moment où l'IA se développe rapidement dans le domaine de la santé. Quatre-vingts pour cent des hôpitaux utilisent désormais l'IA pour améliorer les soins aux patients et l'efficacité opérationnelle, les médecins s'appuyant de plus en plus sur l'IA pour tout, de la lecture des radiographies à la suggestion de traitements. Pourtant, cette étude suggère que les méthodes de test actuelles ne peuvent pas distinguer entre une véritable compétence médicale et des algorithmes sophistiqués de passage de tests.
L'étude de Microsoft Research a révélé que des modèles comme GPT-5 atteignaient une précision de 80,89 % sur les défis d'images médicales, mais chutaient à 67,56 % lorsque les images étaient supprimées. Cette baisse de 13,33 points de pourcentage révèle une dépendance cachée aux indices non visuels. Plus inquiétant encore, lorsque les chercheurs ont remplacé des images médicales par d'autres soutenant des diagnostics différents, la précision du modèle s'est effondrée de plus de trente points de pourcentage malgré l'absence de changement dans les questions textuelles.
Considérez ce scénario : un système d'IA obtient un score de 95 % aux tests de diagnostic médical et est déployé dans les services d'urgence pour aider les médecins à évaluer rapidement les patients. Mais si ce système a obtenu son score élevé grâce à des astuces de passage de tests plutôt que par une compréhension médicale, il pourrait manquer des symptômes critiques ou recommander des traitements inappropriés face à de vrais patients dont les conditions ne correspondent pas aux modèles qu'il a appris à partir des questions de test.
Le marché de l'IA médicale devrait dépasser cent milliards de dollars d'ici 2030, les systèmes de santé du monde entier investissant massivement dans des outils de diagnostic basés sur l'IA. Les organisations de santé qui achètent des systèmes d'IA sur la base de scores de référence impressionnants peuvent introduire à leur insu des risques importants pour la sécurité des patients. Les chercheurs de Microsoft avertissent que "les scores de référence médicaux ne reflètent pas directement la préparation au monde réel".
Les implications vont au-delà des scores aux tests. L'étude de Microsoft a révélé que lorsqu'on demandait aux modèles d'IA d'expliquer leur raisonnement médical, ils généraient souvent un "raisonnement convaincant mais défectueux" ou fournissaient "des réponses correctes soutenues par un raisonnement fabriqué". Un exemple montrait un modèle diagnostiquant correctement une dermatomyosite tout en décrivant des caractéristiques visuelles qui n'étaient pas présentes dans l'image, puisqu'aucune image n'était fournie du tout.
Même si l'adoption de l'IA s'accélère, l'adoption rapide de l'IA par la médecine préoccupe les chercheurs, les experts avertissant que les hôpitaux et les universités doivent intensifier leurs efforts pour combler les lacunes en matière de réglementation.
Le problème de reconnaissance de motifs de l'IA
Contrairement aux étudiants en médecine humains qui apprennent en comprenant comment les maladies affectent le corps humain, les systèmes d'IA actuels apprennent en trouvant des modèles dans les données. Cela crée ce que les chercheurs de Microsoft appellent "l'apprentissage par raccourci", trouvant le chemin le plus facile vers la bonne réponse sans développer une véritable compréhension.
L'étude a révélé que les modèles d'IA pourraient diagnostiquer une pneumonie non pas en interprétant les caractéristiques radiologiques, mais en apprenant que "toux productive" plus "fièvre" coexiste statistiquement avec la pneumonie dans les données d'entraînement. C'est de la correspondance de modèles, pas de la compréhension médicale.
Des recherches récentes de Nature soulignent des préoccupations similaires, montrant que la confiance dans les systèmes de santé assistés par l'IA reste problématique lorsque ces systèmes ne parviennent pas à démontrer une véritable compréhension des contextes médicaux.
Avancer avec l'IA médicale
Les chercheurs de Microsoft préconisent de repenser la façon dont nous testons les systèmes d'IA médicale. Au lieu de s'appuyer sur des scores de référence, nous avons besoin de méthodes d'évaluation qui peuvent détecter quand les systèmes d'IA manipulent les tests plutôt que d'apprendre la médecine.
L'industrie de l'IA médicale fait face à un moment critique. Les résultats de Microsoft Research révèlent que des scores de référence impressionnants ont créé une illusion de préparation qui pourrait avoir de graves conséquences pour la sécurité des patients. Alors que l'IA continue de se développer dans les soins de santé, nos méthodes de vérification de ces systèmes doivent évoluer pour correspondre à leur sophistication et à leur potentiel d'échec sophistiqué.
Source: https://www.forbes.com/sites/larsdaniel/2025/10/03/ai-doctors-cheat-medical-tests/








