"Médicos" de IA burlam testes médicos

"Médicos" de IA estão a fraudar exames de medicina

dpa/picture alliance via Getty Images

Os sistemas de inteligência artificial mais avançados do mundo estão essencialmente a fraudar os testes médicos, alcançando pontuações impressionantes não através de conhecimento médico genuíno, mas explorando lacunas na forma como estes testes são concebidos. Esta descoberta tem implicações massivas para a indústria de IA médica de cem mil milhões e para cada paciente que possa encontrar cuidados de saúde impulsionados por IA.

O Problema de Fraude da IA Médica

Pense nos benchmarks de IA médica como testes padronizados que medem quão bem os sistemas de inteligência artificial compreendem a medicina. Assim como os estudantes fazem exames para provar que estão prontos para a universidade, os sistemas de IA fazem estes benchmarks médicos para demonstrar que estão prontos para ajudar os médicos a diagnosticar doenças e recomendar tratamentos.

Mas um recente estudo inovador publicado pela Microsoft Research revela que estes sistemas de IA não estão realmente a aprender medicina. Estão apenas a ficar muito bons a fazer testes. É como descobrir que um estudante alcançou pontuações perfeitas não por compreender matemática e leitura, mas por memorizar qual opção de resposta tende a estar correta com mais frequência.

Os investigadores submeteram seis modelos de IA de topo a rigorosos testes de stress e descobriram que estes sistemas alcançam altas pontuações médicas através de sofisticados truques para fazer testes, em vez de uma verdadeira compreensão médica.

Como os Sistemas de IA Fraudam o Sistema

A equipa de investigação descobriu múltiplas formas como os sistemas de IA falsificam competência médica, usando métodos que quase certamente levariam à expulsão de um estudante humano:

Quando os investigadores simplesmente reorganizaram a ordem das respostas de escolha múltipla, movendo a opção A para a opção C por exemplo, o desempenho da IA caiu significativamente. Isto significa que os sistemas estavam a aprender "a resposta está geralmente na posição B" em vez de "a pneumonia causa estes sintomas específicos."
Em questões que exigiam a análise de imagens médicas como raios-X ou ressonâncias magnéticas, os sistemas de IA ainda forneciam respostas corretas mesmo quando as imagens eram completamente removidas. O GPT-5, por exemplo, manteve 37,7% de precisão em questões visualmente necessárias mesmo sem qualquer imagem, muito acima do nível de 20% de probabilidade aleatória.
Os sistemas de IA descobriram como usar pistas nas escolhas de respostas erradas para adivinhar a correta, em vez de aplicar conhecimento médico real. Os investigadores descobriram que estes modelos dependiam fortemente da formulação das respostas erradas, conhecidas como "distratores". Quando esses distratores foram substituídos por termos não médicos, a precisão da IA colapsou. Isto revelou que estava a apoiar-se em truques para fazer testes em vez de compreensão genuína.

Os Seus Cuidados de Saúde Com IA

Esta investigação surge num momento em que a IA está a expandir-se rapidamente na área da saúde. Oitenta por cento dos hospitais agora usam IA para melhorar os cuidados aos pacientes e a eficiência operacional, com médicos a depender cada vez mais da IA para tudo, desde a leitura de raios-X até à sugestão de tratamentos. No entanto, este estudo sugere que os métodos de teste atuais não conseguem distinguir entre competência médica genuína e algoritmos sofisticados para fazer testes.

O estudo da Microsoft Research descobriu que modelos como o GPT-5 alcançaram 80,89% de precisão em desafios de imagem médica, mas caíram para 67,56% quando as imagens foram removidas. Esta diminuição de 13,33 pontos percentuais revela uma dependência oculta de pistas não visuais. Ainda mais preocupante, quando os investigadores substituíram imagens médicas por outras que apoiavam diagnósticos diferentes, a precisão do modelo colapsou em mais de trinta pontos percentuais, apesar de não haver alteração nas questões de texto.

Considere este cenário: Um sistema de IA alcança uma pontuação de 95% em testes de diagnóstico médico e é implementado em salas de emergência para ajudar os médicos a avaliar rapidamente os pacientes. Mas se esse sistema alcançou a sua alta pontuação através de truques para fazer testes em vez de compreensão médica, pode perder sintomas críticos ou recomendar tratamentos inadequados quando confrontado com pacientes reais cujas condições não correspondem aos padrões que aprendeu com as questões do teste.

Prevê-se que o mercado de IA médica exceda os cem mil milhões até 2030, com sistemas de saúde em todo o mundo a investir fortemente em ferramentas de diagnóstico de IA. Organizações de saúde que adquirem sistemas de IA com base em impressionantes pontuações de referência podem, sem saber, introduzir riscos significativos para a segurança dos pacientes. Os investigadores da Microsoft alertam que "as pontuações de referência médicas não refletem diretamente a prontidão para o mundo real".

As implicações vão além das pontuações dos testes. O estudo da Microsoft revelou que quando os modelos de IA foram solicitados a explicar o seu raciocínio médico, muitas vezes geravam "raciocínio convincente mas falho" ou forneciam "respostas corretas apoiadas por raciocínio fabricado". Um exemplo mostrou um modelo a diagnosticar corretamente dermatomiosite enquanto descrevia características visuais que não estavam presentes na imagem, já que nenhuma imagem foi fornecida.

Mesmo com a adoção da IA a acelerar, a rápida adoção da IA pela Medicina tem preocupado os investigadores, com especialistas a alertar que hospitais e universidades devem intensificar esforços para preencher lacunas na regulamentação.

O Problema de Reconhecimento de Padrões da IA

Ao contrário dos estudantes de medicina humanos que aprendem compreendendo como as doenças afetam o corpo humano, os sistemas de IA atuais aprendem encontrando padrões nos dados. Isto cria o que os investigadores da Microsoft chamam de "aprendizagem por atalho", encontrando o caminho mais fácil para a resposta certa sem desenvolver uma compreensão genuína.

O estudo descobriu que os modelos de IA podem diagnosticar pneumonia não interpretando características radiológicas, mas aprendendo que "tosse produtiva" mais "febre" co-ocorre estatisticamente com pneumonia nos dados de treino. Isto é correspondência de padrões, não compreensão médica.

Investigação recente da Nature destaca preocupações semelhantes, mostrando que a confiança em sistemas de saúde assistidos por IA permanece problemática quando estes sistemas falham em demonstrar uma compreensão genuína dos contextos médicos.

Avançando Com a IA Médica

Os investigadores da Microsoft defendem repensar como testamos sistemas de IA médica. Em vez de confiar em pontuações de referência, precisamos de métodos de avaliação que possam detetar quando os sistemas de IA estão a manipular testes em vez de aprender medicina.

A indústria de IA médica enfrenta um momento crítico. As descobertas da Microsoft Research revelam que impressionantes pontuações de referência criaram uma ilusão de prontidão que poderia ter sérias consequências para a segurança dos pacientes. À medida que a IA continua a expandir-se na área da saúde, os nossos métodos para verificar estes sistemas devem evoluir para corresponder à sua sofisticação e ao seu potencial para falhas sofisticadas.

Fonte: https://www.forbes.com/sites/larsdaniel/2025/10/03/ai-doctors-cheat-medical-tests/