AI「醫生」在醫學院考試中作弊
dpa/picture alliance via Getty Images
世界上最先進的人工智慧系統本質上是透過作弊方式通過醫學測驗,它們取得令人印象深刻的分數並非憑藉真正的醫學知識,而是利用這些測驗設計中的漏洞。這一發現對價值千億美元的醫療AI產業以及每位可能接觸AI驅動醫療保健的患者都有巨大影響。
醫療AI作弊問題
將醫療AI基準測試視為標準化考試,用來衡量人工智慧系統對醫學的理解程度。就像學生參加SAT考試證明他們已準備好上大學一樣,AI系統參加這些醫療基準測試來證明它們已準備好協助醫生診斷疾病並推薦治療方案。
但微軟研究院最近發表的一項突破性研究揭示,這些AI系統實際上並未學習醫學知識。它們只是變得非常擅長應付考試。這就像發現一名學生獲得完美SAT分數不是因為理解數學和閱讀,而是透過記憶哪個選項通常最可能是正確答案。
研究人員對六個頂尖AI模型進行了嚴格的壓力測試,發現這些系統透過複雜的應試技巧而非真正的醫學理解來獲得高分。
AI系統如何欺騙系統
研究團隊發現AI系統偽造醫學能力的多種方式,這些方法幾乎肯定會讓人類學生被開除:
- 當研究人員僅僅重新排列多項選擇題答案的順序,例如將選項A移至選項C,AI表現顯著下降。這意味著系統學習的是「答案通常在B位置」而非「肺炎導致這些特定症狀」。
- 對於需要分析醫學影像如X光或核磁共振的問題,即使完全移除影像,AI系統仍能提供正確答案。例如,GPT-5在沒有任何影像的情況下,在視覺要求問題上仍保持37.7%的準確率,遠高於20%的隨機機率水平。
- AI系統找出如何利用錯誤選項中的線索來猜測正確答案,而非應用真正的醫學知識。研究人員發現這些模型嚴重依賴錯誤答案的措辭,即所謂的「干擾項」。當這些干擾項被非醫學術語替換時,AI的準確率崩潰。這揭示它依賴的是應試技巧而非真正的理解。
基於AI的醫療保健
這項研究出現在AI迅速擴展到醫療保健領域的時刻。目前80%的醫院使用AI改善患者護理和運營效率,醫生越來越依賴AI進行從閱讀X光到建議治療的各種任務。然而,這項研究表明,目前的測試方法無法區分真正的醫學能力和複雜的應試算法。
微軟研究院的研究發現,像GPT-5這樣的模型在醫學影像挑戰中達到了80.89%的準確率,但當移除影像時,準確率降低到了67.56%。這13.33個百分點的下降揭示了對非視覺線索的隱藏依賴。更令人擔憂的是,當研究人員用支持不同診斷的影像替換醫學影像時,儘管文字問題沒有變化,模型準確率仍然下降了超過三十個百分點。
考慮這種情況:一個AI系統在醫學診斷測試中獲得95%的分數,並被部署在急診室幫助醫生快速評估患者。但如果該系統是通過應試技巧而非醫學理解獲得高分,當面對實際患者時,如果患者的病情與它從測試問題中學到的模式不符,它可能會錯過關鍵症狀或推薦不適當的治療。
醫療AI市場預計到2030年將超過千億美元,全球醫療系統正大量投資AI診斷工具。基於令人印象深刻的基準分數購買AI系統的醫療機構可能在不知情的情況下引入重大患者安全風險。微軟研究人員警告「醫療基準分數並不直接反映現實世界的準備程度」。
影響超出了測試分數。微軟的研究揭示,當要求AI模型解釋其醫學推理時,它們經常生成「令人信服但有缺陷的推理」或提供「由虛構推理支持的正確答案」。一個例子顯示,一個模型正確診斷了皮肌炎,同時描述了影像中不存在的視覺特徵,因為根本沒有提供任何影像。
即使AI採用加速,醫學領域對AI的快速採用讓研究人員感到擔憂,專家警告醫院和大學必須加強行動填補監管空白。
AI模式識別問題
與通過理解疾病如何影響人體來學習的人類醫學生不同,目前的AI系統通過在數據中尋找模式來學習。這創造了微軟研究人員所稱的「捷徑學習」,尋找到達正確答案的最簡單路徑,而不發展真正的理解。
研究發現,AI模型可能診斷肺炎不是通過解釋放射學特徵,而是通過學習「咳嗽有痰」加上「發燒」在訓練數據中與肺炎統計上共同出現。這是模式匹配,而非醫學理解。
《Nature》最近的研究強調了類似的擔憂,顯示當這些系統無法展示對醫學環境的真正理解時,對AI輔助健康系統的信任仍然存在問題。
醫療AI的未來發展
微軟研究人員主張重新思考我們如何測試醫療AI系統。我們需要的不是依賴基準分數,而是能夠檢測AI系統何時在玩弄測試而非學習醫學的評估方法。
醫療AI產業面臨關鍵時刻。微軟研究的發現揭示,令人印象深刻的基準分數創造了一種準備就緒的錯覺,這可能對患者安全產生嚴重後果。隨著AI繼續擴展到醫療保健領域,我們驗證這些系統的方法必須發展以匹配它們的複雜性及其潛在的複雜失敗。
Source: https://www.forbes.com/sites/larsdaniel/2025/10/03/ai-doctors-cheat-medical-tests/








