微軟證實AI在多輪對話中存在對話迷失缺陷!研究揭露,頂尖大型語言模型在多輪對話中成功率驟降,這種對話迷失現象是系統性問題,值得關注。相信許多人在跟 AI 進行長篇大論的對話時,常常會覺得它們好像漸漸失去記憶,或是開始胡言亂語 。過去我們可能以為這只是錯覺,但沒想到現在連微軟都跳出來證實,這種感覺可是有科學根據的 。 科微軟證實AI在多輪對話中存在對話迷失缺陷!研究揭露,頂尖大型語言模型在多輪對話中成功率驟降,這種對話迷失現象是系統性問題,值得關注。相信許多人在跟 AI 進行長篇大論的對話時,常常會覺得它們好像漸漸失去記憶,或是開始胡言亂語 。過去我們可能以為這只是錯覺,但沒想到現在連微軟都跳出來證實,這種感覺可是有科學根據的 。 科

再強的AI也會越聊越笨,微軟最新研究揭露多輪對話成功率慘跌至 65%

2026/03/02 14:00
閱讀時長 5 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

相信許多人在跟 AI 進行長篇大論的對話時,常常會覺得它們好像漸漸失去記憶,或是開始胡言亂語 。過去我們可能以為這只是錯覺,但沒想到現在連微軟都跳出來證實,這種感覺可是有科學根據的 。

科學證實的對話迷失缺陷

根據科技媒體 Windows Central 報導,微軟研究院與 Salesforce 最近聯合發表了一項重量級研究 。研究團隊針對目前市面上 15 款最頂尖的大型語言模型,包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 以及 Llama 4,進行了超過 20 萬次的模擬對話分析 。結果揭露了一個被稱為對話迷失的系統性缺陷 。

數據顯示,這些模型在接收單次提示任務時,成功率高達 90% 。但是,當我們把同樣的任務拆解成多輪自然對話後,成功率竟然驟降到約 65% 。研究指出,這並不是因為 AI 的智力下降了,其核心能力其實只降低了約 15%,真正要命的是它們的不可靠性飆升了 112% 。換句話說,AI 還是很聰明,但只要聊得太久,它們就很容易忘記前後文,變得極度不穩定 。

為什麼 AI 會越聊越失控

到底為什麼會這樣呢?研究人員揪出了兩個元凶。首先是過早生成,很多時候我們話都還沒說完,AI 就急著想要給出最終答案 。一旦 AI 在對話初期形成了錯誤的第一印象,後續就算我們補充了新資訊,它也很難回頭修正,導致錯誤越滾越大 。

其次是答案膨脹問題。在多輪對話中,AI 的回覆長度會比單輪對話暴增 20% 到 300% 。話說得越多,就越容易出現各種腦補的幻覺,而這些錯誤內容又會被 AI 納入後續的上下文記憶中,形成惡性循環 。

連思考 token 也救不了

過去也有開發者認為,只要調整模型的溫度參數,或是利用最新一代具備思考 token 的模型就能解決這個問題。但令人意外的是,研究發現即使是 OpenAI o3 或 DeepSeek R1 這些強大的推理模型,也沒辦法明顯改善多輪對話變笨的狀況 。就算把溫度參數設定為 0 來確保輸出一致性,同樣無濟於事 。

面對這個殘酷的現實,目前最有效的應對方式,反而是改變我們使用 AI 的習慣。與其跟 AI 一來一往地慢慢聊,不如把所有必要的資料、限制條件和指令,一次性在單個完整的提示詞中寫清楚,這樣才能獲得最穩定、最準確的輸出結果 。

  • 延伸閱讀:加快腳步推動台版ChatGPT「可信賴AI對話引擎」(TAIDE),華碩取得超級電腦「台灣杉四號」標案
  • 延伸閱讀:他想把DOS時代的IBM 5155拿來跑ChatGPT,36年前的電腦能跟現代AI對話嗎?
市場機遇
4 圖標
4實時價格 (4)
$0.016479
$0.016479$0.016479
-3.62%
USD
4 (4) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

$30,000 等值 PRL + 15,000 USDT

$30,000 等值 PRL + 15,000 USDT$30,000 等值 PRL + 15,000 USDT

充值並交易 PRL,即可提升您的獎勵!