ChatGPT 可能主導了 AI 聊天機器人市場,但一份新報告表明人氣並不等同於可信度。2025年12月的一項研究檢視了領先的 AI 聊天機器人在日常工作場景中的表現,將 ChatGPT 評為專業任務中最不可靠的選擇。這些發現為越來越依賴 AI 工具進行日常運營的企業帶來了新的擔憂。
這項由 Relum 進行的研究不僅僅看紙面規格;他們在真實專業場景中對十個主要 AI 聊天機器人進行了壓力測試。結果?炒作與現實之間存在巨大差距。
研究根據四個關鍵標準評估了每個聊天機器人。這些標準包括幻覺率、客戶產品評分、跨任務的回應一致性以及停機頻率。每個因素都影響了綜合可靠性風險評分,分數越高表示工作場所潛在問題越大。
這裡有一個應該讓企業領導者夜不能寐的數據:儘管 ChatGPT 控制了市場高達 81% 的份額並擁有高用戶評分,但它記錄的幻覺率為 35%。
簡單來說,這意味著它給出的每三個答案中就有一個以上包含虛構或不正確的信息。如果你用它來起草奇幻小說,那沒問題,但如果你用它來做合規報告或財務決策,那就是災難的配方。因此,研究給 ChatGPT 打了 99 分(滿分 99 分)的可靠性風險評分,是該組中最差的。
ChatGPT
Google 的表現也好不到哪去。雖然 Gemini 的運行時間更長,但在純粹的準確性方面表現更差,整個組中最高的幻覺率達到了 38%。這突顯了當前 AI 市場的一個奇怪悖論:我們使用最多的工具往往是最難保持事實準確性的工具。
Claude 和 Meta AI 處於模糊的中間地帶。Claude 儘管因其寫作風格而備受喜愛,但由於頻繁停機和 17% 的幻覺率,被評為第二不可靠的聊天機器人。Meta AI 更準確(15% 幻覺率),但用戶似乎不喜歡這種體驗,給它的滿意度評分是所有聊天機器人中最低的(5 分中的 3.4 分)。
如果大牌都在掉鏈子,誰在真正做事?令人驚訝的是,研究指出 Grok 和 DeepSeek 是專業用途最可靠的工具。它們沒有 OpenAI 那樣龐大的營銷預算或品牌知名度,但它們就是表現得更好。DeepSeek 記錄了零服務中斷,並將幻覺保持在最低水平。
Kimi 的表現也很好,在一致性和運行時間之間找到了平衡點。同時,像 Perplexity AI 這樣的付費選項表現穩定,但當更便宜、知名度較低的替代品表現更好時,人們開始質疑訂閱費用是否值得。
Relum 的首席產品官 Razvan-Lucian Haiduc 警告說,可靠性應該是 AI 採用決策的核心因素。他指出,目前約有 65% 的美國公司在日常工作流程中使用 AI 聊天機器人。近 45% 的員工承認與這些工具分享敏感公司信息。
隨著 AI 越來越嵌入日常工作,錯誤信息的風險也在增加。Haiduc 強調,使用最廣泛的聊天機器人並不總是適合每個行業的最佳選擇。準確性、運行時間和特定任務的表現應該比品牌熟悉度更重要。
這份報告為行業提供了現實檢驗。信任不應該僅僅因為聊天機器人出名而給予;它應該通過一致、可驗證的真實性來贏得。現在看來,市場領導者有一些嚴肅的追趕工作要做。


