Google 發表 FACTS 基準,評估 AI 生成內容的事實準確性。測試顯示,即便是頂尖模型如 Gemini 3 Pro,準確率仍低於 70%,凸顯大型語言模型(LLM)的可信度挑戰,旨在將產業競爭重點轉向正確性。Google 發表 FACTS 基準,評估 AI 生成內容的事實準確性。測試顯示,即便是頂尖模型如 Gemini 3 Pro,準確率仍低於 70%,凸顯大型語言模型(LLM)的可信度挑戰,旨在將產業競爭重點轉向正確性。

Google 推出測試 AI 真實性的「FACTS」基準測試 自家 Gemini 3 Pro 正確率都不到 70%

2025/12/31 14:06
閱讀時長 6 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

Google 發布全新 FACTS 基準測試,專門用來檢測 AI 是否產生不實內容,即使是自家 Gemini 3 Pro 正確率也低於 70%,凸顯 AI 模型的內容問題。

隨著生成式AI (Generative AI) 應用日益普及,大型語言模型 (LLM) 最令人頭痛的「幻覺」 (Hallucination)問題——即AI一本正經地胡說八道,始終是業界極力想解決的痛點。為了更精確量化AI到底「有多誠實」,Google聯合旗下的Google DeepMind、Google Cloud與Kaggle團隊,發表一套名為FACTS (Factuality Assessment for Contemporary Text Synthesis,當代文本綜合事實性評估) 的全新評估基準。

這套被視為AI真實性「終極考試」的基準,不僅測試單純的問答,更涵蓋了圖像理解與工具使用。值得關注的是,即便是目前帳面數據最強的Gemini 3 Pro,在此測試中的平均準確率也僅約69%,顯示現階段AI距離「完全可信」仍有一段不小的差距。

四大關卡:不僅要會答,還要「知之為知之」

不同於傳統僅針對文本生成的測試,FACTS基準由四個針對不同能力的子測試組成,宛如一場全方位的AI體檢:

• M-FACTS (多模態測試):考驗AI的「眼力」與知識結合能力。例如給AI看一張特定型號的火車照片,不僅要能辨識型號,還要能回答該型號的製造年份等深層資訊,而非僅描述圖片外觀。

• P-FACTS (參數化測試):這是純粹的「隨堂考」。AI必須在不聯網的情況下,僅憑訓練時內建的知識庫回答困難問題。Google特別採用「對抗性篩選」,只保留那些現有模型容易答錯的題目,確保鑑別度。

• S-FACTS (搜尋測試):模擬AI作為代理人 (Agent) 的能力。AI必須懂得自行拆解複雜問題 (例如:「某編劇最早發行的電影是哪部?」),執行多次搜尋,並且整合資訊。

• D-FACTS (文檔理解測試):測驗AI的「忠實度」。給定一份文件,AI必須嚴格根據內容回答,嚴禁「腦補」添加文檔中未提及的資訊。

評測結果:Gemini 3 Pro險勝,GPT-5展現「誠實的無知」

在導入雙重自動評判機制 (由AI裁判員檢查核心事實覆蓋率與矛盾性)後,測試結果顯示目前市面上的頂級模型仍有約30%的錯誤率。

而Google自家的Gemini 3 Pro以68.8%的準確率位居榜首,其次是Gemini 2.5 Pro (62.1%) 與OpenAI的GPT-5 (61.8%)。

有趣的是,測試揭露了不同模型的「性格」差異。Gemini系列傾向於提供詳盡的資訊 (寧可多說),但在多模態測試中有時會因此夾雜不精確的內容;而GPT-5與Claude 系列則表現出「精準至上」的特質,遇到不確定的問題傾向於承認「不知道」或拒絕回答。這種「誠實的無知」 (Honest Ignorance) 在某些專業場景下,反而比強行回答更有價值。

分析觀點:建立AI的「信賴指標」

筆者認為,Google此時推出FACTS基準,其戰略意義在於重新定義AI競賽的規則。

過去兩年,各家大廠多半在比拚模型參數大小、生成速度或是多模態的應用廣度。但隨著AI開始進入醫療、法律與企業決策等嚴肅領域,「正確性」與「可信度」將成為下一階段的決勝關鍵。

FACTS基準的出現,就像是為AI產業制定了一套更嚴格的安規測試。69%的準確率雖然看起來不高,但也真實反映了LLM本質上仍是機率模型的事實。

對於開發者而言,這提供了一個明確的優化方向 (例如改善搜尋策略或增強拒答機制);對於使用者來說,未來在選擇AI工具時,除了看它「多會寫」,更要看它「多誠實」。

資料來源

  • https://mashdigi.com/google-launches-new-facts-benchmark-test-specifically-designed-to-catch-ai-lying-even-the-most-powerful-model-achieves-less-than-70-accuracy/
市場機遇
Sleepless AI 圖標
Sleepless AI實時價格 (SLEEPLESSAI)
$0,01898
$0,01898$0,01898
-%0,78
USD
Sleepless AI (SLEEPLESSAI) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

USD1 Genesis:0 費率 + 12% APR

USD1 Genesis:0 費率 + 12% APRUSD1 Genesis:0 費率 + 12% APR

新用戶:質押最高享 600% APR。限時福利!