Google 發表 FACTS 基準，評估 AI 生成內容的事實準確性。測試顯示，即便是頂尖模型如 Gemini 3 Pro，準確率仍低於 70%，凸顯大型語言模型（LLM）的可信度挑戰，旨在將產業競爭重點轉向正確性。Google 發表 FACTS 基準，評估 AI 生成內容的事實準確性。測試顯示，即便是頂尖模型如 Gemini 3 Pro，準確率仍低於 70%，凸顯大型語言模型（LLM）的可信度挑戰，旨在將產業競爭重點轉向正確性。

Google 推出測試 AI 真實性的「FACTS」基準測試自家 Gemini 3 Pro 正確率都不到 70%

來源：Cool3c

2025/12/31 14:06

閱讀時長 6 分鐘

SLEEPLESSAI$0,01898-%2,41

PRO$0,3148-%6,16

如需對本內容提供反饋或相關疑問，請通過郵箱 crypto.news@mexc.com 聯絡我們。

Google 發布全新 FACTS 基準測試，專門用來檢測 AI 是否產生不實內容，即使是自家 Gemini 3 Pro 正確率也低於 70%，凸顯 AI 模型的內容問題。

隨著生成式AI (Generative AI) 應用日益普及，大型語言模型 (LLM) 最令人頭痛的「幻覺」 (Hallucination)問題——即AI一本正經地胡說八道，始終是業界極力想解決的痛點。為了更精確量化AI到底「有多誠實」，Google聯合旗下的Google DeepMind、Google Cloud與Kaggle團隊，發表一套名為FACTS (Factuality Assessment for Contemporary Text Synthesis,當代文本綜合事實性評估) 的全新評估基準。

這套被視為AI真實性「終極考試」的基準，不僅測試單純的問答，更涵蓋了圖像理解與工具使用。值得關注的是，即便是目前帳面數據最強的Gemini 3 Pro，在此測試中的平均準確率也僅約69%，顯示現階段AI距離「完全可信」仍有一段不小的差距。

四大關卡：不僅要會答，還要「知之為知之」

不同於傳統僅針對文本生成的測試，FACTS基準由四個針對不同能力的子測試組成，宛如一場全方位的AI體檢：

• M-FACTS (多模態測試)：考驗AI的「眼力」與知識結合能力。例如給AI看一張特定型號的火車照片，不僅要能辨識型號，還要能回答該型號的製造年份等深層資訊，而非僅描述圖片外觀。

• P-FACTS (參數化測試)：這是純粹的「隨堂考」。AI必須在不聯網的情況下，僅憑訓練時內建的知識庫回答困難問題。Google特別採用「對抗性篩選」，只保留那些現有模型容易答錯的題目，確保鑑別度。

• S-FACTS (搜尋測試)：模擬AI作為代理人 (Agent) 的能力。AI必須懂得自行拆解複雜問題 (例如：「某編劇最早發行的電影是哪部？」)，執行多次搜尋，並且整合資訊。

• D-FACTS (文檔理解測試)：測驗AI的「忠實度」。給定一份文件，AI必須嚴格根據內容回答，嚴禁「腦補」添加文檔中未提及的資訊。

評測結果：Gemini 3 Pro險勝，GPT-5展現「誠實的無知」

在導入雙重自動評判機制 (由AI裁判員檢查核心事實覆蓋率與矛盾性)後，測試結果顯示目前市面上的頂級模型仍有約30%的錯誤率。

而Google自家的Gemini 3 Pro以68.8%的準確率位居榜首，其次是Gemini 2.5 Pro (62.1%) 與OpenAI的GPT-5 (61.8%)。

有趣的是，測試揭露了不同模型的「性格」差異。Gemini系列傾向於提供詳盡的資訊 (寧可多說)，但在多模態測試中有時會因此夾雜不精確的內容；而GPT-5與Claude 系列則表現出「精準至上」的特質，遇到不確定的問題傾向於承認「不知道」或拒絕回答。這種「誠實的無知」 (Honest Ignorance) 在某些專業場景下，反而比強行回答更有價值。

分析觀點：建立AI的「信賴指標」

筆者認為，Google此時推出FACTS基準，其戰略意義在於重新定義AI競賽的規則。

過去兩年，各家大廠多半在比拚模型參數大小、生成速度或是多模態的應用廣度。但隨著AI開始進入醫療、法律與企業決策等嚴肅領域，「正確性」與「可信度」將成為下一階段的決勝關鍵。

FACTS基準的出現，就像是為AI產業制定了一套更嚴格的安規測試。69%的準確率雖然看起來不高，但也真實反映了LLM本質上仍是機率模型的事實。

對於開發者而言，這提供了一個明確的優化方向 (例如改善搜尋策略或增強拒答機制)；對於使用者來說，未來在選擇AI工具時，除了看它「多會寫」，更要看它「多誠實」。

資料來源

https://mashdigi.com/google-launches-new-facts-benchmark-test-specifically-designed-to-catch-ai-lying-even-the-most-powerful-model-achieves-less-than-70-accuracy/

市場機遇

Sleepless AI實時價格 (SLEEPLESSAI)

$0,01898

$0,01898$0,01898

-%0,78

USD

Sleepless AI (SLEEPLESSAI) 實時價格圖表

只要一分鐘，20 USDT 免費拿！

充值 $100，多拿 $300 GOLD 倉位！

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。