Gemini 3 Pro 被介紹為 Google 最「合理」的模型,該公司公開將其解決方案定位為多方面的行業領導者。獨立評估也證實了這一點。
根據 Artificial Analysis 的數據,該模型已成為他們綜合指數的新領導者。
來自 Artificial Analysis 的 AI 指數。數據來源:Artificial Analysis。
如果 Artificial Analysis 的測試可信,Google 在智能任務領域 — 推理、理解複雜結構、準確性和多模態方面已經領先於競爭對手。
深度分析的表現尤其值得關注。在評估模型不使用工具解決博士級問題能力的「人類最後考試」中,Gemini 3 Pro 得分超過了 37%。
這比之前的記錄高出了十多個百分點。在 ARC-AGI-2 測試中,這是一個評估推導規則並將其應用於新情境能力的最具挑戰性的基準測試之一,該模型的得分也超過了大多數競爭對手。
來自 Artificial Analysis 的十項專業測試結果。數據來源:Artificial Analysis。
Google 強調,在數學測試中也表現出了高性能。在 MathArena Apex 測試中,這裡的極端複雜度問題傳統上會使模型失去平衡,Gemini 3 Pro 獲得了 23.4% 的成績。之前,這個數字對其他系統來說是無法達到的,最好的結果也不超過 5.2%。
MathArena Apex 測試結果。數據來源:MathArena。
在多模態測試中,更新後的 Gemini 也佔據了首位。專家直接將此歸因於模型可能的大規模。
這一假設可以解釋 Google AI 在涉及視覺分析和空間理解的任務中優於其他公司產品的能力。
值得單獨注意的是與 Claude 和 ChatGPT 的比較。在測試自主處理 GitHub 任務能力的 SWE-Bench Verified 基準測試中,新模型僅落後 Sonnet 4.5 一個百分點。在其他指標中,Gemini 通常領先。
不同 AI 模型的比較測試結果。數據來源:Google。
另一個重要的證據是模型的速度。Artificial Analysis 指出,Gemini 3 Pro 每秒生成約 128 個標記。這比 GPT-5.1、Kimi K2 Thinking 和 Grok 4 的性能更快。
這很可能是由於 Google 自己基於張量處理單元 (TPU) 處理器的硬體平台。
因此,在許多參數上,該模型自信地與現有旗艦產品競爭,並在許多情況下超越它們。同時,該產品在某些測試中落後於競爭對手,但通常只是略微落後。
Gemini 3 Pro 技術數據。數據來源:Google。
Gemini 3 Pro 新功能描述。數據來源:Google。
Vending-Bench 2 測試。數據來源:Google。








