2025年11月18日,Google推出了Gemini 3 Pro——根據該公司CEO Sundar Pichai的說法,這是一個旨在「讓任何想法變為現實」的AI模型。這款產品發布僅在ChatGPT 5.1推出一週後,以及Grok 4.1首次亮相一天後,進一步加劇了[...] 訊息 Google Gemini 3 Pro:聊天機器人時代的終結,AI代理時代的開始?首次出現在INCRYPTED。2025年11月18日,Google推出了Gemini 3 Pro——根據該公司CEO Sundar Pichai的說法,這是一個旨在「讓任何想法變為現實」的AI模型。這款產品發布僅在ChatGPT 5.1推出一週後,以及Grok 4.1首次亮相一天後,進一步加劇了[...] 訊息 Google Gemini 3 Pro:聊天機器人時代的終結,AI代理時代的開始?首次出現在INCRYPTED。

Google Gemini 3 Pro:聊天機器人時代的終結,AI 代理時代的開始?

2025/11/19 23:50
閱讀時長 11 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。
本文內容:

• 展現實力

• Gemini 3 Pro 能做什麼?

• 為開發者提供的反重力工具

2025年11月18日,Google 發布了 Gemini 3 Pro — 一個根據公司執行長 Sundar Pichai 的說法,旨在「讓任何想法變為現實」的 AI 模型。

這次發布恰好在 ChatGPT 5.1 推出一週後,以及 Grok 4.1 首次亮相的一天後,進一步加劇了市場競爭。

這款新模型不僅被定位為聊天機器人,而是一個能夠處理任何複雜度任務的通用平台。Gemini 的第三個版本具備了代理級別的能力、增強的推理能力、擴展的上下文理解,以及將用戶文件(圖像、影片、音訊)轉換為全新內容的能力。

Incrypted 編輯團隊深入研究了 Gemini 3 Pro 的功能 — 以及它在哪些領域超越了競爭對手。

Gemini 3 Pro 被介紹為 Google 最「合理」的模型,該公司公開將其解決方案定位為多方面的行業領導者。獨立評估也證實了這一點。

根據 Artificial Analysis 的數據,該模型已成為他們綜合指數的新領導者。

來自 Artificial Analysis 的 AI 指數。數據來源:Artificial Analysis。

如果 Artificial Analysis 的測試可信,Google 在智能任務領域 — 推理、理解複雜結構、準確性和多模態方面已經領先於競爭對手。

深度分析的表現尤其值得關注。在評估模型不使用工具解決博士級問題能力的「人類最後考試」中,Gemini 3 Pro 得分超過了 37%。

這比之前的記錄高出了十多個百分點。在 ARC-AGI-2 測試中,這是一個評估推導規則並將其應用於新情境能力的最具挑戰性的基準測試之一,該模型的得分也超過了大多數競爭對手。

來自 Artificial Analysis 的十項專業測試結果。數據來源:Artificial Analysis。

Google 強調,在數學測試中也表現出了高性能。在 MathArena Apex 測試中,這裡的極端複雜度問題傳統上會使模型失去平衡,Gemini 3 Pro 獲得了 23.4% 的成績。之前,這個數字對其他系統來說是無法達到的,最好的結果也不超過 5.2%。

MathArena Apex 測試結果。數據來源:MathArena。

在多模態測試中,更新後的 Gemini 也佔據了首位。專家直接將此歸因於模型可能的大規模。

這一假設可以解釋 Google AI 在涉及視覺分析和空間理解的任務中優於其他公司產品的能力。

值得單獨注意的是與 Claude 和 ChatGPT 的比較。在測試自主處理 GitHub 任務能力的 SWE-Bench Verified 基準測試中,新模型僅落後 Sonnet 4.5 一個百分點。在其他指標中,Gemini 通常領先。

不同 AI 模型的比較測試結果。數據來源:Google。

另一個重要的證據是模型的速度。Artificial Analysis 指出,Gemini 3 Pro 每秒生成約 128 個標記。這比 GPT-5.1、Kimi K2 Thinking 和 Grok 4 的性能更快。

這很可能是由於 Google 自己基於張量處理單元 (TPU) 處理器的硬體平台。

因此,在許多參數上,該模型自信地與現有旗艦產品競爭,並在許多情況下超越它們。同時,該產品在某些測試中落後於競爭對手,但通常只是略微落後。

從技術上講,Gemini 3 Pro 是一個具有更多上下文和擴展可控參數集的多模態模型。根據 Google 的文檔,它接受文本、代碼、圖像、音訊、影片和 PDF 作為輸入。

聲稱的最大輸入大小為 1,048,576 個標記,輸出最多 65,536 個標記。對於實際應用,這意味著該模型可以一次分析大量數據,包括長文檔、文章集、大型影片講座或整個代碼庫。

Gemini 3 Pro 技術數據。數據來源:Google。

文檔單獨說明,該模型每次查詢最多支持 900 張圖像,最多 900 個文檔,最多 10 個影片和持續數小時的音訊。

這使得建立複雜查詢成為可能,其中文本描述與視覺材料和代碼相結合。

隨著 Gemini 3 的推出,引入了許多新設置。首先是推理級別參數。取代之前的「思考預算」,使用了一個明確的 thinking_level 開關,可以是低或高。

Google 解釋這是調整內部推理量的一種方式。該功能在響應質量、邏輯複雜性、延遲和成本之間取得平衡。

其次,出現了媒體內容的解析度控制。media_resolution 參數(低、中或高)允許控制圖像和影片的視覺分析深度和標記消耗。

Gemini 3 Pro 新功能描述。數據來源:Google。

在產品層面,Google 正嘗試將這些功能轉變為新形式的界面。Pichai 這樣描述 Gemini 體驗:

此外,Google 高管寫道,Gemini 3「為搜索和新的生成界面帶來強大的推理能力」。具體來說,它引入了視覺佈局模式。

這意味著答案可以看起來像一個帶有照片、模塊和用戶控制項目的「雜誌」展開。作為例子,他引用了計劃羅馬三日遊的請求。

系統通過生成帶有視覺塊的行程安排作出回應,並能夠根據用戶的偏好進行定制。

發展的一個重要領域是基於代理的能力。Google 指出,自 Gemini 2 以來,公司一直積極發展「代理時代」,而 Gemini 3 在長時間規劃行動的能力方面顯示出進步。

他們的材料特別提到在 Vending-Bench 2 基準測試中的領導地位,該測試模擬了一年內自動售貨機的管理。根據 Google 的描述,AI 保持行動序列和工具使用處於穩定狀態,不會「偏離」設定的目標。

Vending-Bench 2 測試。數據來源:Google。

公司將這些想法在日常任務中的實際應用歸功於 Gemini Agent。一位 Google 高管解釋說,這項功能使用先進的推理能力將複雜任務分解為多個步驟。

完成這些步驟後,模型會根據獲得的結果向用戶建議進一步的行動。

在工程方面,新的 Google Antigravity 開發工具已成為生態系統的重要元素。官方公告將其描述為「基於代理的開發平台」。

該解決方案是一個集成環境,其中基於 Gemini 3 的代理可以訪問編輯器、終端和瀏覽器。它們可以規劃和執行複雜的軟件任務,並將其步驟作為易於檢查的單獨「工件」呈現給用戶。

ArsTechnica 出版物強調,Antigravity 不僅可以使用基於 Gemini 的代理,還可以使用 Claude Sonnet 4.5 和基於 GPT 的解決方案。該產品還提供客戶端和服務器端命令行工具。

這些案例表明,該模型可以處理與物體空間化相關的任務,並在虛擬和增強現實環境中工作。

總之,在功能層面,Gemini 3 Pro 看起來像一個多功能工具,具有出色的上下文理解、引導式深度推理,以及與開發工具和代理的緊密結合。

市場機遇
Propy 圖標
Propy實時價格 (PRO)
$0.3314
$0.3314$0.3314
-3.09%
USD
Propy (PRO) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

USD1 Genesis:0 費率 + 12% APR

USD1 Genesis:0 費率 + 12% APRUSD1 Genesis:0 費率 + 12% APR

新用戶:質押最高享 600% APR。限時福利!