Google 發布首款「原生多模態」嵌入模型 Gemini Embedding 2,旨在將不同類型的資料轉化為 AI 能理解的數值表示,讓電腦在處理文字、圖片、影音與文件時,具備更深層的關聯理解能力。隨著人工智慧技術的演進,如何讓電腦理解人類世界中複雜的影音與文字資訊,一直是開發者努力的目標。Google 近日正式發布Google 發布首款「原生多模態」嵌入模型 Gemini Embedding 2,旨在將不同類型的資料轉化為 AI 能理解的數值表示,讓電腦在處理文字、圖片、影音與文件時,具備更深層的關聯理解能力。隨著人工智慧技術的演進,如何讓電腦理解人類世界中複雜的影音與文字資訊,一直是開發者努力的目標。Google 近日正式發布

Google 推出首款 Gemini Embedding 2 多模態嵌入模型,AI 理解力再進化

2026/03/13 13:30
閱讀時長 4 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

隨著人工智慧技術的演進,如何讓電腦理解人類世界中複雜的影音與文字資訊,一直是開發者努力的目標。Google 近日正式發布了最新的 Gemini Embedding 2 模型,這是 Google 首款「原生多模態」嵌入模型,旨在將不同類型的資料轉化為 AI 能理解的數值表示,讓電腦在處理文字、圖片、影音與文件時,能具備更深層的關聯理解能力。

什麼是「嵌入(Embedding)」?

簡單來說,嵌入技術就像是將資料轉換成 AI 能聽懂的「座標」。當我們搜尋或是分析資料時,AI 會利用這些座標來判斷兩者之間的相似度。例如,當你搜尋一張「在雨中散步的狗」的照片時,模型能透過理解語意,從文字與影音庫中找到最貼切的結果,而不僅僅是進行關鍵字比對。

打破隔閡,多媒體整合的新嘗試

過去,AI 模型大多專注於處理單一類型的資料(例如僅處理文字,或僅處理圖像)。Gemini Embedding 2 的突破在於它將這些功能整合在同一個架構中,能同時處理:

  • 文字:支援最高 8,192 個標記(tokens)的上下文。
  • 影像:單次請求可處理最多 6 張圖片。
  • 影音:可直接分析長達 120 秒的影片(MP4 與 MOV 格式)。
  • 音訊:不需經過轉錄成文字的步驟,能直接理解音訊內容。
  • 文件:直接支援最多 6 頁的 PDF 檔案。

更重要的是,該模型能夠處理「交錯輸入」,意即開發者可以在同一個請求中同時放入圖片與文字,讓模型能更精準地掌握這些媒材之間複雜的關聯性。

效能與彈性的兼顧

為了讓開發者能在運算效能與儲存成本之間取得平衡,Gemini Embedding 2 採用了「Matryoshka 表徵學習」技術。這允許開發者靈活調整輸出的維度(預設為 3072 維,亦可縮減至 1536 或 768 維),在維持一定準確度的前提下,大幅優化運算成本。

這項技術目前已正式進入公開預覽階段,企業與開發者可以透過 Google 的 Gemini API 或 Vertex AI 平台開始進行串接。

資料來源:Google

  • 延伸閱讀:Google DeepMind Genie 3開放美國用戶使用!AI世界模型進化,24fps即時探索,未來遊戲就長這樣?
  • 延伸閱讀:Google Veo 3.1 影片模型更新,提供更強的一致性、支援生成 4K 畫質
  • 延伸閱讀:Google 高層開砲:大模型封裝應用與 AI 聚合平台沒有未來
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

$30,000 等值 PRL + 15,000 USDT

$30,000 等值 PRL + 15,000 USDT$30,000 等值 PRL + 15,000 USDT

充值並交易 PRL,即可提升您的獎勵!