Google DeepMind 推出 Gemini Embedding 2,為首款原生多模態嵌入模型。其可將文字、圖像、影音等資料直接映射至同一向量空間,無需事前轉換,革新 RAG 與語義搜尋的開發模式。Google DeepMind 推出 Gemini Embedding 2,為首款原生多模態嵌入模型。其可將文字、圖像、影音等資料直接映射至同一向量空間,無需事前轉換,革新 RAG 與語義搜尋的開發模式。

Google 推出 Gemini Embedding 2 原生多模態嵌入模型 革新資料檢索開發

2026/03/12 13:06
閱讀時長 7 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

Google DeepMind 推出首款原生多模態嵌入模型 Gemini Embedding 2,支援文字、圖像、影片、音訊與文件五大資料型態,直接映射至同一向量空間,無需事前轉換,顛覆 RAG 與語義搜尋開發體驗。
Google DeepMind宣布推出全新「Gemini Embedding 2」,這是Google首款建立在Gemini架構上的「原生多模態」 (Natively Multimodal)嵌入模型 (Embedding Model)。有別於過去開發者必須依賴純文字模型或將不同媒體轉換為文字才能進行檢索,Gemini Embedding 2破天荒地將文字、圖像、影片、音訊與文件直接映射到同一個向量空間中。這項技術目前已透過Gemini API與Vertex AI開放公開預覽 (Public Preview),預期將徹底顛覆RAG (檢索增強生成)、語義搜尋與數據叢集等底層架構的開發體驗。

五大資料型態一次到位,支援「交錯輸入」理解

在過去建構RAG系統時,如果資料庫裡同時有圖片與文字,開發者通常需要先用另一個AI把圖片「描述」成文字,再進行向量化轉換。這種轉換過程不僅耗時,更會流失大量的原始語義細節。

Gemini Embedding 2憑藉Gemini強大的多模態理解能力,直接支援以下五大資料型態的嵌入轉換:

• 文字 (Text):支援高達8192個輸入Token的廣闊上下文。

• 圖像 (Images):每次請求最多可處理6張圖片 (支援PNG與JPEG格式)。

• 影片 (Videos):支援長達120秒的影片輸入 (支援MP4與MOV格式)。

• 音訊 (Audio):最具突破性的一點!模型能「原生」攝取並嵌入音訊資料,完全不需要中間的文字轉錄步驟,這意味著語音中的語氣或環境音也能被精準捕捉。

• 文件 (Documents):支援直接嵌入長達6頁的PDF文件。

更強大的是,Gemini Embedding 2支援「交錯輸入」 (Interleaved input)。開發者可以在單次API請求中,同時丟入「圖片+文字」,或是「影片+音訊」,模型能原生理解這些不同媒體型態之間複雜且微妙的關聯,進而生成更準確的向量表示。

導入MRL技術:兼具效能與儲存成本

在維持高精準度的同時,Google也考量到了企業佈署向量資料庫的儲存成本。

延續前代文字嵌入模型的優良傳統,Gemini Embedding 2同樣採用「俄羅斯套娃表徵學習」 (Matryoshka Representation Learning, MRL)技術。這項技術能將重要資訊「嵌套」在向量的前段,允許開發者動態縮減向量的輸出維度。

雖然系統預設、推薦使用最高品質的3072、1536或768維度,但開發者可根據專案對儲存空間與搜尋延遲的容忍度,彈性向下調整維度,在效能與成本之間取得完美平衡。

無縫接軌當前主流AI開發者生態

為了讓開發者能第一時間將這項強大技術導入現有專案,Gemini Embedding 2已經準備好與當前最熱門的開源框架及向量資料庫對接。

官方指出,該模型可直接整合至LangChain、LlamaIndex與Haystack等開發框架,並且完美支援Weaviate、QDrant、ChromaDB,以及Google自家的Vector Search等主流向量資料庫。

分析觀點

過去兩年,業界的目光幾乎全聚焦在「能說善道」的大型語言模型 (LLM)上,但真正決定企業級AI應用 (如企業內部知識庫客服、智慧搜尋)聰明與否的關鍵,其實是負責把龐大資料轉換為機器可理解格式的「嵌入模型」 (Embedding Model)。

Google這次最大的殺手鐧在於「原生」 (Natively)這兩個字。特別是音訊不需要先轉成逐字稿就能直接向量化,這代表AI開始能真正「聽懂」聲音的情緒與頻率差異,而非只看冷冰冰的文字。當文字、圖片、影音全都能在「同一個座標系」裡被精準比對時,我們即將迎來的,會是能夠真正看懂設計圖、聽懂法說會錄音,甚至直接搜尋特定影片片段的次世代「多模態RAG」爆發期。

資料來源

  • https://mashdigi.com/breaking-down-data-type-boundaries-google-launches-gemini-embedding-2-the-first-native-multimodal-embedding-model/
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

$30,000 等值 PRL + 15,000 USDT

$30,000 等值 PRL + 15,000 USDT$30,000 等值 PRL + 15,000 USDT

充值並交易 PRL,即可提升您的獎勵!