人工智慧模型處理超長文本的能力即將產生革命性突破。Google 研究團隊最新發表的 Titans 架構與 MIRAS 理論框架,讓 AI 模型能在運行過程中即時更新核心記憶,同時保持高速運算效能。這項創新結合了循環神經網路的速度優勢與變換器模型的準確性,為全文檔理解、基因組分析等需要處理海量上下文的應用情境開闢新路徑。
傳統變換器架構雖然透過注意力機制 revolutionized 序列建模領域,卻受制於計算成本隨序列長度急遽增加的限制。研究社群雖已探索線性循環神經網路與狀態空間模型等解決方案,但這些固定大小的壓縮機制難以充分捕捉超長序列中的豐富資訊。Titans 與 MIRAS 的問世,代表 AI 模型從被動儲存資料轉向主動學習與即時適應的重大典範轉移。
Titans 最核心的創新在於引入一個全新的神經長期記憶模組,其設計理念源自人腦短期與長期記憶的分離機制。不同於傳統循環神經網路使用固定大小的向量或矩陣記憶體,Titans 採用深度神經網路 (具體而言是多層感知器) 作為記憶模組。這種架構設計賦予模型顯著更高的表達能力,使其能在不遺失重要上下文的前提下總結大量資訊。模型並非單純記錄筆記,而是理解並綜合整個敘事脈絡。
Titans 的記憶更新機制並非被動接收資料,而是主動學習如何識別並保留連接整個輸入序列中標記的重要關係與概念主題。研究團隊特別設計的「驚訝度指標」成為這項能力的關鍵。人類心理學研究顯示,我們快速遺忘例行性、預期中的事件,卻牢記打破模式的意外、驚訝或高度情緒化的事件。在 Titans 架構中,驚訝度指標透過偵測模型當前記憶狀態與新輸入資訊之間的巨大差異來運作。
當新輸入詞彙為「貓」且模型記憶狀態已預期動物相關詞彙時,梯度 (驚訝度) 保持低水平,模型可安全跳過將「貓」記憶至永久長期狀態。相反地,若模型記憶狀態正總結嚴肅財務報告,新輸入卻是香蕉皮圖片 (意外事件),梯度 (驚訝度) 將顯著攀升。這個訊號表明新輸入具重要性或異常性,必須優先儲存至長期記憶模組。模型運用這個內部誤差訊號作為數學等價物,傳達「這很意外且重要」的訊息,使 Titans 架構能選擇性地僅以最新穎且打破上下文的資訊更新長期記憶,保持整體流程快速高效。
Titans 進一步透過兩個關鍵元素精煉此機制。動量機制讓模型同時考量「瞬間驚訝」(當前輸入) 與「過往驚訝」(近期上下文流),確保相關後續資訊也被捕捉,即使這些標記本身並不特別令人驚訝。遺忘機制 (權重衰減) 則用於管理處理超長序列時記憶體的有限容量,Titans 採用自適應權重衰減機制作為遺忘閘門,允許模型捨棄不再需要的資訊。
MIRAS 框架的獨特價值在於看待 AI 建模的視角。它不將各種架構視為截然不同的設計,而是將其視為解決同一問題的不同方法:有效結合新資訊與舊記憶,同時避免遺忘本質概念。序列建模領域的每個重大突破,從現代變換器到新型高速線性循環神經網路,本質上都是高度複雜的聯想記憶模組。
MIRAS 透過四個關鍵設計選擇定義序列模型。記憶架構決定儲存資訊的結構 (如向量、矩陣或深度多層感知器)。注意力偏置是模型優化的內部學習目標,決定其優先處理事項。保留閘門作為記憶正則化器,MIRAS 重新詮釋「遺忘機制」為特定形式的正則化,在新學習與保留過往知識之間取得平衡。記憶演算法則是用於更新記憶的優化演算法。此框架旨在學習聯想記憶,建立鍵與值之間的映射關係。
幾乎所有成功的現有序列模型都依賴均方誤差或點積相似度作為其偏置與保留機制。這種依賴性可能使模型對離群值敏感,並限制其表達能力。MIRAS 超越此限制,提供一個生成框架來探索由優化與統計學文獻啟發的更豐富設計空間,允許創建具有非歐幾里得目標函數與正則化的新穎架構。
運用 MIRAS 框架,研究團隊創建三個特定的無注意力模型。YAAD 變體設計為對重大錯誤或離群值 (如大型文檔中的單一拼寫錯誤) 較不敏感,採用較溫和的數學懲罰 (Huber 損失) 處理錯誤,避免對一次性問題過度反應,使模型在輸入資料混亂或不一致時更穩健。MONETA 探索使用更複雜嚴格的數學懲罰 (廣義範數),研究對模型注意對象與遺忘對象使用這些更嚴謹規則是否能帶來更強大穩定的長期記憶系統。MEMORA 專注於透過強制記憶狀態表現如嚴格概率映射來達成最佳記憶穩定性,確保每次記憶狀態更新時變化都受控且平衡,保證整合新資訊的乾淨穩定流程。
研究團隊將 Titans 連同 MIRAS 變體 (YAAD、MONETA、MEMORA) 與領先架構進行嚴格比較,包括 Transformer++、Mamba-2 與 Gated DeltaNet。進一步在基因組建模 (DNA) 與時間序列預測上測試 Titans,證明該架構在文本之外有效泛化。
在標準語言建模資料集 (C4、WikiText) 與零樣本推理任務 (HellaSwag、PIQA) 中,這些模型持續展現更高準確度與困惑度表現 (困惑度衡量大型語言模型查看文本時的驚訝程度)。消融研究清楚顯示記憶架構的深度至關重要。比較相同大小但不同深度的長期記憶模組時,具備更深記憶的模組在語言建模中持續達成更低困惑度,且展現更佳擴展特性,隨序列長度顯著增加仍維持效能。
在語言建模與常識推理任務中,Titans 架構優於最先進的線性循環模型 (如 Mamba-2 與 Gated DeltaNet) 以及相似規模的 Transformer++ 基準。新穎的 MIRAS 變體 (MONETA、YAAD、MEMORA) 相較這些基準也達成改善效能,驗證探索穩健非均方誤差優化機制的益處。重要的是,這些模型維持高效可平行化訓練與快速線性推論速度。
這些新架構最顯著的優勢在於處理超長上下文的能力。BABILong 基準測試要求對分散在超長文檔中的事實進行推理,在這個具挑戰性的環境中,Titans 優於所有基準模型,包括 GPT-4 等參數量極大的模型,儘管 Titans 參數量少得多。Titans 進一步展現有效擴展至超過 200 萬標記上下文視窗大小的能力,這項成就標誌著 AI 模型處理極限長度文本的能力邁入新紀元。
記憶深度對困惑度的影響在 3.6 億與 7.6 億參數規模上都得到驗證,更深的記憶模組在兩種規模下都持續達成更低困惑度,證明深度記憶架構的普遍優勢。這種深度記憶設計不僅提升模型在標準任務上的表現,更是使其能夠處理極限長度上下文的根本原因。
Titans 與 MIRAS 框架的推出標誌著序列建模領域的重大進展。透過採用深度神經網路作為隨資料輸入而學習記憶的記憶模組,這些方法克服了固定大小循環狀態的限制。MIRAS 提供強大的理論統一,揭示線上優化、聯想記憶與架構設計之間的連結。透過超越標準歐幾里得範式,此研究為新一代序列模型開啟大門,結合循環神經網路的效率與長文本 AI 時代所需的表達能力,為處理極限長度上下文的應用情境提供實用解決方案。
責任編輯:Mia
INSIDE 年度旗艦論壇 INSIDE Future Day 2025 即將來臨!敬邀所有讀者一同見證人機共築未來新紀元。
延伸閱讀:
5 年虧 2.4 兆,Meta 砍元宇宙預算拚 AI 研發
Apple 自研晶片靈魂人物考慮出走,AI 人才大量流向 Meta


