透過結合狀態空間模型(SSMs)與注意力機制的優勢,SAMBA 呈現了一種混合神經架構,能夠實現有效、可擴展的語言建模,具有幾乎無限的上下文長度。在使用一致設置在 SlimPajama 上訓練時,SAMBA 在各種推理、理解和編碼指標上超越了純注意力基礎和 SSM 基礎模型。該模型處理長達 256K 標記的序列只需少量微調,實現了卓越的速度和外推能力。透過結合狀態空間模型(SSMs)與注意力機制的優勢,SAMBA 呈現了一種混合神經架構,能夠實現有效、可擴展的語言建模,具有幾乎無限的上下文長度。在使用一致設置在 SlimPajama 上訓練時,SAMBA 在各種推理、理解和編碼指標上超越了純注意力基礎和 SSM 基礎模型。該模型處理長達 256K 標記的序列只需少量微調,實現了卓越的速度和外推能力。

混合式 AI 模型如何平衡記憶體與效率

2025/10/28 17:13

摘要和1. 引言

  1. 方法論

  2. 實驗和結果

    3.1 在vQuality數據上的語言建模

    3.2 關於注意力和線性遞迴的探索

    3.3 高效長度外推

    3.4 長上下文理解

  3. 分析

  4. 結論、致謝和參考文獻

A. 實現細節

B. 額外實驗結果

C. 熵測量詳情

D. 局限性

\

A 實現細節

\ 對於滑動GLA架構中的GLA層,我們使用頭數dm/384、鍵擴展比率0.5和值擴展比率1。對於RetNet層,我們使用的頭數是注意力查詢頭數的一半,鍵擴展比率為1,值擴展比率為2。GLA和RetNet的實現來自Flash Linear Attention存儲庫[3] [YZ24]。我們使用基於FlashAttention的實現進行Self-Extend外推[4]。Mamba 432M模型的模型寬度為1024,而Mamba 1.3B模型的模型寬度為2048。除非另有說明,所有在SlimPajama上訓練的模型都具有相同的訓練配置和與Samba相同的MLP中間大小。SlimPajama上的訓練基礎設施基於TinyLlama代碼庫的修改版本[5]。

\ 表10:在不同規模上訓練的SAMBA模型的詳細超參數。我們僅顯示3.8B模型第一訓練階段的優化設置。

\ 在下游任務的生成配置中,我們對GSM8K使用貪婪解碼,對HumanEval使用溫度τ = 0.2和top-p = 0.95的核採樣[HBD+19]。對於MBPP和SQuAD,我們設置τ = 0.01和top-p = 0.95。

B 額外實驗結果

\ 圖6:Samba 1.7B和Mistral 1.6B模型在4K序列長度的密鑰檢索指令微調500步期間的訓練損失曲線。我們使用窗口大小為10的簡單移動平均繪製兩個模型的損失曲線。

\

\ 圖7:Samba 1.7B和Mistral 1.6B模型在指令微調500步期間在256K文檔長度上的整體密鑰檢索準確率。

\

C 熵測量詳情

\

\

D 局限性

雖然Samba通過指令微調展示了有希望的記憶檢索性能,但其預訓練基礎模型的檢索性能與基於SWA的模型相似,如圖7所示。這為未來進一步提高Samba的檢索能力而不損害其效率和外推能力開闢了方向。此外,Samba的混合策略在所有任務中並不始終優於其他替代方案。如表2所示,MambaSWA-MLP在WinoGrande、SIQA和GSM8K等任務上表現出改進的性能。這使我們有可能投資於更複雜的方法來執行基於SWA和基於SSM模型的輸入依賴動態組合。

\

:::info 作者:

(1) Liliang Ren,Microsoft和伊利諾伊大學厄巴納-香檳分校 (liliangren@microsoft.com);

(2) Yang Liu†,Microsoft (yaliu10@microsoft.com);

(3) Yadong Lu†,Microsoft (yadonglu@microsoft.com);

(4) Yelong Shen,Microsoft (yelong.shen@microsoft.com);

(5) Chen Liang,Microsoft (chenliang1@microsoft.com);

(6) Weizhu Chen,Microsoft (wzchen@microsoft.com)。

:::


:::info 本論文可在arxiv上獲取,採用CC BY 4.0許可證。

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。