交易所DEX+

抽金磚 & BTC2000g

透過結合狀態空間模型（SSMs）與注意力機制的優勢，SAMBA 呈現了一種混合神經架構，能夠實現有效、可擴展的語言建模，具有幾乎無限的上下文長度。在使用一致設置在 SlimPajama 上訓練時，SAMBA 在各種推理、理解和編碼指標上超越了純注意力基礎和 SSM 基礎模型。該模型處理長達 256K 標記的序列只需少量微調，實現了卓越的速度和外推能力。透過結合狀態空間模型（SSMs）與注意力機制的優勢，SAMBA 呈現了一種混合神經架構，能夠實現有效、可擴展的語言建模，具有幾乎無限的上下文長度。在使用一致設置在 SlimPajama 上訓練時，SAMBA 在各種推理、理解和編碼指標上超越了純注意力基礎和 SSM 基礎模型。該模型處理長達 256K 標記的序列只需少量微調，實現了卓越的速度和外推能力。

混合式 AI 模型如何平衡記憶體與效率

作者：Hackernoon

2025/10/28 17:13

AI$0.04036-2.15%

SPACE$0.1433-0.48%

FINE$0.0000000007879+0.65%

連結表格

摘要和1. 引言

方法論
實驗和結果

3.1 在vQuality數據上的語言建模

3.2 關於注意力和線性遞迴的探索

3.3 高效長度外推

3.4 長上下文理解
分析
結論、致謝和參考文獻

A. 實現細節

B. 額外實驗結果

C. 熵測量詳情

D. 局限性

A 實現細節

\ 對於滑動GLA架構中的GLA層，我們使用頭數dm/384、鍵擴展比率0.5和值擴展比率1。對於RetNet層，我們使用的頭數是注意力查詢頭數的一半，鍵擴展比率為1，值擴展比率為2。GLA和RetNet的實現來自Flash Linear Attention存儲庫[3] [YZ24]。我們使用基於FlashAttention的實現進行Self-Extend外推[4]。Mamba 432M模型的模型寬度為1024，而Mamba 1.3B模型的模型寬度為2048。除非另有說明，所有在SlimPajama上訓練的模型都具有相同的訓練配置和與Samba相同的MLP中間大小。SlimPajama上的訓練基礎設施基於TinyLlama代碼庫的修改版本[5]。

\ 表10：在不同規模上訓練的SAMBA模型的詳細超參數。我們僅顯示3.8B模型第一訓練階段的優化設置。

\ 在下游任務的生成配置中，我們對GSM8K使用貪婪解碼，對HumanEval使用溫度τ = 0.2和top-p = 0.95的核採樣[HBD+19]。對於MBPP和SQuAD，我們設置τ = 0.01和top-p = 0.95。

B 額外實驗結果

\ 圖6：Samba 1.7B和Mistral 1.6B模型在4K序列長度的密鑰檢索指令微調500步期間的訓練損失曲線。我們使用窗口大小為10的簡單移動平均繪製兩個模型的損失曲線。

\ 圖7：Samba 1.7B和Mistral 1.6B模型在指令微調500步期間在256K文檔長度上的整體密鑰檢索準確率。

C 熵測量詳情

D 局限性

雖然Samba通過指令微調展示了有希望的記憶檢索性能，但其預訓練基礎模型的檢索性能與基於SWA的模型相似，如圖7所示。這為未來進一步提高Samba的檢索能力而不損害其效率和外推能力開闢了方向。此外，Samba的混合策略在所有任務中並不始終優於其他替代方案。如表2所示，MambaSWA-MLP在WinoGrande、SIQA和GSM8K等任務上表現出改進的性能。這使我們有可能投資於更複雜的方法來執行基於SWA和基於SSM模型的輸入依賴動態組合。

:::info 作者：

(1) Liliang Ren，Microsoft和伊利諾伊大學厄巴納-香檳分校 (liliangren@microsoft.com)；

(2) Yang Liu†，Microsoft (yaliu10@microsoft.com)；

(3) Yadong Lu†，Microsoft (yadonglu@microsoft.com)；

(4) Yelong Shen，Microsoft (yelong.shen@microsoft.com)；

(5) Chen Liang，Microsoft (chenliang1@microsoft.com)；

(6) Weizhu Chen，Microsoft (wzchen@microsoft.com)。

:::

:::info 本論文可在arxiv上獲取，採用CC BY 4.0許可證。

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。