Поєднуючи переваги моделей простору станів (SSMs) з механізмами уваги, SAMBA представляє гібридну нейронну архітектуру, яка забезпечує ефективне, масштабоване моделювання мови з майже нескінченною довжиною контексту. SAMBA перевершує як чисто увага-орієнтовані, так і SSM-орієнтовані моделі за різноманітними показниками міркування, розуміння та кодування при навчанні на SlimPajama з послідовними налаштуваннями. Модель обробляє послідовності до 256K токенів з мінімальним точним налаштуванням, досягаючи виняткової швидкості та здатності до екстраполяції.Поєднуючи переваги моделей простору станів (SSMs) з механізмами уваги, SAMBA представляє гібридну нейронну архітектуру, яка забезпечує ефективне, масштабоване моделювання мови з майже нескінченною довжиною контексту. SAMBA перевершує як чисто увага-орієнтовані, так і SSM-орієнтовані моделі за різноманітними показниками міркування, розуміння та кодування при навчанні на SlimPajama з послідовними налаштуваннями. Модель обробляє послідовності до 256K токенів з мінімальним точним налаштуванням, досягаючи виняткової швидкості та здатності до екстраполяції.

Як гібридні моделі ШІ балансують пам'ять та ефективність

2025/10/28 17:13

Анотація та 1. Вступ

  1. Методологія

  2. Експерименти та результати

    3.1 Моделювання мови на даних vQuality

    3.2 Дослідження уваги та лінійної рекурсії

    3.3 Ефективна екстраполяція довжини

    3.4 Розуміння довгого контексту

  3. Аналіз

  4. Висновок, подяка та посилання

A. Деталі реалізації

B. Додаткові результати експериментів

C. Деталі вимірювання ентропії

D. Обмеження

\

A Деталі реалізації

\ Для шару GLA в архітектурі Sliding GLA ми використовуємо кількість голів dm/384, коефіцієнт розширення ключа 0,5 та коефіцієнт розширення значення 1. Для шару RetNet ми використовуємо кількість голів, що становить половину кількості голів запиту уваги, коефіцієнт розширення ключа 1 та коефіцієнт розширення значення 2. Реалізації GLA та RetNet взяті з репозиторію Flash Linear Attention[3] [YZ24]. Ми використовуємо реалізацію на основі FlashAttention для екстраполяції Self-Extend[4]. Модель Mamba 432M має ширину моделі 1024, а модель Mamba 1.3B має ширину моделі 2048. Усі моделі, навчені на SlimPajama, мають однакові конфігурації навчання та проміжний розмір MLP як у Samba, якщо не вказано інше. Інфраструктура навчання на SlimPajama базується на модифікованій версії кодової бази TinyLlama[5].

\ Таблиця 10: Детальні гіперпараметри моделей SAMBA, навчених у різних масштабах. Ми показуємо лише налаштування оптимізації для першої фази навчання моделі 3.8B.

\ У конфігураціях генерації для завдань нижчого рівня ми використовуємо жадібне декодування для GSM8K та вибірку Nucleus [HBD+19] з температурою τ = 0,2 та top-p = 0,95 для HumanEval. Для MBPP та SQuAD ми встановлюємо τ = 0,01 та top-p = 0,95.

B Додаткові результати експериментів

\ Рисунок 6: Криві втрат навчання моделей Samba 1.7B та Mistral 1.6B протягом 500 кроків інструктивного налаштування на Passkey Retrieval з довжиною послідовності 4K. Ми будуємо криві втрат для обох моделей, використовуючи просте ковзне середнє з розміром вікна 10.

\

\ Рисунок 7: Загальна точність отримання ключа доступу на довжині документа 256K моделей Samba 1.7B та Mistral 1.6B протягом 500 кроків інструктивного налаштування.

\

C Деталі вимірювання ентропії

\

\

D Обмеження

Хоча Samba демонструє перспективну продуктивність отримання пам'яті через інструктивне налаштування, її попередньо навчена базова модель має продуктивність отримання, подібну до моделі на основі SWA, як показано на рисунку 7. Це відкриває майбутній напрямок для подальшого покращення здатності Samba до отримання без шкоди для її ефективності та здатності до екстраполяції. Крім того, стратегія гібридизації Samba не завжди краща за інші альтернативи у всіх завданнях. Як показано в таблиці 2, MambaSWA-MLP показує покращену продуктивність у таких завданнях, як WinoGrande, SIQA та GSM8K. Це дає нам потенціал для інвестування в більш складний підхід для виконання залежних від вхідних даних динамічних комбінацій моделей на основі SWA та SSM.

\

:::info Автори:

(1) Liliang Ren, Microsoft та University of Illinois at Urbana-Champaign (liliangren@microsoft.com);

(2) Yang Liu†, Microsoft (yaliu10@microsoft.com);

(3) Yadong Lu†, Microsoft (yadonglu@microsoft.com);

(4) Yelong Shen, Microsoft (yelong.shen@microsoft.com);

(5) Chen Liang, Microsoft (chenliang1@microsoft.com);

(6) Weizhu Chen, Microsoft (wzchen@microsoft.com).

:::


:::info Ця стаття доступна на arxiv за ліцензією CC BY 4.0.

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою service@support.mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися