Суміш адаптацій (MoA) впроваджує стохастичну маршрутизацію, регуляризацію узгодженості та об'єднання модулів для більш ефективного налаштування великих мовних моделей з точки зору параметрів. Шляхом випадкової маршрутизації вхідних даних через адаптаційні модулі, а потім об'єднання або усереднення їхніх ваг, MoA зменшує кількість операцій з плаваючою комою та обчислювальні витрати без втрати продуктивності. Цей підхід пов'язаний з байєсівським висновком та ансамблюванням моделей, пропонуючи надійний та ефективний шлях адаптації великих мовних моделей.Суміш адаптацій (MoA) впроваджує стохастичну маршрутизацію, регуляризацію узгодженості та об'єднання модулів для більш ефективного налаштування великих мовних моделей з точки зору параметрів. Шляхом випадкової маршрутизації вхідних даних через адаптаційні модулі, а потім об'єднання або усереднення їхніх ваг, MoA зменшує кількість операцій з плаваючою комою та обчислювальні витрати без втрати продуктивності. Цей підхід пов'язаний з байєсівським висновком та ансамблюванням моделей, пропонуючи надійний та ефективний шлях адаптації великих мовних моделей.

Як суміш адаптацій робить точне налаштування мовної моделі дешевшим і розумнішим

2025/10/01 17:00

Анотація та 1. Вступ

  1. Передумови

    2.1 Суміш експертів

    2.2 Адаптери

  2. Суміш адаптацій

    3.1 Політика маршрутизації

    3.2 Регуляризація узгодженості

    3.3 Об'єднання модулів адаптації та 3.4 Спільне використання модулів адаптації

    3.5 Зв'язок з байєсівськими нейронними мережами та ансамблюванням моделей

  3. Експерименти

    4.1 Експериментальна установка

    4.2 Ключові результати

    4.3 Дослідження абляції

  4. Пов'язані роботи

  5. Висновки

  6. Обмеження

  7. Подяки та посилання

Додаток

A. Набори даних NLU з малою кількістю прикладів B. Дослідження абляції C. Детальні результати на завданнях NLU D. Гіперпараметри

3 Суміш адаптацій

\

3.1 Політика маршрутизації

нещодавні роботи, такі як THOR (Zuo et al., 2021), продемонстрували, що стохастична політика маршрутизації, наприклад випадкова маршрутизація, працює так само добре, як і класичний механізм маршрутизації, такий як Switch routing (Fedus et al., 2021), з наступними перевагами. оскільки вхідні приклади випадково направляються до різних експертів, немає потреби в додатковому балансуванні навантаження, оскільки кожен експерт має рівні можливості бути активованим, що спрощує структуру. крім того, немає додаткових параметрів і, отже, додаткових обчислень на рівні Switch для вибору експерта. останнє особливо важливо в нашому налаштуванні для параметрично-ефективного точного налаштування, щоб зберегти параметри та FLOPs такими ж, як у одного модуля адаптації. для аналізу роботи AdaMix ми демонструємо зв'язки між стохастичною маршрутизацією та усередненням ваг моделі з байєсівськими нейронними мережами та ансамблюванням моделей у розділі 3.5.

\ \

\ \ така стохастична маршрутизація дозволяє модулям адаптації вивчати різні перетворення під час навчання та отримувати кілька поглядів на завдання. однак це також створює проблему щодо того, які модулі використовувати під час виведення через протокол випадкової маршрутизації під час навчання. ми вирішуємо цю проблему за допомогою наступних двох методів, які додатково дозволяють нам згорнути модулі адаптації та отримати ті самі обчислювальні витрати (FLOPs, кількість налаштовуваних параметрів адаптації), що й у одного модуля.

3.2 Регуляризація узгодженості

\

\ \ \

3.3 Об'єднання модулів адаптації

хоча вищезазначена регуляризація зменшує неузгодженість у випадковому виборі модуля під час виведення, вона все ще призводить до збільшення витрат на обслуговування для розміщення кількох модулів адаптації. попередні роботи з точного налаштування мовних моделей для подальших завдань показали покращену продуктивність при усередненні ваг різних моделей, точно налаштованих з різними випадковими зернами, перевершуючи одну точно налаштовану модель. нещодавня робота (Wortsman et al., 2022) також показала, що по-різному точно налаштовані моделі з однаковою ініціалізацією лежать в одному басейні помилок, що мотивує використання агрегації ваг для надійного узагальнення завдань. ми адаптуємо та розширюємо попередні методи для точного налаштування мовної моделі до нашого параметрично-ефективного навчання модулів адаптації з кількома поглядами

\ \

\

3.4 Спільне використання модулів адаптації

\

3.5 Зв'язок з байєсівськими нейронними мережами та ансамблюванням моделей

\

\ \ це вимагає усереднення за всіма можливими вагами моделі, що на практиці нездійсненно. тому було розроблено кілька методів апроксимації на основі методів варіаційного виведення та методів стохастичної регуляризації з використанням дропаутів. у цій роботі ми використовуємо іншу стохастичну регуляризацію у формі випадкової маршрутизації. тут метою є знаходження сурогатного розподілу qθ(w) у керованому сімействі розподілів, який може замінити справжній апостеріорний розподіл моделі, який важко обчислити. ідеальний сурогат визначається шляхом мінімізації розбіжності Кульбака-Лейблера (KL) між кандидатом і справжнім апостеріорним розподілом.

\ \

\ \ \

\ \ \

\ \ \ \

:::info Автори:

(1) Yaqing Wang, Purdue University (wang5075@purdue.edu);

(2) Sahaj Agarwal, Microsoft (sahagar@microsoft.com);

(3) Subhabrata Mukherjee, Microsoft Research (submukhe@microsoft.com);

(4) Xiaodong Liu, Microsoft Research (xiaodl@microsoft.com);

(5) Jing Gao, Purdue University (jinggao@purdue.edu);

(6) Ahmed Hassan Awadallah, Microsoft Research (hassanam@microsoft.com);

(7) Jianfeng Gao, Microsoft Research (jfgao@microsoft.com).

:::


:::info Ця стаття доступна на arxiv за ліцензією CC BY 4.0 DEED.

:::

\

Ринкові можливості
Логотип FINE
Курс FINE (FINE)
$0.0000000007735
$0.0000000007735$0.0000000007735
+1.44%
USD
Графік ціни FINE (FINE) в реальному часі
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою service@support.mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися

Eumir Marcial здобуває єдине золото Філіппін у боксі на Іграх Південно-Східної Азії 2025

Eumir Marcial здобуває єдине золото Філіппін у боксі на Іграх Південно-Східної Азії 2025

Юмір Марсіаль здобуває своє п'яте золото на Іграх Південно-Східної Азії, щоб помститися за своїх товаришів-філіппінських боксерів, які задовольнилися меншими результатами в попередні дні через спірні
Поділитись
Rappler2025/12/20 11:49
Ліофільні сушарки: повний посібник із збереження продуктів харчування, фармацевтичних препаратів та іншого

Ліофільні сушарки: повний посібник із збереження продуктів харчування, фармацевтичних препаратів та іншого

Ліофільна сушка — це сучасний метод консервації, який набуває популярності в різних галузях. Відомий своєю здатністю зберігати оригінальну якість
Поділитись
Techbullion2025/12/20 12:44
Shanghai Electric підсилює енергетичне майбутнє Іраку завдяки масштабному оновленню потужності 625 МВт

Shanghai Electric підсилює енергетичне майбутнє Іраку завдяки масштабному оновленню потужності 625 МВт

Визначний проєкт у чотирьох губернаторствах для збільшення потужності електростанції на 50%, що полегшить хронічну нестачу електроенергії ШАНХАЙ, 19 грудня 2025 /PRNewswire/ — Шанхай
Поділитись
AI Journal2025/12/20 12:45