BörseDEX+

Krypto kaufen Märkte Spot Futures500X Earn Events

Mehr

Goldbarren- & BTC-Giveaway2000g

Mixture-of-Adaptations (MoA) führt stochastisches Routing, Konsistenzregularisierung und Modulzusammenführung ein, um das Fine-Tuning großer Sprachmodelle parametereffizienter zu gestalten. Durch zufälliges Routing von Eingaben über Adaptationsmodule und anschließendes Zusammenführen oder Mitteln ihrer Gewichtungen reduziert MoA FLOPs und Rechenkosten ohne Leistungseinbußen. Dieser Ansatz verbindet sich mit Bayesscher Inferenz und Modell-Ensembling und bietet einen robusten, aber effizienten Weg zur Anpassung von LLMs.Mixture-of-Adaptations (MoA) führt stochastisches Routing, Konsistenzregularisierung und Modulzusammenführung ein, um das Fine-Tuning großer Sprachmodelle parametereffizienter zu gestalten. Durch zufälliges Routing von Eingaben über Adaptationsmodule und anschließendes Zusammenführen oder Mitteln ihrer Gewichtungen reduziert MoA FLOPs und Rechenkosten ohne Leistungseinbußen. Dieser Ansatz verbindet sich mit Bayesscher Inferenz und Modell-Ensembling und bietet einen robusten, aber effizienten Weg zur Anpassung von LLMs.

Wie Mixture-of-Adaptations die Feinabstimmung von Sprachmodellen günstiger und intelligenter macht

Von: Hackernoon

2025/10/01 17:00

FINE$0.0000000008172+2.63%

MORE$0.004041-8.38%

Tabelle der Links

Abstrakt und 1. Einleitung

Hintergrund

2.1 Mixture-of-Experts

2.2 Adapter
Mixture-of-Adaptations

3.1 Routing-Richtlinie

3.2 Konsistenzregularisierung

3.3 Zusammenführung von Adaptationsmodulen und 3.4 Gemeinsame Nutzung von Adaptationsmodulen

3.5 Verbindung zu Bayesschen Neuronalen Netzwerken und Modell-Ensembling
Experimente

4.1 Experimenteller Aufbau

4.2 Wichtigste Ergebnisse

4.3 Ablationsstudie
Verwandte Arbeiten
Schlussfolgerungen
Einschränkungen
Danksagung und Referenzen

Anhang

A. Few-shot NLU Datensätze B. Ablationsstudie C. Detaillierte Ergebnisse zu NLU-Aufgaben D. Hyperparameter

3 Mixture-of-Adaptations

3.1 Routing-Richtlinie

Neuere Arbeiten wie THOR (Zuo et al., 2021) haben gezeigt, dass stochastische Routing-Richtlinien wie zufälliges Routing genauso gut funktionieren wie klassische Routing-Mechanismen wie Switch-Routing (Fedus et al., 2021) mit den folgenden Vorteilen. Da Eingabebeispiele zufällig an verschiedene Experten weitergeleitet werden, ist keine zusätzliche Lastverteilung erforderlich, da jeder Experte die gleiche Chance hat, aktiviert zu werden, was das Framework vereinfacht. Darüber hinaus gibt es keine zusätzlichen Parameter und daher keine zusätzliche Berechnung auf der Switch-Ebene für die Expertenauswahl. Letzteres ist in unserer Einstellung für parametereffizientes Fine-Tuning besonders wichtig, um die Parameter und FLOPs gleich zu halten wie bei einem einzelnen Adaptationsmodul. Um die Funktionsweise von AdaMix zu analysieren, zeigen wir in Abschnitt 3.5 Verbindungen zu stochastischem Routing und Modellgewichtsmittelung zu Bayesschen Neuronalen Netzwerken und Modell-Ensembling auf.

\ \

\ \ Ein solches stochastisches Routing ermöglicht es Adaptationsmodulen, während des Trainings verschiedene Transformationen zu erlernen und mehrere Ansichten der Aufgabe zu erhalten. Dies schafft jedoch auch eine Herausforderung, welche Module während der Inferenz verwendet werden sollen, aufgrund des zufälligen Routing-Protokolls während des Trainings. Wir begegnen dieser Herausforderung mit den folgenden zwei Techniken, die es uns weiterhin ermöglichen, Adaptationsmodule zusammenzuführen und die gleichen Rechenkosten (FLOPs, #abstimmbare Adaptationsparameter) wie bei einem einzelnen Modul zu erhalten.

3.2 Konsistenzregularisierung

\ \ \

3.3 Zusammenführung von Adaptationsmodulen

Während die obige Regularisierung Inkonsistenzen bei der zufälligen Modulauswahl während der Inferenz mildert, führt sie dennoch zu erhöhten Bereitstellungskosten für die Unterbringung mehrerer Adaptationsmodule. Frühere Arbeiten zum Fine-Tuning von Sprachmodellen für nachgelagerte Aufgaben haben eine verbesserte Leistung bei der Mittelung der Gewichte verschiedener Modelle gezeigt, die mit verschiedenen Zufallsinitialisierungen feinabgestimmt wurden und ein einzelnes feinabgestimmtes Modell übertreffen. Neuere Arbeiten (Wortsman et al., 2022) haben auch gezeigt, dass unterschiedlich feinabgestimmte Modelle aus derselben Initialisierung im selben Fehlerbecken liegen, was die Verwendung von Gewichtsaggregation für eine robuste Aufgabenzusammenfassung motiviert. Wir übernehmen und erweitern frühere Techniken für das Fine-Tuning von Sprachmodellen für unser parametereffizientes Training von Multi-View-Adaptationsmodulen

\ \

3.4 Gemeinsame Nutzung von Adaptationsmodulen

3.5 Verbindung zu Bayesschen Neuronalen Netzwerken und Modell-Ensembling

\ \ Dies erfordert die Mittelung über alle möglichen Modellgewichte, was in der Praxis nicht durchführbar ist. Daher wurden mehrere Approximationsmethoden entwickelt, die auf Variationsinferenzmethoden und stochastischen Regularisierungstechniken mit Dropouts basieren. In dieser Arbeit nutzen wir eine weitere stochastische Regularisierung in Form von zufälligem Routing. Hier besteht das Ziel darin, eine Ersatzverteilung qθ(w) in einer berechenbaren Familie von Verteilungen zu finden, die die wahre Modellposterior ersetzen kann, die schwer zu berechnen ist. Der ideale Ersatz wird durch Minimierung der Kullback-Leibler (KL) Divergenz zwischen dem Kandidaten und der wahren Posterior identifiziert.

\ \

\ \ \

\ \ \ \

:::info Autoren:

(1) Yaqing Wang, Purdue University (wang5075@purdue.edu);

(2) Sahaj Agarwal, Microsoft (sahagar@microsoft.com);

(3) Subhabrata Mukherjee, Microsoft Research (submukhe@microsoft.com);

(4) Xiaodong Liu, Microsoft Research (xiaodl@microsoft.com);

(5) Jing Gao, Purdue University (jinggao@purdue.edu);

(6) Ahmed Hassan Awadallah, Microsoft Research (hassanam@microsoft.com);

(7) Jianfeng Gao, Microsoft Research (jfgao@microsoft.com).

:::

:::info Dieses Paper ist auf arxiv verfügbar unter der CC BY 4.0 DEED Lizenz.

:::

Marktchance

FINE Kurs(FINE)

$0.0000000008172

$0.0000000008172$0.0000000008172

+3.07%

USD

FINE (FINE) Echtzeit-Preis-Diagramm

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an service@support.mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.

Das könnte Ihnen auch gefallen

Cyberangriff als Ursache?: Großer IT-Ausfall während Selenskyj-Besuch im Bundestag

In Berlin finden derzeit Gespräche über eine Friedenslösung im Ukraine-Krieg statt. Als der ukrainische Präsident Selenskyj den Bundestag besucht, kommt es zu S

N-tv

2025/12/15 23:48

Sogar Macron kommt ins Schwärmen: Die Geschichte hinter dem besten Spiel des Jahres ist absolut verrückt

Bei den prestigeträchtigen Game Awards räumt "Clair Obscur: Expedition 33" alles ab. Es ist eine beinahe unglaubliche Underdog-Story, die zeigt, was kleine Entw

N-tv

2025/12/16 00:22

Neuer Panzer für die Bundeswehr: Kartellamt gibt grünes Licht für Entwicklung des Leopard 3

Bis zur Auslieferung des ersten deutsch-französischen Kampfpanzers dürften noch rund 20 Jahre vergehen. Übergangsweise soll die Bundeswehr den Leopard 3 von KND

N-tv

2025/12/16 00:17

Trendnachrichten

Mehr

Kryptopreise

Bitcoin

BTC

$85,661.60

$85,661.60$85,661.60

-1.57%

Ethereum

ETH

$2,938.42

$2,938.42$2,938.42

-2.40%

Solana

SOL

$125.00

$125.00$125.00

-1.49%

XRP

$1.8922

$1.8922$1.8922

-1.74%

Binance Coin

BNB

$843.78

$843.78$843.78

-1.78%

Wie Mixture-of-Adaptations die Feinabstimmung von Sprachmodellen günstiger und intelligenter macht

Tabelle der Links

3 Mixture-of-Adaptations

3.1 Routing-Richtlinie

3.2 Konsistenzregularisierung

3.3 Zusammenführung von Adaptationsmodulen

3.4 Gemeinsame Nutzung von Adaptationsmodulen

3.5 Verbindung zu Bayesschen Neuronalen Netzwerken und Modell-Ensembling

Das könnte Ihnen auch gefallen

Cyberangriff als Ursache?: Großer IT-Ausfall während Selenskyj-Besuch im Bundestag

Sogar Macron kommt ins Schwärmen: Die Geschichte hinter dem besten Spiel des Jahres ist absolut verrückt

Neuer Panzer für die Bundeswehr: Kartellamt gibt grünes Licht für Entwicklung des Leopard 3

Trendnachrichten

Cyberangriff als Ursache?: Großer IT-Ausfall während Selenskyj-Besuch im Bundestag

Sogar Macron kommt ins Schwärmen: Die Geschichte hinter dem besten Spiel des Jahres ist absolut verrückt

Neuer Panzer für die Bundeswehr: Kartellamt gibt grünes Licht für Entwicklung des Leopard 3

Menzies prügelt auf Tisch ein: Das ist der heftigste Ausraster in der Geschichte der Darts-WM

2028: Das Schicksalsjahr für MicroStrategy (Strategy)? Der ultimative Härtetest

Kryptopreise