En combinant les avantages des modèles d'espace d'état (SSMs) avec des mécanismes d'attention, SAMBA présente une architecture neuronale hybride qui permet une modélisation linguistique efficace et scalable avec une longueur de contexte presque infinie. SAMBA surpasse à la fois les modèles basés sur l'attention pure et les modèles basés sur SSM sur une variété de métriques de raisonnement, de compréhension et de codage lorsqu'il est entraîné sur SlimPajama avec des configurations cohérentes. Le modèle traite des séquences jusqu'à 256K tokens avec peu de fine-tuning, atteignant une vitesse exceptionnelle et une capacité d'extrapolation remarquable.En combinant les avantages des modèles d'espace d'état (SSMs) avec des mécanismes d'attention, SAMBA présente une architecture neuronale hybride qui permet une modélisation linguistique efficace et scalable avec une longueur de contexte presque infinie. SAMBA surpasse à la fois les modèles basés sur l'attention pure et les modèles basés sur SSM sur une variété de métriques de raisonnement, de compréhension et de codage lorsqu'il est entraîné sur SlimPajama avec des configurations cohérentes. Le modèle traite des séquences jusqu'à 256K tokens avec peu de fine-tuning, atteignant une vitesse exceptionnelle et une capacité d'extrapolation remarquable.

Comment les modèles d'IA hybrides équilibrent la mémoire et l'efficacité

2025/10/28 17:13

Abstrait et 1. Introduction

  1. Méthodologie

  2. Expériences et Résultats

    3.1 Modélisation du langage sur des données vQuality

    3.2 Exploration sur l'attention et la récurrence linéaire

    3.3 Extrapolation efficace de la longueur

    3.4 Compréhension de contexte long

  3. Analyse

  4. Conclusion, Remerciements et Références

A. Détails d'implémentation

B. Résultats d'expériences supplémentaires

C. Détails de la mesure d'entropie

D. Limitations

\

A Détails d'implémentation

\ Pour la couche GLA dans l'architecture Sliding GLA, nous utilisons un nombre de têtes dm/384, un ratio d'expansion de clé de 0,5 et un ratio d'expansion de valeur de 1. Pour la couche RetNet, nous utilisons un nombre de têtes équivalent à la moitié du nombre de têtes de requête d'attention, un ratio d'expansion de clé de 1 et un ratio d'expansion de valeur de 2. Les implémentations de GLA et RetNet proviennent du dépôt Flash Linear Attention[3] [YZ24]. Nous utilisons l'implémentation basée sur FlashAttention pour l'extrapolation Self-Extend[4]. Le modèle Mamba 432M a une largeur de modèle de 1024 et le modèle Mamba 1.3B a une largeur de modèle de 2048. Tous les modèles entraînés sur SlimPajama ont les mêmes configurations d'entraînement et la taille intermédiaire MLP que Samba, sauf indication contraire. L'infrastructure d'entraînement sur SlimPajama est basée sur une version modifiée du code TinyLlama[5].

\ Tableau 10: Hyper-paramètres détaillés des modèles SAMBA entraînés à différentes échelles. Nous montrons uniquement les paramètres d'optimisation pour la première phase d'entraînement du modèle 3.8B.

\ Dans les configurations de génération pour les tâches en aval, nous utilisons le décodage glouton pour GSM8K, et l'échantillonnage Nucleus [HBD+19] avec une température de τ = 0,2 et top-p = 0,95 pour HumanEval. Pour MBPP et SQuAD, nous définissons τ = 0,01 et top-p = 0,95.

B Résultats d'expériences supplémentaires

\ Figure 6: Courbes de perte d'entraînement des modèles Samba 1.7B et Mistral 1.6B pendant 500 étapes d'instruction tuning sur la récupération de clé d'accès avec une longueur de séquence de 4K. Nous traçons les courbes de perte pour les deux modèles en utilisant la moyenne mobile simple avec une fenêtre de taille 10.

\

\ Figure 7: Précision globale de récupération de clé d'accès sur la longueur de document de 256K des modèles Samba 1.7B et Mistral 1.6B pendant 500 étapes d'instruction tuning.

\

C Détails de la mesure d'entropie

\

\

D Limitations

Bien que Samba démontre des performances prometteuses de récupération de mémoire grâce à l'instruction tuning, son modèle de base pré-entraîné a des performances de récupération similaires à celles du modèle basé sur SWA, comme le montre la Figure 7. Cela ouvre une direction future pour améliorer davantage la capacité de récupération de Samba sans compromettre son efficacité et sa capacité d'extrapolation. De plus, la stratégie d'hybridation de Samba n'est pas systématiquement meilleure que les autres alternatives dans toutes les tâches. Comme le montre le Tableau 2, MambaSWA-MLP montre des performances améliorées sur des tâches telles que WinoGrande, SIQA et GSM8K. Cela nous donne le potentiel d'investir dans une approche plus sophistiquée pour effectuer des combinaisons dynamiques dépendantes de l'entrée des modèles basés sur SWA et SSM.

\

:::info Auteurs:

(1) Liliang Ren, Microsoft et University of Illinois at Urbana-Champaign (liliangren@microsoft.com);

(2) Yang Liu†, Microsoft (yaliu10@microsoft.com);

(3) Yadong Lu†, Microsoft (yadonglu@microsoft.com);

(4) Yelong Shen, Microsoft (yelong.shen@microsoft.com);

(5) Chen Liang, Microsoft (chenliang1@microsoft.com);

(6) Weizhu Chen, Microsoft (wzchen@microsoft.com).

:::


:::info Cet article est disponible sur arxiv sous licence CC BY 4.0.

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.

Vous aimerez peut-être aussi

Une Autre Entreprise Cotée au Nasdaq Annonce un Achat Massif de Bitcoin (BTC) ! Devient la 14e Plus Grande Entreprise ! – Ils Investiront Également dans une Altcoin Liée à Trump !

Une Autre Entreprise Cotée au Nasdaq Annonce un Achat Massif de Bitcoin (BTC) ! Devient la 14e Plus Grande Entreprise ! – Ils Investiront Également dans une Altcoin Liée à Trump !

L'article Une autre entreprise cotée au Nasdaq annonce un achat massif de Bitcoin (BTC) ! Devient la 14e plus grande entreprise ! - Ils investiront également dans une altcoin liée à Trump ! est apparu sur BitcoinEthereumNews.com. Alors que le nombre d'entreprises détenant des réserves de Bitcoin (BTC) continue d'augmenter jour après jour, une autre entreprise cotée au Nasdaq a annoncé son achat de BTC. En conséquence, la société de diffusion en direct et de commerce électronique GD Culture Group a annoncé un accord d'achat de Bitcoin de 787,5 millions de dollars. Selon le communiqué officiel, GD Culture Group a annoncé avoir conclu un accord d'actions pour acquérir des actifs d'une valeur de 875 millions de dollars, comprenant 7 500 Bitcoins, auprès de Pallas Capital Holding, une société enregistrée dans les îles Vierges britanniques. GD Culture émettra environ 39,2 millions d'actions ordinaires en échange de tous les actifs de Pallas Capital, y compris 875,4 millions de dollars de Bitcoin. Le PDG de GD Culture, Xiaojian Wang, a déclaré que l'accord d'acquisition soutiendra directement le plan de l'entreprise visant à constituer une réserve d'actifs cryptographiques solide et diversifiée tout en capitalisant sur l'acceptation institutionnelle croissante du Bitcoin comme actif de réserve et réserve de valeur. Avec cette acquisition, GD Culture devrait devenir la 14e plus grande entreprise cotée en bourse détenant du Bitcoin. Le nombre d'entreprises adoptant des stratégies de trésorerie Bitcoin a considérablement augmenté, dépassant 190 d'ici 2025. Immédiatement après l'annonce de l'accord, les actions de GD Culture ont chuté de 28,16 % à 6,99 $, leur plus forte baisse en un an. Comme vous vous en souvenez peut-être également, GD Culture a annoncé en mai qu'elle créerait une réserve de cryptomonnaies. À ce stade, l'entreprise a annoncé qu'elle prévoyait d'investir dans Bitcoin et dans le meme coin officiel du président Donald Trump, le token TRUMP, par le biais de l'émission d'actions pouvant atteindre 300 millions de dollars. *Ceci n'est pas un conseil en investissement. Suivez maintenant notre compte Telegram et Twitter pour des nouvelles exclusives, des analyses et des données on-chain ! Source : https://en.bitcoinsistemi.com/another-nasdaq-listed-company-announces-massive-bitcoin-btc-purchase-becomes-14th-largest-company-theyll-also-invest-in-trump-linked-altcoin/
Partager
BitcoinEthereumNews2025/09/18 04:06