Ao combinar as vantagens dos modelos de espaço de estado (SSMs) com mecanismos de atenção, o SAMBA apresenta uma arquitetura neural híbrida que permite uma modelagem de linguagem eficaz e escalável com um comprimento de contexto quase infinito. O SAMBA supera tanto os modelos baseados em atenção pura quanto os baseados em SSM em uma variedade de métricas de raciocínio, compreensão e codificação quando treinado no SlimPajama com configurações consistentes. O modelo processa sequências de até 256K tokens com pouco ajuste fino, alcançando velocidade excepcional e capacidade de extrapolação.Ao combinar as vantagens dos modelos de espaço de estado (SSMs) com mecanismos de atenção, o SAMBA apresenta uma arquitetura neural híbrida que permite uma modelagem de linguagem eficaz e escalável com um comprimento de contexto quase infinito. O SAMBA supera tanto os modelos baseados em atenção pura quanto os baseados em SSM em uma variedade de métricas de raciocínio, compreensão e codificação quando treinado no SlimPajama com configurações consistentes. O modelo processa sequências de até 256K tokens com pouco ajuste fino, alcançando velocidade excepcional e capacidade de extrapolação.

Como os Modelos de IA Híbridos Equilibram Memória e Eficiência

2025/10/28 17:13

Resumo e 1. Introdução

  1. Metodologia

  2. Experiências e Resultados

    3.1 Modelagem de Linguagem em Dados de vQuality

    3.2 Exploração em Atenção e Recorrência Linear

    3.3 Extrapolação Eficiente de Comprimento

    3.4 Compreensão de Contexto Longo

  3. Análise

  4. Conclusão, Agradecimentos e Referências

A. Detalhes de Implementação

B. Resultados Adicionais de Experiências

C. Detalhes da Medição de Entropia

D. Limitações

\

A Detalhes de Implementação

\ Para a camada GLA na arquitetura Sliding GLA, utilizamos o número de cabeças dm/384, uma proporção de expansão de chave de 0,5 e uma proporção de expansão de valor de 1. Para a camada RetNet, utilizamos um número de cabeças que é metade do número de cabeças de consulta de atenção, proporção de expansão de chave de 1 e proporção de expansão de valor de 2. As implementações de GLA e RetNet são do repositório Flash Linear Attention[3] [YZ24]. Utilizamos a implementação baseada em FlashAttention para extrapolação Self-Extend[4]. O modelo Mamba 432M tem uma largura de modelo de 1024 e o modelo Mamba 1.3B tem uma largura de modelo de 2048. Todos os modelos treinados no SlimPajama têm as mesmas configurações de treino e o tamanho intermediário MLP como o Samba, a menos que especificado de outra forma. A infraestrutura de treino no SlimPajama é baseada numa versão modificada do código base TinyLlama[5].

\ Tabela 10: Hiperparâmetros detalhados dos modelos SAMBA treinados em diferentes escalas. Mostramos apenas as configurações de otimização para a primeira fase de treino do modelo 3.8B.

\ Nas configurações de geração para as tarefas downstream, utilizamos decodificação greedy para GSM8K e Nucleus Sampling [HBD+19] com uma temperatura de τ = 0,2 e top-p = 0,95 para HumanEval. Para MBPP e SQuAD, definimos τ = 0,01 e top-p = 0,95.

B Resultados Adicionais de Experiências

\ Figura 6: Curvas de perda de treino dos modelos Samba 1.7B e Mistral 1.6B durante 500 etapas de ajuste de instrução em Recuperação de Chave de Acesso com comprimento de sequência de 4K. Plotamos as curvas de perda para ambos os modelos usando a média móvel simples de tamanho de janela 10.

\

\ Figura 7: Precisão geral de recuperação de chave de acesso no comprimento de documento de 256K dos modelos Samba 1.7B e Mistral 1.6B durante 500 etapas de ajuste de instrução.

\

C Detalhes da Medição de Entropia

\

\

D Limitações

Embora o Samba demonstre um desempenho promissor de recuperação de memória através do ajuste de instrução, o seu modelo base pré-treinado tem um desempenho de recuperação semelhante ao do modelo baseado em SWA, como mostrado na Figura 7. Isto abre uma direção futura para melhorar ainda mais a capacidade de recuperação do Samba sem comprometer a sua eficiência e capacidade de extrapolação. Além disso, a estratégia de hibridização do Samba não é consistentemente melhor do que outras alternativas em todas as tarefas. Como mostrado na Tabela 2, MambaSWA-MLP mostra desempenho melhorado em tarefas como WinoGrande, SIQA e GSM8K. Isto dá-nos o potencial para investir numa abordagem mais sofisticada para realizar combinações dinâmicas dependentes de entrada de modelos baseados em SWA e baseados em SSM.

\

:::info Autores:

(1) Liliang Ren, Microsoft e University of Illinois at Urbana-Champaign (liliangren@microsoft.com);

(2) Yang Liu†, Microsoft (yaliu10@microsoft.com);

(3) Yadong Lu†, Microsoft (yadonglu@microsoft.com);

(4) Yelong Shen, Microsoft (yelong.shen@microsoft.com);

(5) Chen Liang, Microsoft (chenliang1@microsoft.com);

(6) Weizhu Chen, Microsoft (wzchen@microsoft.com).

:::


:::info Este artigo está disponível no arxiv sob licença CC BY 4.0.

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail service@support.mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.