Al combinar las ventajas de los modelos de espacio de estados (SSMs) con mecanismos de atención, SAMBA presenta una arquitectura neuronal híbrida que permite un modelado de lenguaje efectivo y escalable con una longitud de contexto casi infinita. SAMBA supera tanto a los modelos basados en atención pura como a los basados en SSM en una variedad de métricas de razonamiento, comprensión y codificación cuando se entrena en SlimPajama con configuraciones consistentes. El modelo procesa secuencias de hasta 256K tokens con poco ajuste fino, logrando una velocidad y capacidad de extrapolación excepcionales.Al combinar las ventajas de los modelos de espacio de estados (SSMs) con mecanismos de atención, SAMBA presenta una arquitectura neuronal híbrida que permite un modelado de lenguaje efectivo y escalable con una longitud de contexto casi infinita. SAMBA supera tanto a los modelos basados en atención pura como a los basados en SSM en una variedad de métricas de razonamiento, comprensión y codificación cuando se entrena en SlimPajama con configuraciones consistentes. El modelo procesa secuencias de hasta 256K tokens con poco ajuste fino, logrando una velocidad y capacidad de extrapolación excepcionales.

Cómo los modelos híbridos de IA equilibran la memoria y la eficiencia

2025/10/28 17:13

Resumen y 1. Introducción

  1. Metodología

  2. Experimentos y Resultados

    3.1 Modelado de Lenguaje en Datos vQuality

    3.2 Exploración sobre Atención y Recurrencia Lineal

    3.3 Extrapolación Eficiente de Longitud

    3.4 Comprensión de Contexto Largo

  3. Análisis

  4. Conclusión, Agradecimientos y Referencias

A. Detalles de Implementación

B. Resultados Adicionales de Experimentos

C. Detalles de Medición de Entropía

D. Limitaciones

\

A Detalles de Implementación

\ Para la capa GLA en la arquitectura Sliding GLA, utilizamos el número de cabezas dm/384, una proporción de expansión de clave de 0.5 y una proporción de expansión de valor de 1. Para la capa RetNet utilizamos un número de cabezas que es la mitad del número de cabezas de consulta de atención, proporción de expansión de clave de 1 y proporción de expansión de valor de 2. Las implementaciones de GLA y RetNet son del repositorio Flash Linear Attention[3] [YZ24]. Utilizamos la implementación basada en FlashAttention para la extrapolación Self-Extend[4]. El modelo Mamba 432M tiene un ancho de modelo de 1024 y el modelo Mamba 1.3B tiene un ancho de modelo de 2048. Todos los modelos entrenados en SlimPajama tienen las mismas configuraciones de entrenamiento y el tamaño intermedio MLP que Samba, a menos que se especifique lo contrario. La infraestructura de entrenamiento en SlimPajama se basa en una versión modificada del código base TinyLlama[5].

\ Tabla 10: Hiperparámetros detallados de los modelos SAMBA entrenados a diferentes escalas. Solo mostramos la configuración de optimización para la primera fase de entrenamiento del modelo de 3.8B.

\ En las configuraciones de generación para las tareas posteriores, utilizamos decodificación voraz para GSM8K y Nucleus Sampling [HBD+19] con una temperatura de τ = 0.2 y top-p = 0.95 para HumanEval. Para MBPP y SQuAD, establecemos τ = 0.01 y top-p = 0.95.

B Resultados Adicionales de Experimentos

\ Figura 6: Curvas de pérdida de entrenamiento de los modelos Samba 1.7B y Mistral 1.6B durante 500 pasos de ajuste de instrucciones en Recuperación de Claves de Acceso con longitud de secuencia de 4K. Trazamos las curvas de pérdida para ambos modelos utilizando el promedio móvil simple con ventana de tamaño 10.

\

\ Figura 7: Precisión general de recuperación de claves de acceso en la longitud de documento de 256K de los modelos Samba 1.7B y Mistral 1.6B durante 500 pasos de ajuste de instrucciones.

\

C Detalles de Medición de Entropía

\

\

D Limitaciones

Aunque Samba demuestra un rendimiento prometedor de recuperación de memoria a través del ajuste de instrucciones, su modelo base pre-entrenado tiene un rendimiento de recuperación similar al del modelo basado en SWA, como se muestra en la Figura 7. Esto abre una dirección futura para mejorar aún más la capacidad de recuperación de Samba sin comprometer su eficiencia y capacidad de extrapolación. Además, la estrategia de hibridación de Samba no es consistentemente mejor que otras alternativas en todas las tareas. Como se muestra en la Tabla 2, MambaSWA-MLP muestra un rendimiento mejorado en tareas como WinoGrande, SIQA y GSM8K. Esto nos da el potencial para invertir en un enfoque más sofisticado para realizar combinaciones dinámicas dependientes de la entrada de modelos basados en SWA y modelos basados en SSM.

\

:::info Autores:

(1) Liliang Ren, Microsoft y University of Illinois at Urbana-Champaign (liliangren@microsoft.com);

(2) Yang Liu†, Microsoft (yaliu10@microsoft.com);

(3) Yadong Lu†, Microsoft (yadonglu@microsoft.com);

(4) Yelong Shen, Microsoft (yelong.shen@microsoft.com);

(5) Chen Liang, Microsoft (chenliang1@microsoft.com);

(6) Weizhu Chen, Microsoft (wzchen@microsoft.com).

:::


:::info Este artículo está disponible en arxiv bajo licencia CC BY 4.0.

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.