O Treinamento Espectral Esparso (SST) introduz uma estrutura matematicamente fundamentada para otimizar redes neurais usando decomposições espectrais de baixa classificação. Ao focar na direção do gradiente em vez da escala, o SST reduz a sobrecarga computacional enquanto mantém a estabilidade de aprendizagem. O artigo comprova distorção zero com inicialização SVD e desempenho aprimorado de gradiente em comparação com métodos padrão como LoRA e HyboNet. Experiências extensivas em tradução, geração de linguagem e redes neurais de grafos demonstram a eficiência e precisão do SST, mostrando seu potencial como uma alternativa escalável ao treinamento de classificação completa.O Treinamento Espectral Esparso (SST) introduz uma estrutura matematicamente fundamentada para otimizar redes neurais usando decomposições espectrais de baixa classificação. Ao focar na direção do gradiente em vez da escala, o SST reduz a sobrecarga computacional enquanto mantém a estabilidade de aprendizagem. O artigo comprova distorção zero com inicialização SVD e desempenho aprimorado de gradiente em comparação com métodos padrão como LoRA e HyboNet. Experiências extensivas em tradução, geração de linguagem e redes neurais de grafos demonstram a eficiência e precisão do SST, mostrando seu potencial como uma alternativa escalável ao treinamento de classificação completa.

Eis o Motivo Pelo Qual os Investigadores de IA Estão a Falar Sobre o Treino Espectral Esparso

2025/10/30 18:12
Leu 5 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Abstrato e 1. Introdução

  1. Trabalhos Relacionados

  2. Adaptação de Baixo Rank

    3.1 LoRA e 3.2 Limitação do LoRA

    3.3 ReLoRA*

  3. Treino Espectral Esparso

    4.1 Preliminares e 4.2 Atualização de Gradiente de U, VT com Σ

    4.3 Por que a Inicialização SVD é Importante

    4.4 SST Equilibra Exploração e Exploração

    4.5 Implementação Eficiente em Memória para SST e 4.6 Esparsidade do SST

  4. Experiências

    5.1 Tradução Automática

    5.2 Geração de Linguagem Natural

    5.3 Redes Neurais Hiperbólicas de Grafos

  5. Conclusão e Discussão

  6. Impactos Mais Amplos e Referências

Informação Suplementar

A. Algoritmo de Treino Espectral Esparso

B. Prova do Gradiente da Camada Espectral Esparsa

C. Prova da Decomposição do Gradiente do Peso

D. Prova da Vantagem do Gradiente Melhorado sobre o Gradiente Padrão

E. Prova de Distorção Zero com Inicialização SVD

F. Detalhes da Experiência

G. Poda de Valor Singular

H. Avaliando SST e GaLore: Abordagens Complementares para Eficiência de Memória

I. Estudo de Ablação

A Algoritmo de Treino Espectral Esparso

B Prova do Gradiente da Camada Espectral Esparsa

Podemos expressar o diferencial de W como a soma de diferenciais:

\ \

\ \ Temos a regra da cadeia para o gradiente de W:

\ \

\ \ \

\

C Prova da Decomposição do Gradiente do Peso

\

\

D Prova da Vantagem do Gradiente Melhorado sobre o Gradiente Padrão

\

\ \ \

\ \ \

\ \ Como apenas a direção da atualização importa, a escala da atualização pode ser ajustada alterando a taxa de aprendizagem. Medimos a similaridade usando a norma de Frobenius das diferenças entre as atualizações SST e 3 vezes a atualização de rank completo.

\ \

\

E Prova de Distorção Zero com Inicialização SVD

\

F Detalhes da Experiência

F.1 Detalhes de Implementação para SST

\

\ \ \

\

F.2 Hiperparâmetros da Tradução Automática

IWSLT'14. Os hiperparâmetros podem ser encontrados na Tabela 6. Empregamos a mesma base de código e hiperparâmetros utilizados no HyboNet [12], derivado do OpenNMT-py [54]. O checkpoint final do modelo é utilizado para avaliação. A pesquisa em feixe, com um tamanho de feixe de 2, é empregada para otimizar o processo de avaliação. As experiências foram realizadas numa GPU A100.

\ Para SST, o número de passos por iteração (T3) é definido como 200. Cada iteração começa com uma fase de aquecimento que dura 20 passos. O número de iterações por ronda (T2) é determinado pela fórmula T2 = d/r, onde d representa a dimensão de incorporação e r denota o rank usado no SST.

\ \ Tabela 6: Hiperparâmetros no IWSLT'14 para Transformer Euclidiano e hiperbólico.

\ \ \

\ \ Para SST, o número de passos por iteração (T3) é definido como 200 para Multi30K e 400 para IWSLT'17. Cada iteração começa com uma fase de aquecimento que dura 20 passos. O número de iterações por ronda (T2) é determinado pela fórmula T2 = d/r, onde d representa a dimensão de incorporação e r denota o rank usado no SST

F.3 Hiperparâmetros da Geração de Linguagem Natural

Os hiperparâmetros para as nossas experiências estão detalhados na Tabela 8. Empregamos um aquecimento linear de 2000 passos seguido por uma taxa de aprendizagem estável, sem decaimento. Uma taxa de aprendizagem maior (0,001) é usada apenas para parâmetros de baixo rank (U, VT e Σ para SST, B e A para LoRA e ReLoRA*. O total de tokens de treino para cada experiência é 19,7B, aproximadamente 2 épocas de OpenWebText. O treino distribuído é facilitado usando a biblioteca Accelerate [55] em quatro GPUs A100 num servidor Linux.

\ Para SST, o número de passos por iteração (T3) é definido como 200. Cada iteração começa com uma fase de aquecimento que dura 20 passos. O número de iterações por ronda (T2) é determinado pela fórmula T2 = d/r, onde d representa a dimensão de incorporação e r denota o rank usado no SST.

\ \ Tabela 7: Hiperparâmetros no Multi30K e IWSLT'17 para Transformer vanilla.

\ \ \ Tabela 8: Hiperparâmetros para Modelos OPT

\

F.4 Hiperparâmetros das Redes Neurais Hiperbólicas de Grafos

Usamos o HyboNet [12] como modelo de rank completo, com os mesmos hiperparâmetros utilizados no HyboNet. As experiências foram realizadas numa GPU A100.

\ Para SST, o número de passos por iteração (T3) é definido como 100. Cada iteração começa com uma fase de aquecimento que dura 100 passos. O número de iterações por ronda (T2) é determinado pela fórmula T2 = d/r, onde d representa a dimensão de incorporação e r denota o rank usado no SST.

\ Definimos a taxa de dropout para 0,5 para os métodos LoRA e SST durante a tarefa de classificação de nós no conjunto de dados Cora. Este é o único desvio da configuração do HyboNet.

\ \ \

:::info Autores:

(1) Jialin Zhao, Centro de Inteligência de Redes Complexas (CCNI), Laboratório de Cérebro e Inteligência de Tsinghua (THBI) e Departamento de Ciência da Computação;

(2) Yingtao Zhang, Centro de Inteligência de Redes Complexas (CCNI), Laboratório de Cérebro e Inteligência de Tsinghua (THBI) e Departamento de Ciência da Computação;

(3) Xinghang Li, Departamento de Ciência da Computação;

(4) Huaping Liu, Departamento de Ciência da Computação;

(5) Carlo Vittorio Cannistraci, Centro de Inteligência de Redes Complexas (CCNI), Laboratório de Cérebro e Inteligência de Tsinghua (THBI), Departamento de Ciência da Computação e Departamento de Engenharia Biomédica da Universidade de Tsinghua, Pequim, China.

:::


:::info Este artigo está disponível no arxiv sob a licença CC by 4.0 Deed (Atribuição 4.0 Internacional).

:::

\

Oportunidade de mercado
Logo de Sleepless AI
Cotação Sleepless AI (SLEEPLESSAI)
$0.01987
$0.01987$0.01987
+2.10%
USD
Gráfico de preço em tempo real de Sleepless AI (SLEEPLESSAI)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!