Comprar cripto Mercados Spot FuturosGOLD Ganhe Centro de eventos

Mais

O Treinamento Espectral Esparso (SST) introduz uma estrutura matematicamente fundamentada para otimizar redes neurais usando decomposições espectrais de baixa classificação. Ao focar na direção do gradiente em vez da escala, o SST reduz a sobrecarga computacional enquanto mantém a estabilidade de aprendizagem. O artigo comprova distorção zero com inicialização SVD e desempenho aprimorado de gradiente em comparação com métodos padrão como LoRA e HyboNet. Experiências extensivas em tradução, geração de linguagem e redes neurais de grafos demonstram a eficiência e precisão do SST, mostrando seu potencial como uma alternativa escalável ao treinamento de classificação completa.O Treinamento Espectral Esparso (SST) introduz uma estrutura matematicamente fundamentada para otimizar redes neurais usando decomposições espectrais de baixa classificação. Ao focar na direção do gradiente em vez da escala, o SST reduz a sobrecarga computacional enquanto mantém a estabilidade de aprendizagem. O artigo comprova distorção zero com inicialização SVD e desempenho aprimorado de gradiente em comparação com métodos padrão como LoRA e HyboNet. Experiências extensivas em tradução, geração de linguagem e redes neurais de grafos demonstram a eficiência e precisão do SST, mostrando seu potencial como uma alternativa escalável ao treinamento de classificação completa.

Eis o Motivo Pelo Qual os Investigadores de IA Estão a Falar Sobre o Treino Espectral Esparso

Fonte: Hackernoon

2025/10/30 18:12

Leu 5 min

SLEEPLESSAI$0.01987+1.74%

LIKE$0.00115+3.60%

Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Tabela de Links

Abstrato e 1. Introdução

Trabalhos Relacionados
Adaptação de Baixo Rank

3.1 LoRA e 3.2 Limitação do LoRA

3.3 ReLoRA*
Treino Espectral Esparso

4.1 Preliminares e 4.2 Atualização de Gradiente de U, VT com Σ

4.3 Por que a Inicialização SVD é Importante

4.4 SST Equilibra Exploração e Exploração

4.5 Implementação Eficiente em Memória para SST e 4.6 Esparsidade do SST
Experiências

5.1 Tradução Automática

5.2 Geração de Linguagem Natural

5.3 Redes Neurais Hiperbólicas de Grafos
Conclusão e Discussão
Impactos Mais Amplos e Referências

Informação Suplementar

A. Algoritmo de Treino Espectral Esparso

B. Prova do Gradiente da Camada Espectral Esparsa

C. Prova da Decomposição do Gradiente do Peso

D. Prova da Vantagem do Gradiente Melhorado sobre o Gradiente Padrão

E. Prova de Distorção Zero com Inicialização SVD

F. Detalhes da Experiência

G. Poda de Valor Singular

H. Avaliando SST e GaLore: Abordagens Complementares para Eficiência de Memória

I. Estudo de Ablação

A Algoritmo de Treino Espectral Esparso

B Prova do Gradiente da Camada Espectral Esparsa

Podemos expressar o diferencial de W como a soma de diferenciais:

\ \

\ \ Temos a regra da cadeia para o gradiente de W:

\ \

\ \ \

C Prova da Decomposição do Gradiente do Peso

D Prova da Vantagem do Gradiente Melhorado sobre o Gradiente Padrão

\ \ \

\ \ Como apenas a direção da atualização importa, a escala da atualização pode ser ajustada alterando a taxa de aprendizagem. Medimos a similaridade usando a norma de Frobenius das diferenças entre as atualizações SST e 3 vezes a atualização de rank completo.

\ \

E Prova de Distorção Zero com Inicialização SVD

F Detalhes da Experiência

F.1 Detalhes de Implementação para SST

\ \ \

F.2 Hiperparâmetros da Tradução Automática

IWSLT'14. Os hiperparâmetros podem ser encontrados na Tabela 6. Empregamos a mesma base de código e hiperparâmetros utilizados no HyboNet [12], derivado do OpenNMT-py [54]. O checkpoint final do modelo é utilizado para avaliação. A pesquisa em feixe, com um tamanho de feixe de 2, é empregada para otimizar o processo de avaliação. As experiências foram realizadas numa GPU A100.

\ Para SST, o número de passos por iteração (T3) é definido como 200. Cada iteração começa com uma fase de aquecimento que dura 20 passos. O número de iterações por ronda (T2) é determinado pela fórmula T2 = d/r, onde d representa a dimensão de incorporação e r denota o rank usado no SST.

\ \ Tabela 6: Hiperparâmetros no IWSLT'14 para Transformer Euclidiano e hiperbólico.

\ \ \

\ \ Para SST, o número de passos por iteração (T3) é definido como 200 para Multi30K e 400 para IWSLT'17. Cada iteração começa com uma fase de aquecimento que dura 20 passos. O número de iterações por ronda (T2) é determinado pela fórmula T2 = d/r, onde d representa a dimensão de incorporação e r denota o rank usado no SST

F.3 Hiperparâmetros da Geração de Linguagem Natural

Os hiperparâmetros para as nossas experiências estão detalhados na Tabela 8. Empregamos um aquecimento linear de 2000 passos seguido por uma taxa de aprendizagem estável, sem decaimento. Uma taxa de aprendizagem maior (0,001) é usada apenas para parâmetros de baixo rank (U, VT e Σ para SST, B e A para LoRA e ReLoRA*. O total de tokens de treino para cada experiência é 19,7B, aproximadamente 2 épocas de OpenWebText. O treino distribuído é facilitado usando a biblioteca Accelerate [55] em quatro GPUs A100 num servidor Linux.

\ \ Tabela 7: Hiperparâmetros no Multi30K e IWSLT'17 para Transformer vanilla.

\ \ \ Tabela 8: Hiperparâmetros para Modelos OPT

F.4 Hiperparâmetros das Redes Neurais Hiperbólicas de Grafos

Usamos o HyboNet [12] como modelo de rank completo, com os mesmos hiperparâmetros utilizados no HyboNet. As experiências foram realizadas numa GPU A100.

\ Para SST, o número de passos por iteração (T3) é definido como 100. Cada iteração começa com uma fase de aquecimento que dura 100 passos. O número de iterações por ronda (T2) é determinado pela fórmula T2 = d/r, onde d representa a dimensão de incorporação e r denota o rank usado no SST.

\ Definimos a taxa de dropout para 0,5 para os métodos LoRA e SST durante a tarefa de classificação de nós no conjunto de dados Cora. Este é o único desvio da configuração do HyboNet.

\ \ \

:::info Autores:

(1) Jialin Zhao, Centro de Inteligência de Redes Complexas (CCNI), Laboratório de Cérebro e Inteligência de Tsinghua (THBI) e Departamento de Ciência da Computação;

(2) Yingtao Zhang, Centro de Inteligência de Redes Complexas (CCNI), Laboratório de Cérebro e Inteligência de Tsinghua (THBI) e Departamento de Ciência da Computação;

(3) Xinghang Li, Departamento de Ciência da Computação;

(4) Huaping Liu, Departamento de Ciência da Computação;

(5) Carlo Vittorio Cannistraci, Centro de Inteligência de Redes Complexas (CCNI), Laboratório de Cérebro e Inteligência de Tsinghua (THBI), Departamento de Ciência da Computação e Departamento de Engenharia Biomédica da Universidade de Tsinghua, Pequim, China.

:::

:::info Este artigo está disponível no arxiv sob a licença CC by 4.0 Deed (Atribuição 4.0 Internacional).

:::

Oportunidade de mercado

Cotação Sleepless AI (SLEEPLESSAI)

$0.01987

$0.01987$0.01987

+2.10%

USD

Gráfico de preço em tempo real de Sleepless AI (SLEEPLESSAI)

Ganhe 20 USDT em apenas 1 minuto

Deposite $100 para desbloquear $300 em posições GOLD

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

Notícias em alta

Mais

Memes de Lego, 'slopaganda' de IA: a máquina de desinformação do Irão

Cộng đồng dYdX dùng 10 triệu USDC từ quỹ bảo hiểm cấp vốn DAO

ETF spot XRP tại Mỹ ghi nhận dòng tiền ròng vào 9,0939 triệu USD/ngày

Trump e Wall Street atacam Mike Burry pela última previsão baixista sobre a Palantir

VVV tăng 17%, tiến sát ATH: Điều gì thúc đẩy đợt tăng này?

Notícias ao vivo 24/7

Mais

O Irão aceita Bitcoin para a passagem pelo Estreito de Ormuz, criando uma procura diária de cerca de 3.600 BTC por aproximadamente 130 navios.

Autor: Charles 👑10:35

Solana destacada como um dos principais intervenientes para o ciclo de 2023-2024, com potencial atenção do mercado assinalada.

Autor: borovik10:26

Sistema de condução autónoma da TESLA aprovado pelo regulador holandês, podendo influenciar o sentimento do mercado cripto relacionado.

Autor: Charles 👑10:24

Segundo relatos, os bancos mostram uma dependência crescente do XRP, destacando o seu papel em evolução nos sistemas financeiros.

Autor: Ripple Bull Winkle | Crypto Researcher 🚀🚨10:01

A aprovação regulatória destaca a necessidade da tecnologia da Ripple, sinalizando potenciais mudanças na relevância de mercado do XRP e na dependência institucional.

Autor: Ripple Bull Winkle | Crypto Researcher 🚀🚨09:01