O PANews reportou em 21 de março que a Tether anunciou o lançamento de uma framework de fine-tuning BitNet LoRA multiplataforma no QVAC Fabric, permitindo otimizações para treino e inferência do Microsoft BitNet (1-bit LLM). Esta framework reduz significativamente os requisitos de poder de computação e memória, permitindo que modelos de milhares de milhões de parâmetros sejam treinados e ajustados em portáteis, GPUs de consumo e smartphones.
Esta solução é a primeira a permitir o fine-tuning do modelo BitNet em GPUs móveis (incluindo Adreno, Mali e Apple Bionic). Os testes mostram que um modelo de 125M parâmetros pode ser ajustado em cerca de 10 minutos, um modelo de 1B em cerca de 1 hora, e pode até ser estendido a um modelo de 13B parâmetros em dispositivos móveis.

Além disso, a framework suporta hardware heterogéneo como Intel, AMD e Apple Silicon, e pela primeira vez alcança fine-tuning LoRA de LLM de 1-bit em dispositivos não-NVIDIA. Em termos de desempenho, o modelo BitNet alcança velocidades de inferência de 2 a 11 vezes mais rápidas em GPUs móveis do que em CPUs, ao mesmo tempo que reduz o uso de memória em até aproximadamente 77,8% em comparação com os modelos tradicionais de 16-bit.
A Tether declarou que esta tecnologia tem o potencial de quebrar a dependência de poder de computação de alto nível e infraestrutura em nuvem, promover o desenvolvimento do treino de IA para descentralização e localização, e fornecer uma base para novos cenários de aplicação como aprendizagem federada.


