Rongchai Wang
19 de Ago de 2025 02:26
A NVIDIA apresenta o Streaming Sortformer, um modelo de diarização de falantes em tempo real, melhorando o rastreamento de múltiplos falantes em reuniões, chamadas e aplicações de voz. Conheça as suas capacidades e potenciais aplicações.
A NVIDIA anunciou o lançamento da sua mais recente inovação, o Streaming Sortformer, um modelo de diarização de falantes em tempo real projetado para revolucionar a forma como os falantes são identificados em reuniões, chamadas e aplicações de voz. De acordo com a NVIDIA, este modelo foi desenvolvido para lidar com cenários de múltiplos falantes com baixa latência, oferecendo integração perfeita com as ferramentas NVIDIA NeMo e NVIDIA Riva.
Principais Características e Capacidades
O Streaming Sortformer oferece recursos avançados que melhoram a sua usabilidade em várias aplicações em tempo real. Fornece diarização ao nível de quadros com marcações temporais precisas para cada enunciado, garantindo um rastreamento preciso do falante. O modelo suporta o rastreamento de dois a quatro falantes com latência mínima e é otimizado para inferência eficiente em GPU, tornando-o pronto para fluxos de trabalho NeMo e Riva. Embora seja principalmente otimizado para inglês, também demonstrou forte desempenho em conjuntos de dados em mandarim e outros idiomas.
Desempenho de Referência
A avaliação de desempenho do Streaming Sortformer mostra resultados impressionantes na Taxa de Erro de Diarização (DER), uma métrica crítica para a precisão da identificação do falante, com taxas mais baixas indicando melhor desempenho. O modelo compete favoravelmente contra sistemas existentes como EEND-GLA e LS-EEND, mostrando o seu potencial em contextos de rastreamento de falantes ao vivo.
Aplicações e Casos de Uso
A versatilidade do modelo é evidente na sua ampla gama de aplicações. Desde a geração de transcrições ao vivo com identificação de falantes durante reuniões até a facilitação de conformidade e garantia de qualidade em centros de contacto, o Streaming Sortformer está preparado para aumentar a produtividade em vários setores. Além disso, suporta voicebots e assistentes de IA melhorando a naturalidade do diálogo e a alternância de turnos, e auxilia as indústrias de mídia e transmissão com rotulagem automática para fins de edição.
Arquitetura Técnica
Por baixo do capô, o Streaming Sortformer emprega uma arquitetura sofisticada que inclui um módulo de pré-codificação convolucional e uma série de blocos conformer e transformer. Estes componentes trabalham em conjunto para processar e analisar áudio, classificando os falantes com base na sua aparição na gravação. O modelo processa áudio em pequenos fragmentos sobrepostos usando um Cache de Falantes por Ordem de Chegada (AOSC), garantindo identificação consistente do falante ao longo do fluxo.
Perspetivas Futuras e Limitações
Apesar das suas capacidades robustas, o Streaming Sortformer está atualmente projetado para cenários envolvendo até quatro falantes. A NVIDIA reconhece a necessidade de desenvolvimento adicional para estender sua capacidade de lidar com mais falantes e melhorar o desempenho em vários idiomas e ambientes acústicos desafiadores. Também existem planos para melhorar sua integração com os pipelines Riva e NeMo.
Para aqueles interessados em explorar as complexidades técnicas do Streaming Sortformer, a pesquisa da NVIDIA sobre o Offline Sortformer está disponível no arXiv.
Fonte da imagem: Shutterstock
Fonte: https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification



