Rongchai Wang
19 ago 2025 02:26
NVIDIA presenta Streaming Sortformer, un modelo de diarización de hablantes en tiempo real, mejorando el seguimiento de múltiples hablantes en reuniones, llamadas y aplicaciones de voz. Conozca sus capacidades y posibles aplicaciones.
NVIDIA ha anunciado el lanzamiento de su última innovación, el Streaming Sortformer, un modelo de diarización de hablantes en tiempo real diseñado para revolucionar la forma en que se identifican los hablantes en reuniones, llamadas y aplicaciones de voz. Según NVIDIA, este modelo está diseñado para manejar escenarios de múltiples hablantes con baja latencia, ofreciendo una integración perfecta con las herramientas NVIDIA NeMo y NVIDIA Riva.
Características y capacidades clave
El Streaming Sortformer ofrece características avanzadas que mejoran su usabilidad en varias aplicaciones en tiempo real. Proporciona diarización a nivel de fotograma con marcas de tiempo precisas para cada enunciado, asegurando un seguimiento preciso del hablante. El modelo admite el seguimiento de dos a cuatro hablantes con latencia mínima y está optimizado para una inferencia eficiente en GPU, preparándolo para flujos de trabajo de NeMo y Riva. Aunque está principalmente optimizado para inglés, también ha demostrado un rendimiento sólido en conjuntos de datos en mandarín y otros idiomas.
Rendimiento comparativo
La evaluación de rendimiento del Streaming Sortformer muestra resultados impresionantes en la Tasa de Error de Diarización (DER), una métrica crítica para la precisión de identificación del hablante, donde tasas más bajas indican un mejor rendimiento. El modelo compite favorablemente contra sistemas existentes como EEND-GLA y LS-EEND, mostrando su potencial en contextos de seguimiento de hablantes en vivo.
Aplicaciones y casos de uso
La versatilidad del modelo es evidente en su amplia gama de aplicaciones. Desde generar transcripciones en vivo etiquetadas por hablante durante reuniones hasta facilitar el cumplimiento y la garantía de calidad en centros de contacto, el Streaming Sortformer está preparado para mejorar la productividad en todos los sectores. Además, admite voicebots y asistentes de IA mejorando la naturalidad del diálogo y la toma de turnos, y ayuda a las industrias de medios y radiodifusión con etiquetado automático para fines de edición.
Arquitectura técnica
Bajo el capó, el Streaming Sortformer emplea una arquitectura sofisticada que incluye un módulo de pre-codificación convolucional y una serie de bloques conformer y transformer. Estos componentes trabajan en conjunto para procesar y analizar audio, clasificando a los hablantes según su aparición en la grabación. El modelo procesa audio en pequeños fragmentos superpuestos utilizando un Caché de Hablantes por Orden de Llegada (AOSC), asegurando una identificación consistente del hablante a lo largo de la transmisión.
Perspectivas futuras y limitaciones
A pesar de sus sólidas capacidades, el Streaming Sortformer está actualmente diseñado para escenarios que involucran hasta cuatro hablantes. NVIDIA reconoce la necesidad de un mayor desarrollo para ampliar su capacidad para manejar más hablantes y mejorar el rendimiento en varios idiomas y entornos acústicos desafiantes. También hay planes para mejorar su integración con los pipelines de Riva y NeMo.
Para aquellos interesados en explorar las complejidades técnicas del Streaming Sortformer, la investigación de NVIDIA sobre el Offline Sortformer está disponible en arXiv.
Fuente de la imagen: Shutterstock
Fuente: https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification

