Пост NVIDIA представляет Streaming Sortformer для Идентификации по видео говорящего в реальном времени появился на BitcoinEthereumNews.com. Rongchai Wang 02:26, 19 августа 2025 NVIDIA представляет Streaming Sortformer, модель диаризации говорящего в реальном времени, улучшающую отслеживание нескольких говорящих на совещаниях, звонках и в голосовых приложениях. Узнайте о её возможностях и потенциальных применениях. NVIDIA объявила о запуске своей последней инновации, Streaming Sortformer, модели диаризации говорящего в реальном времени, разработанной для революционного изменения способа идентификации говорящих на совещаниях, звонках и в голосовых приложениях. По данным NVIDIA, эта модель разработана для обработки сценариев с низкой задержкой и несколькими говорящими, предлагая беспрепятственную интеграцию с инструментами NVIDIA NeMo и NVIDIA Riva. Ключевые особенности и возможности Streaming Sortformer предлагает расширенные функции, которые повышают его удобство использования в различных приложениях реального времени. Он обеспечивает диаризацию на уровне кадров с точными временными метками для каждого высказывания, обеспечивая точное отслеживание говорящего. Модель поддерживает отслеживание от двух до четырех говорящих с минимальной задержкой и оптимизирована для эффективного вывода на GPU, что делает её готовой для рабочих процессов NeMo и Riva. Хотя она в первую очередь оптимизирована для английского языка, она также продемонстрировала высокую производительность на наборах данных на мандаринском диалекте и других языках. Эталонная производительность Оценка производительности Streaming Sortformer показывает впечатляющие результаты в показателе ошибки диаризации (DER), критическом показателе точности идентификации говорящего, где более низкие показатели указывают на лучшую производительность. Модель успешно конкурирует с существующими системами, такими как EEND-GLA и LS-EEND, демонстрируя свой потенциал в контекстах отслеживания говорящего в реальном времени. Применения и варианты использования Универсальность модели очевидна в широком спектре её применений. От создания живых транскриптов с отметками говорящих во время совещаний до обеспечения соответствия требованиям и контроля качества в контактных центрах, Streaming Sortformer готов повысить производительность во всех секторах. Кроме того, он поддерживает голосовых ботов и ИИ-агентов, улучшая естественность диалога и очередность высказываний, а также помогает медиа и вещательным индустриям с автоматической маркировкой для целей редактирования. Техническая архитектура Под капотом Streaming Sortformer использует сложную архитектуру, которая включает сверточное предварительное кодирование...Пост NVIDIA представляет Streaming Sortformer для Идентификации по видео говорящего в реальном времени появился на BitcoinEthereumNews.com. Rongchai Wang 02:26, 19 августа 2025 NVIDIA представляет Streaming Sortformer, модель диаризации говорящего в реальном времени, улучшающую отслеживание нескольких говорящих на совещаниях, звонках и в голосовых приложениях. Узнайте о её возможностях и потенциальных применениях. NVIDIA объявила о запуске своей последней инновации, Streaming Sortformer, модели диаризации говорящего в реальном времени, разработанной для революционного изменения способа идентификации говорящих на совещаниях, звонках и в голосовых приложениях. По данным NVIDIA, эта модель разработана для обработки сценариев с низкой задержкой и несколькими говорящими, предлагая беспрепятственную интеграцию с инструментами NVIDIA NeMo и NVIDIA Riva. Ключевые особенности и возможности Streaming Sortformer предлагает расширенные функции, которые повышают его удобство использования в различных приложениях реального времени. Он обеспечивает диаризацию на уровне кадров с точными временными метками для каждого высказывания, обеспечивая точное отслеживание говорящего. Модель поддерживает отслеживание от двух до четырех говорящих с минимальной задержкой и оптимизирована для эффективного вывода на GPU, что делает её готовой для рабочих процессов NeMo и Riva. Хотя она в первую очередь оптимизирована для английского языка, она также продемонстрировала высокую производительность на наборах данных на мандаринском диалекте и других языках. Эталонная производительность Оценка производительности Streaming Sortformer показывает впечатляющие результаты в показателе ошибки диаризации (DER), критическом показателе точности идентификации говорящего, где более низкие показатели указывают на лучшую производительность. Модель успешно конкурирует с существующими системами, такими как EEND-GLA и LS-EEND, демонстрируя свой потенциал в контекстах отслеживания говорящего в реальном времени. Применения и варианты использования Универсальность модели очевидна в широком спектре её применений. От создания живых транскриптов с отметками говорящих во время совещаний до обеспечения соответствия требованиям и контроля качества в контактных центрах, Streaming Sortformer готов повысить производительность во всех секторах. Кроме того, он поддерживает голосовых ботов и ИИ-агентов, улучшая естественность диалога и очередность высказываний, а также помогает медиа и вещательным индустриям с автоматической маркировкой для целей редактирования. Техническая архитектура Под капотом Streaming Sortformer использует сложную архитектуру, которая включает сверточное предварительное кодирование...

NVIDIA представляет Streaming Sortformer для идентификации говорящего в реальном времени



Rongchai Wang
19 авг. 2025 02:26

NVIDIA представляет Streaming Sortformer, модель диаризации говорящих в реальном времени, улучшающую отслеживание нескольких говорящих на совещаниях, звонках и в голосовых приложениях. Узнайте о её возможностях и потенциальных применениях.



NVIDIA представляет Streaming Sortformer для идентификации говорящих в реальном времени

NVIDIA объявила о запуске своей последней инновации, Streaming Sortformer, модели диаризации говорящих в реальном времени, разработанной для революционного изменения способа идентификации говорящих на совещаниях, звонках и в голосовых приложениях. По данным NVIDIA, эта модель разработана для обработки сценариев с низкой задержкой и несколькими говорящими, предлагая бесшовную интеграцию с инструментами NVIDIA NeMo и NVIDIA Riva.

Ключевые особенности и возможности

Streaming Sortformer предлагает расширенные функции, которые повышают его удобство использования в различных приложениях реального времени. Он обеспечивает диаризацию на уровне кадров с точными временными метками для каждого высказывания, обеспечивая точное отслеживание говорящих. Модель поддерживает отслеживание от двух до четырех говорящих с минимальной задержкой и оптимизирована для эффективного вывода на GPU, что делает её готовой для рабочих процессов NeMo и Riva. Хотя она в первую очередь оптимизирована для английского языка, она также продемонстрировала высокую производительность на наборах данных на мандаринском диалекте и других языках.

Эталонная производительность

Оценка производительности Streaming Sortformer показывает впечатляющие результаты в показателе ошибки диаризации (DER), критическом показателе точности идентификации говорящих, где более низкие показатели указывают на лучшую производительность. Модель успешно конкурирует с существующими системами, такими как EEND-GLA и LS-EEND, демонстрируя свой потенциал в контекстах отслеживания говорящих в реальном времени.

Применения и варианты использования

Универсальность модели очевидна в широком спектре её применений. От создания живых транскриптов с метками говорящих во время совещаний до обеспечения соответствия требованиям и контроля качества в контакт-центрах, Streaming Sortformer готов повысить производительность во всех секторах. Кроме того, он поддерживает голосовых ботов и ИИ-ассистентов, улучшая естественность диалога и очередность выступлений, а также помогает медиа и вещательным индустриям с автоматической маркировкой для целей редактирования.

Техническая архитектура

Под капотом Streaming Sortformer использует сложную архитектуру, которая включает сверточный модуль предварительного кодирования и серию блоков конформера и трансформера. Эти компоненты работают в тандеме для обработки и анализа аудио, сортируя говорящих на основе их появления в записи. Модель обрабатывает аудио в небольших перекрывающихся фрагментах, используя кэш говорящих по порядку прибытия (AOSC), обеспечивая последовательную идентификацию говорящих на протяжении всего потока.

Перспективы и ограничения

Несмотря на свои надежные возможности, Streaming Sortformer в настоящее время разработан для сценариев с участием до четырех говорящих. NVIDIA признает необходимость дальнейшего развития для расширения его возможностей по обработке большего числа говорящих и улучшения производительности на различных языках и в сложных акустических средах. Также планируется улучшить его интеграцию с конвейерами Riva и NeMo.

Для тех, кто интересуется техническими тонкостями Streaming Sortformer, исследование NVIDIA по Offline Sortformer доступно на arXiv.

Источник изображения: Shutterstock


Источник: https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification

Возможности рынка
Логотип RealLink
RealLink Курс (REAL)
$0.07238
$0.07238$0.07238
-1.93%
USD
График цены RealLink (REAL) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Bitcoin борется за возвращение к $88 000: финансовые настроения меняются

Bitcoin борется за возвращение к $88 000: финансовые настроения меняются

Bitcoin борется за возвращение к отметке в 88 000$, в то время как приближаются важные финансовые решения. Предстоящее повышение процентной ставки в Японии может повлиять на рынки криптовалют. Продолжить чтение:
Поделиться
Coinstats2025/12/17 10:00
Актёры и создатели запускают коалицию для продвижения правил ИИ на фоне продолжающихся судебных баталий

Актёры и создатели запускают коалицию для продвижения правил ИИ на фоне продолжающихся судебных баталий

Статья «Актеры и создатели запускают коалицию для продвижения правил ИИ на фоне продолжающихся юридических битв» появилась на BitcoinEthereumNews.com. Вкратце: Коалиция создателей по ИИ
Поделиться
BitcoinEthereumNews2025/12/17 09:54
Тернистый путь Bitcoin: неопределенности и потенциальные перспективы

Тернистый путь Bitcoin: неопределенности и потенциальные перспективы

Биткоин испытывает трудности с возвращением на значимые ценовые уровни, в частности на уровень 88 000 $, поскольку глобальные экономические изменения усиливают его волатильность. По мере роста ожиданий
Поделиться
Coinstats2025/12/17 10:46