這篇文章「NVIDIA 推出用於即時說話者識別的 Streaming Sortformer」發表於 BitcoinEthereumNews.com。 Rongchai Wang 2025年8月19日 02:26 (UTC +8) NVIDIA 推出 Streaming Sortformer,一種即時說話者分辨模型,增強了會議、通話和語音應用中的多說話者追蹤功能。了解其功能和潛在應用。 NVIDIA 已宣布推出其最新創新產品 Streaming Sortformer,這是一種即時說話者分辨模型,旨在徹底改變在會議、通話和語音應用中識別說話者的方式。根據 NVIDIA 表示,這個模型專為處理低延遲、多說話者場景而設計,可與 NVIDIA NeMo 和 NVIDIA Riva 工具無縫整合。 主要特點和功能 Streaming Sortformer 提供先進功能,增強了其在各種即時應用中的可用性。它提供幀級分辨,為每個話語提供精確的時間戳,確保準確的說話者追蹤。該模型支援兩到四位說話者的追蹤,具有最小延遲,並針對高效 GPU 推理進行了優化,使其準備好用於 NeMo 和 Riva 工作流程。雖然主要針對英語進行優化,但它在普通話數據集和其他語言上也表現出色。 基準性能 Streaming Sortformer 的性能評估在分辨錯誤率(DER)方面顯示出令人印象深刻的結果,這是說話者識別準確性的關鍵指標,較低的比率表示更好的性能。該模型與現有系統如 EEND-GLA 和 LS-EEND 相比表現良好,展示了其在即時說話者追蹤環境中的潛力。 應用和使用案例 該模型的多功能性體現在其廣泛的應用範圍。從在會議期間生成帶有說話者標記的即時文字記錄,到促進聯絡中心的合規性和質量保證,Streaming Sortformer 有望提高各行業的生產力。此外,它通過改善對話自然度和輪流發言來支援語音機器人和 AI 助手,並幫助媒體和廣播行業進行自動標記以便編輯。 技術架構 在底層,Streaming Sortformer 採用了一種複雜的架構,包括卷積預編碼...這篇文章「NVIDIA 推出用於即時說話者識別的 Streaming Sortformer」發表於 BitcoinEthereumNews.com。 Rongchai Wang 2025年8月19日 02:26 (UTC +8) NVIDIA 推出 Streaming Sortformer,一種即時說話者分辨模型,增強了會議、通話和語音應用中的多說話者追蹤功能。了解其功能和潛在應用。 NVIDIA 已宣布推出其最新創新產品 Streaming Sortformer,這是一種即時說話者分辨模型,旨在徹底改變在會議、通話和語音應用中識別說話者的方式。根據 NVIDIA 表示,這個模型專為處理低延遲、多說話者場景而設計,可與 NVIDIA NeMo 和 NVIDIA Riva 工具無縫整合。 主要特點和功能 Streaming Sortformer 提供先進功能,增強了其在各種即時應用中的可用性。它提供幀級分辨,為每個話語提供精確的時間戳,確保準確的說話者追蹤。該模型支援兩到四位說話者的追蹤,具有最小延遲,並針對高效 GPU 推理進行了優化,使其準備好用於 NeMo 和 Riva 工作流程。雖然主要針對英語進行優化,但它在普通話數據集和其他語言上也表現出色。 基準性能 Streaming Sortformer 的性能評估在分辨錯誤率(DER)方面顯示出令人印象深刻的結果,這是說話者識別準確性的關鍵指標,較低的比率表示更好的性能。該模型與現有系統如 EEND-GLA 和 LS-EEND 相比表現良好,展示了其在即時說話者追蹤環境中的潛力。 應用和使用案例 該模型的多功能性體現在其廣泛的應用範圍。從在會議期間生成帶有說話者標記的即時文字記錄,到促進聯絡中心的合規性和質量保證,Streaming Sortformer 有望提高各行業的生產力。此外,它通過改善對話自然度和輪流發言來支援語音機器人和 AI 助手,並幫助媒體和廣播行業進行自動標記以便編輯。 技術架構 在底層,Streaming Sortformer 採用了一種複雜的架構,包括卷積預編碼...

NVIDIA 推出串流 Sortformer 實現即時說話者識別



Rongchai Wang
2025年8月19日 02:26 (UTC +8)

NVIDIA 推出 Streaming Sortformer,一款即時說話者分離模型,增強會議、通話和語音應用中的多說話者追蹤功能。了解其功能和潛在應用。



NVIDIA 推出 Streaming Sortformer 實現即時說話者識別

NVIDIA 已宣布推出其最新創新技術 Streaming Sortformer,這是一款即時說話者分離模型,旨在徹底改變會議、通話和語音應用中識別說話者的方式。根據 NVIDIA 表示,這款模型專為處理低延遲、多說話者場景而設計,可與 NVIDIA NeMo 和 NVIDIA Riva 工具無縫整合。

主要特點和功能

Streaming Sortformer 提供先進功能,增強其在各種即時應用中的可用性。它提供幀級分離功能,為每個語句提供精確的時間戳記,確保準確的說話者追蹤。該模型支援以最小延遲追蹤兩到四位說話者,並針對高效 GPU 推論進行了優化,使其準備好用於 NeMo 和 Riva 工作流程。雖然主要針對英語進行優化,但它在普通話數據集和其他語言上也展現出強大的性能。

基準性能

Streaming Sortformer 的性能評估在分離錯誤率 (DER) 方面顯示出令人印象深刻的結果,這是說話者識別準確性的關鍵指標,較低的錯誤率表示更好的性能。該模型與現有系統如 EEND-GLA 和 LS-EEND 相比表現良好,展示了其在即時說話者追蹤環境中的潛力。

應用和使用案例

該模型的多功能性體現在其廣泛的應用範圍。從會議期間生成帶有說話者標籤的即時轉錄,到促進聯絡中心的合規性和質量保證,Streaming Sortformer 有望提高各行業的生產力。此外,它通過改善對話自然度和輪流發言來支援語音機器人和 AI 助手,並幫助媒體和廣播行業進行自動標記以便編輯。

技術架構

在底層,Streaming Sortformer 採用了複雜的架構,包括卷積預編碼模組和一系列 Conformer 和 Transformer 區塊。這些組件協同工作,處理和分析音頻,根據說話者在錄音中的出現順序進行排序。該模型使用到達順序說話者緩存 (AOSC) 處理小型重疊音頻塊,確保整個流程中一致的說話者識別。

未來前景和限制

儘管具有強大的功能,Streaming Sortformer 目前設計用於涉及最多四位說話者的場景。NVIDIA 承認需要進一步開發,以擴展其處理更多說話者的能力,並在各種語言和具挑戰性的聲學環境中提高性能。還計劃加強其與 Riva 和 NeMo 管道的整合。

對於有興趣探索 Streaming Sortformer 技術細節的人,NVIDIA 關於 Offline Sortformer 的研究可在 arXiv 上獲取。

圖片來源:Shutterstock


來源:https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification

市場機遇
RealLink 圖標
RealLink實時價格 (REAL)
$0.07285
$0.07285$0.07285
-1.30%
USD
RealLink (REAL) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。