رونغشاي وانغ
19 أغسطس 2025 02:26
تقدم NVIDIA نموذج Streaming Sortformer، وهو نموذج تمييز المتحدثين في الوقت الفعلي، يعزز تتبع المتحدثين المتعددين في الاجتماعات والمكالمات وتطبيقات الصوت. تعرف على قدراته وتطبيقاته المحتملة.
أعلنت NVIDIA عن إطلاق أحدث ابتكاراتها، Streaming Sortformer، وهو نموذج تمييز المتحدثين في الوقت الفعلي مصمم لإحداث ثورة في طريقة تحديد المتحدثين في الاجتماعات والمكالمات وتطبيقات الصوت. وفقًا لـ NVIDIA، تم تصميم هذا النموذج للتعامل مع سيناريوهات متعددة المتحدثين منخفضة التأخير، مع توفير تكامل سلس مع أدوات NVIDIA NeMo و NVIDIA Riva.
الميزات والقدرات الرئيسية
يقدم Streaming Sortformer ميزات متقدمة تعزز قابلية استخدامه عبر تطبيقات الوقت الفعلي المختلفة. يوفر تمييز المتحدثين على مستوى الإطار مع طوابع زمنية دقيقة لكل نطق، مما يضمن تتبعًا دقيقًا للمتحدث. يدعم النموذج تتبع متحدثين اثنين إلى أربعة متحدثين بأقل تأخير وهو مُحسّن للاستدلال الفعال على وحدة معالجة الرسومات، مما يجعله جاهزًا لسير عمل NeMo و Riva. بينما تم تحسينه بشكل أساسي للغة الإنجليزية، فقد أظهر أيضًا أداءً قويًا على مجموعات بيانات اللغة الماندرين واللغات الأخرى.
أداء المعيار
يُظهر تقييم أداء Streaming Sortformer نتائج مثيرة للإعجاب في معدل خطأ التمييز (DER)، وهو مقياس مهم لدقة تحديد المتحدث، حيث تشير المعدلات المنخفضة إلى أداء أفضل. يتنافس النموذج بشكل إيجابي مع الأنظمة الحالية مثل EEND-GLA و LS-EEND، مما يظهر إمكاناته في سياقات تتبع المتحدث المباشر.
التطبيقات وحالات الاستخدام
تتضح تعددية استخدامات النموذج في مجموعة واسعة من التطبيقات. من إنشاء نصوص مباشرة مع علامات المتحدث أثناء الاجتماعات إلى تسهيل الامتثال وضمان الجودة في مراكز الاتصال، يستعد Streaming Sortformer لتعزيز الإنتاجية عبر القطاعات. بالإضافة إلى ذلك، فهو يدعم الروبوتات الصوتية ومساعدي الذكاء الاصطناعي من خلال تحسين طبيعية الحوار وتناوب الأدوار، ويساعد صناعات الإعلام والبث من خلال التسمية التلقائية لأغراض التحرير.
البنية التقنية
تحت الغطاء، يستخدم Streaming Sortformer بنية متطورة تتضمن وحدة ترميز مسبق تلافيفية وسلسلة من كتل المطابقة والمحول. تعمل هذه المكونات معًا لمعالجة وتحليل الصوت، وفرز المتحدثين بناءً على ظهورهم في التسجيل. يعالج النموذج الصوت في أجزاء صغيرة متداخلة باستخدام ذاكرة تخزين مؤقت للمتحدث بترتيب الوصول (AOSC)، مما يضمن تحديد المتحدث بشكل متسق طوال البث.
الآفاق المستقبلية والقيود
على الرغم من قدراته القوية، تم تصميم Streaming Sortformer حاليًا للسيناريوهات التي تتضمن ما يصل إلى أربعة متحدثين. تقر NVIDIA بالحاجة إلى مزيد من التطوير لتوسيع قدرته على التعامل مع المزيد من المتحدثين وتحسين الأداء في مختلف اللغات والبيئات الصوتية الصعبة. هناك أيضًا خطط لتعزيز تكامله مع خطوط أنابيب Riva و NeMo.
بالنسبة لأولئك المهتمين باستكشاف التعقيدات التقنية لـ Streaming Sortformer، فإن أبحاث NVIDIA حول Offline Sortformer متاحة على arXiv.
مصدر الصورة: Shutterstock
المصدر: https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification



