ظهر المنشور NVIDIA تكشف عن Streaming Sortformer لتحديد المتحدث في الوقت الفعلي على BitcoinEthereumNews.com. رونغشاي وانغ 19 أغسطس 2025 02:26 تقدم NVIDIA نموذج Streaming Sortformer، وهو نموذج تمييز المتحدثين في الوقت الفعلي، مما يعزز تتبع المتحدثين المتعددين في الاجتماعات والمكالمات وتطبيقات الصوت. تعرف على قدراته وتطبيقاته المحتملة. أعلنت NVIDIA عن إطلاق أحدث ابتكاراتها، Streaming Sortformer، وهو نموذج تمييز المتحدثين في الوقت الفعلي مصمم لإحداث ثورة في طريقة تحديد المتحدثين في الاجتماعات والمكالمات وتطبيقات الصوت. وفقًا لـ NVIDIA، تم تصميم هذا النموذج للتعامل مع سيناريوهات متعددة المتحدثين منخفضة التأخير، مما يوفر تكاملًا سلسًا مع أدوات NVIDIA NeMo و NVIDIA Riva. الميزات والقدرات الرئيسية يقدم Streaming Sortformer ميزات متقدمة تعزز قابلية استخدامه عبر مختلف تطبيقات الوقت الفعلي. يوفر تمييز المتحدثين على مستوى الإطار مع طوابع زمنية دقيقة لكل نطق، مما يضمن تتبعًا دقيقًا للمتحدث. يدعم النموذج تتبع اثنين إلى أربعة متحدثين مع الحد الأدنى من التأخير وهو مُحسّن للاستدلال الفعال على وحدة معالجة الرسومات، مما يجعله جاهزًا لسير عمل NeMo و Riva. بينما تم تحسينه بشكل أساسي للغة الإنجليزية، فقد أظهر أيضًا أداءً قويًا على مجموعات بيانات الماندرين واللغات الأخرى. أداء المعيار يُظهر تقييم أداء Streaming Sortformer نتائج مثيرة للإعجاب في معدل خطأ التمييز (DER)، وهو مقياس حاسم لدقة تحديد المتحدث، حيث تشير المعدلات المنخفضة إلى أداء أفضل. يتنافس النموذج بشكل إيجابي مع الأنظمة الحالية مثل EEND-GLA و LS-EEND، مما يظهر إمكاناته في سياقات تتبع المتحدث المباشر. التطبيقات وحالات الاستخدام تتضح تعددية استخدامات النموذج في مجموعة واسعة من التطبيقات. من إنشاء نصوص مباشرة مع علامات المتحدث أثناء الاجتماعات إلى تسهيل الامتثال وضمان الجودة في مراكز الاتصال، يستعد Streaming Sortformer لتعزيز الإنتاجية عبر القطاعات. بالإضافة إلى ذلك، فإنه يدعم الروبوتات الصوتية ومساعدي الذكاء الاصطناعي من خلال تحسين طبيعية الحوار وتناوب الأدوار، ويساعد صناعات الإعلام والبث من خلال التسمية التلقائية لأغراض التحرير. البنية التقنية تحت الغطاء، يستخدم Streaming Sortformer بنية متطورة تتضمن ترميزًا مسبقًا تلافيفيًا...ظهر المنشور NVIDIA تكشف عن Streaming Sortformer لتحديد المتحدث في الوقت الفعلي على BitcoinEthereumNews.com. رونغشاي وانغ 19 أغسطس 2025 02:26 تقدم NVIDIA نموذج Streaming Sortformer، وهو نموذج تمييز المتحدثين في الوقت الفعلي، مما يعزز تتبع المتحدثين المتعددين في الاجتماعات والمكالمات وتطبيقات الصوت. تعرف على قدراته وتطبيقاته المحتملة. أعلنت NVIDIA عن إطلاق أحدث ابتكاراتها، Streaming Sortformer، وهو نموذج تمييز المتحدثين في الوقت الفعلي مصمم لإحداث ثورة في طريقة تحديد المتحدثين في الاجتماعات والمكالمات وتطبيقات الصوت. وفقًا لـ NVIDIA، تم تصميم هذا النموذج للتعامل مع سيناريوهات متعددة المتحدثين منخفضة التأخير، مما يوفر تكاملًا سلسًا مع أدوات NVIDIA NeMo و NVIDIA Riva. الميزات والقدرات الرئيسية يقدم Streaming Sortformer ميزات متقدمة تعزز قابلية استخدامه عبر مختلف تطبيقات الوقت الفعلي. يوفر تمييز المتحدثين على مستوى الإطار مع طوابع زمنية دقيقة لكل نطق، مما يضمن تتبعًا دقيقًا للمتحدث. يدعم النموذج تتبع اثنين إلى أربعة متحدثين مع الحد الأدنى من التأخير وهو مُحسّن للاستدلال الفعال على وحدة معالجة الرسومات، مما يجعله جاهزًا لسير عمل NeMo و Riva. بينما تم تحسينه بشكل أساسي للغة الإنجليزية، فقد أظهر أيضًا أداءً قويًا على مجموعات بيانات الماندرين واللغات الأخرى. أداء المعيار يُظهر تقييم أداء Streaming Sortformer نتائج مثيرة للإعجاب في معدل خطأ التمييز (DER)، وهو مقياس حاسم لدقة تحديد المتحدث، حيث تشير المعدلات المنخفضة إلى أداء أفضل. يتنافس النموذج بشكل إيجابي مع الأنظمة الحالية مثل EEND-GLA و LS-EEND، مما يظهر إمكاناته في سياقات تتبع المتحدث المباشر. التطبيقات وحالات الاستخدام تتضح تعددية استخدامات النموذج في مجموعة واسعة من التطبيقات. من إنشاء نصوص مباشرة مع علامات المتحدث أثناء الاجتماعات إلى تسهيل الامتثال وضمان الجودة في مراكز الاتصال، يستعد Streaming Sortformer لتعزيز الإنتاجية عبر القطاعات. بالإضافة إلى ذلك، فإنه يدعم الروبوتات الصوتية ومساعدي الذكاء الاصطناعي من خلال تحسين طبيعية الحوار وتناوب الأدوار، ويساعد صناعات الإعلام والبث من خلال التسمية التلقائية لأغراض التحرير. البنية التقنية تحت الغطاء، يستخدم Streaming Sortformer بنية متطورة تتضمن ترميزًا مسبقًا تلافيفيًا...

نفيديا تكشف عن Streaming Sortformer للتعرف على المتحدث في الوقت الفعلي



رونغشاي وانغ
19 أغسطس 2025 02:26

تقدم NVIDIA نموذج Streaming Sortformer، وهو نموذج تمييز المتحدثين في الوقت الفعلي، يعزز تتبع المتحدثين المتعددين في الاجتماعات والمكالمات وتطبيقات الصوت. تعرف على قدراته وتطبيقاته المحتملة.



NVIDIA تكشف عن Streaming Sortformer للتعرف على المتحدث في الوقت الفعلي

أعلنت NVIDIA عن إطلاق أحدث ابتكاراتها، Streaming Sortformer، وهو نموذج تمييز المتحدثين في الوقت الفعلي مصمم لإحداث ثورة في طريقة تحديد المتحدثين في الاجتماعات والمكالمات وتطبيقات الصوت. وفقًا لـ NVIDIA، تم تصميم هذا النموذج للتعامل مع سيناريوهات متعددة المتحدثين منخفضة التأخير، مع توفير تكامل سلس مع أدوات NVIDIA NeMo و NVIDIA Riva.

الميزات والقدرات الرئيسية

يقدم Streaming Sortformer ميزات متقدمة تعزز قابلية استخدامه عبر تطبيقات الوقت الفعلي المختلفة. يوفر تمييز المتحدثين على مستوى الإطار مع طوابع زمنية دقيقة لكل نطق، مما يضمن تتبعًا دقيقًا للمتحدث. يدعم النموذج تتبع متحدثين اثنين إلى أربعة متحدثين بأقل تأخير وهو مُحسّن للاستدلال الفعال على وحدة معالجة الرسومات، مما يجعله جاهزًا لسير عمل NeMo و Riva. بينما تم تحسينه بشكل أساسي للغة الإنجليزية، فقد أظهر أيضًا أداءً قويًا على مجموعات بيانات اللغة الماندرين واللغات الأخرى.

أداء المعيار

يُظهر تقييم أداء Streaming Sortformer نتائج مثيرة للإعجاب في معدل خطأ التمييز (DER)، وهو مقياس مهم لدقة تحديد المتحدث، حيث تشير المعدلات المنخفضة إلى أداء أفضل. يتنافس النموذج بشكل إيجابي مع الأنظمة الحالية مثل EEND-GLA و LS-EEND، مما يظهر إمكاناته في سياقات تتبع المتحدث المباشر.

التطبيقات وحالات الاستخدام

تتضح تعددية استخدامات النموذج في مجموعة واسعة من التطبيقات. من إنشاء نصوص مباشرة مع علامات المتحدث أثناء الاجتماعات إلى تسهيل الامتثال وضمان الجودة في مراكز الاتصال، يستعد Streaming Sortformer لتعزيز الإنتاجية عبر القطاعات. بالإضافة إلى ذلك، فهو يدعم الروبوتات الصوتية ومساعدي الذكاء الاصطناعي من خلال تحسين طبيعية الحوار وتناوب الأدوار، ويساعد صناعات الإعلام والبث من خلال التسمية التلقائية لأغراض التحرير.

البنية التقنية

تحت الغطاء، يستخدم Streaming Sortformer بنية متطورة تتضمن وحدة ترميز مسبق تلافيفية وسلسلة من كتل المطابقة والمحول. تعمل هذه المكونات معًا لمعالجة وتحليل الصوت، وفرز المتحدثين بناءً على ظهورهم في التسجيل. يعالج النموذج الصوت في أجزاء صغيرة متداخلة باستخدام ذاكرة تخزين مؤقت للمتحدث بترتيب الوصول (AOSC)، مما يضمن تحديد المتحدث بشكل متسق طوال البث.

الآفاق المستقبلية والقيود

على الرغم من قدراته القوية، تم تصميم Streaming Sortformer حاليًا للسيناريوهات التي تتضمن ما يصل إلى أربعة متحدثين. تقر NVIDIA بالحاجة إلى مزيد من التطوير لتوسيع قدرته على التعامل مع المزيد من المتحدثين وتحسين الأداء في مختلف اللغات والبيئات الصوتية الصعبة. هناك أيضًا خطط لتعزيز تكامله مع خطوط أنابيب Riva و NeMo.

بالنسبة لأولئك المهتمين باستكشاف التعقيدات التقنية لـ Streaming Sortformer، فإن أبحاث NVIDIA حول Offline Sortformer متاحة على arXiv.

مصدر الصورة: Shutterstock


المصدر: https://blockchain.news/news/nvidia-streaming-sortformer-real-time-speaker-identification

فرصة السوق
شعار RealLink
RealLink السعر(REAL)
$0.07289
$0.07289$0.07289
-1.24%
USD
مخطط أسعار RealLink (REAL) المباشر
إخلاء مسؤولية: المقالات المُعاد نشرها على هذا الموقع مستقاة من منصات عامة، وهي مُقدمة لأغراض إعلامية فقط. لا تُظهِر بالضرورة آراء MEXC. جميع الحقوق محفوظة لمؤلفيها الأصليين. إذا كنت تعتقد أن أي محتوى ينتهك حقوق جهات خارجية، يُرجى التواصل عبر البريد الإلكتروني service@support.mexc.com لإزالته. لا تقدم MEXC أي ضمانات بشأن دقة المحتوى أو اكتماله أو حداثته، وليست مسؤولة عن أي إجراءات تُتخذ بناءً على المعلومات المُقدمة. لا يُمثل المحتوى نصيحة مالية أو قانونية أو مهنية أخرى، ولا يُعتبر توصية أو تأييدًا من MEXC.