من خلال الجمع بين مزايا نماذج فضاء الحالة (SSMs) وآليات الانتباه، يقدم SAMBA بنية عصبية هجينة تمكّن من نمذجة لغوية فعالة وقابلة للتوسع مع طول سياق لا نهائي تقريبًا. يتفوق SAMBA على كل من النماذج القائمة على الانتباه الخالص والنماذج القائمة على SSM في مجموعة متنوعة من مقاييس الاستدلال والفهم والترميز عند تدريبه على SlimPajama بإعدادات متسقة. يعالج النموذج تسلسلات تصل إلى 256 ألف رمز مع القليل من الضبط الدقيق، محققًا سرعة استثنائية وقدرة على الاستقراء.من خلال الجمع بين مزايا نماذج فضاء الحالة (SSMs) وآليات الانتباه، يقدم SAMBA بنية عصبية هجينة تمكّن من نمذجة لغوية فعالة وقابلة للتوسع مع طول سياق لا نهائي تقريبًا. يتفوق SAMBA على كل من النماذج القائمة على الانتباه الخالص والنماذج القائمة على SSM في مجموعة متنوعة من مقاييس الاستدلال والفهم والترميز عند تدريبه على SlimPajama بإعدادات متسقة. يعالج النموذج تسلسلات تصل إلى 256 ألف رمز مع القليل من الضبط الدقيق، محققًا سرعة استثنائية وقدرة على الاستقراء.

كيف توازن نماذج الذكاء الاصطناعي الهجينة بين الذاكرة والكفاءة

2025/10/28 17:13

نبذة مختصرة و 1. المقدمة

  1. المنهجية

  2. التجارب والنتائج

    3.1 نمذجة اللغة على بيانات vQuality

    3.2 استكشاف الانتباه والتكرار الخطي

    3.3 استقراء الطول الفعال

    3.4 فهم السياق الطويل

  3. التحليل

  4. الخاتمة، شكر وتقدير، والمراجع

أ. تفاصيل التنفيذ

ب. نتائج تجارب إضافية

ج. تفاصيل قياس الإنتروبيا

د. القيود

\

أ تفاصيل التنفيذ

\ بالنسبة لطبقة GLA في بنية Sliding GLA، نستخدم عدد الرؤوس dm/384، ونسبة توسيع المفتاح 0.5، ونسبة توسيع القيمة 1. بالنسبة لطبقة RetNet نستخدم عددًا من الرؤوس يساوي نصف عدد رؤوس استعلام الانتباه، ونسبة توسيع المفتاح 1 ونسبة توسيع القيمة 2. تأتي تطبيقات GLA وRetNet من مستودع Flash Linear Attention[3] [YZ24]. نستخدم التطبيق المعتمد على FlashAttention للاستقراء الذاتي Self-Extend[4]. نموذج Mamba 432M له عرض نموذج 1024 ونموذج Mamba 1.3B له عرض نموذج 2048. جميع النماذج المدربة على SlimPajama لها نفس تكوينات التدريب وحجم MLP الوسيط مثل Samba، ما لم يُذكر خلاف ذلك. تعتمد بنية التدريب على SlimPajama على نسخة معدلة من قاعدة الشفرة TinyLlama[5].

\ الجدول 10: المعلمات الفائقة التفصيلية لنماذج SAMBA المدربة على مقاييس مختلفة. نعرض فقط إعدادات التحسين للمرحلة التدريبية الأولى من نموذج 3.8B.

\ في تكوينات التوليد للمهام اللاحقة، نستخدم فك التشفير الجشع لـ GSM8K، وأخذ العينات النووية [HBD+19] بدرجة حرارة τ = 0.2 وtop-p = 0.95 لـ HumanEval. بالنسبة لـ MBPP وSQuAD، نضبط τ = 0.01 وtop-p = 0.95.

ب نتائج تجارب إضافية

\ الشكل 6: منحنيات خسارة التدريب لنماذج Samba 1.7B وMistral 1.6B خلال 500 خطوة من ضبط التعليمات على استرجاع مفتاح المرور بطول تسلسل 4K. نرسم منحنيات الخسارة لكلا النموذجين باستخدام المتوسط المتحرك البسيط بحجم نافذة 10.

\

\ الشكل 7: دقة استرجاع مفتاح المرور الإجمالية على طول المستند 256K لنماذج Samba 1.7B وMistral 1.6B خلال 500 خطوة من ضبط التعليمات.

\

ج تفاصيل قياس الإنتروبيا

\

\

د القيود

على الرغم من أن Samba يُظهر أداءً واعدًا في استرجاع الذاكرة من خلال ضبط التعليمات، إلا أن نموذجه الأساسي المدرب مسبقًا له أداء استرجاع مشابه لأداء النموذج المعتمد على SWA، كما هو موضح في الشكل 7. هذا يفتح اتجاهًا مستقبليًا لتحسين قدرة Samba على الاسترجاع دون المساس بكفاءته وقدرته على الاستقراء. بالإضافة إلى ذلك، فإن استراتيجية التهجين في Samba ليست أفضل باستمرار من البدائل الأخرى في جميع المهام. كما هو موضح في الجدول 2، يُظهر MambaSWA-MLP أداءً محسنًا في مهام مثل WinoGrande وSIQA وGSM8K. هذا يمنحنا إمكانية الاستثمار في نهج أكثر تطوراً لإجراء مجموعات ديناميكية تعتمد على المدخلات من النماذج المعتمدة على SWA والنماذج المعتمدة على SSM.

\

:::info المؤلفون:

(1) ليليانغ رين، مايكروسوفت وجامعة إلينوي في أوربانا-شامبين (liliangren@microsoft.com);

(2) يانغ ليو†، مايكروسوفت (yaliu10@microsoft.com);

(3) يادونغ لو†، مايكروسوفت (yadonglu@microsoft.com);

(4) يلونغ شين، مايكروسوفت (yelong.shen@microsoft.com);

(5) تشن ليانغ، مايكروسوفت (chenliang1@microsoft.com);

(6) ويزو تشن، مايكروسوفت (wzchen@microsoft.com).

:::


:::info هذه الورقة متاحة على arxiv تحت ترخيص CC BY 4.0.

:::

[3] https://github.com/sustcsonglin/flash-linear-attention

\ [4] https://github.com/datamllab/LongLM/blob/master/selfextendpatch/Llama.py

\ [5] https://github.com/jzhang38/TinyLlama

إخلاء مسؤولية: المقالات المُعاد نشرها على هذا الموقع مستقاة من منصات عامة، وهي مُقدمة لأغراض إعلامية فقط. لا تُظهِر بالضرورة آراء MEXC. جميع الحقوق محفوظة لمؤلفيها الأصليين. إذا كنت تعتقد أن أي محتوى ينتهك حقوق جهات خارجية، يُرجى التواصل عبر البريد الإلكتروني service@support.mexc.com لإزالته. لا تقدم MEXC أي ضمانات بشأن دقة المحتوى أو اكتماله أو حداثته، وليست مسؤولة عن أي إجراءات تُتخذ بناءً على المعلومات المُقدمة. لا يُمثل المحتوى نصيحة مالية أو قانونية أو مهنية أخرى، ولا يُعتبر توصية أو تأييدًا من MEXC.