NVIDIA NeMo RL एंड-टू-एंड FP8 प्रिसिजन ट्रेनिंग के साथ 48% स्पीडअप हासिल करता है

Jessie A Ellis Apr 20, 2026 23:41

NVIDIA की रीइन्फोर्समेंट लर्निंग के लिए नई FP8 रेसिपी BF16 एक्यूरेसी को मैच करते हुए 48% तेज ट्रेनिंग प्रदान करती है, जिससे AI इंफ्रास्ट्रक्चर की लागत में काफी कमी आती है।

NVIDIA NeMo RL एंड-टू-एंड FP8 प्रिसिजन ट्रेनिंग के साथ 48% स्पीडअप हासिल करता है

NVIDIA ने रीइन्फोर्समेंट लर्निंग के लिए एक व्यापक FP8 प्रिसिजन रेसिपी जारी की है जो पारंपरिक BF16 दृष्टिकोण के साथ एक्यूरेसी पैरिटी बनाए रखते हुए 48% तक तेज ट्रेनिंग थ्रूपुट प्रदान करती है—यह AI इंफ्रास्ट्रक्चर लागत और GPU कंप्यूट इकोनॉमिक्स के लिए महत्वपूर्ण निहितार्थ वाला विकास है।

यह तकनीक, जो NVIDIA के Guyue Huang के एक तकनीकी ब्लॉग पोस्ट में विस्तृत है, RL ट्रेनिंग की सबसे कठिन समस्याओं में से एक को संबोधित करती है: अलग-अलग इंजनों में विभिन्न प्रिसिजन स्तरों का उपयोग करते समय जेनरेशन और ट्रेनिंग फेज के बीच संख्यात्मक असहमति।

तकनीकी सफलता

पारंपरिक RL पाइपलाइन रोलआउट के लिए vLLM और ट्रेनिंग के लिए Megatron Core का उपयोग करती हैं—प्रत्येक अद्वितीय CUDA कर्नेल के साथ जो संचयी संख्यात्मक अंतर पेश करते हैं। ये विसंगतियां कम प्रिसिजन स्तरों पर बढ़ती हैं, ऐतिहासिक रूप से FP8 अपनाने को सीमित करती हैं।

NVIDIA का समाधान? प्रिसिजन स्तरों को मिलाने के बजाय जेनरेशन और ट्रेनिंग दोनों में FP8 को लगातार लागू करें। Llama 3.1 8B Instruct पर परीक्षण ने एंड-टू-एंड FP8 के साथ 0.613 की वैलिडेशन एक्यूरेसी दिखाई बनाम BF16 के लिए 0.616—प्रभावी रूप से अंतर को बंद करना। इस बीच, केवल जेनरेशन के लिए FP8 का उपयोग करने से एक्यूरेसी 0.586 तक गिर गई।

यह रेसिपी वेट्स के लिए 128x128 ग्रैन्युलैरिटी और एक्टिवेशन के लिए 1x128 के साथ ब्लॉक-वाइज क्वांटाइज्ड FP8 (E4M3 फॉर्मेट) का उपयोग करती है। लीनियर लेयर्स BF16 की तुलना में 2x थियोरेटिकल पीक थ्रूपुट पर FP8 मैथ चलाते हैं, जबकि अटेंशन, नॉर्मलाइजेशन, और नॉन-लीनियर फंक्शन BF16 में रहते हैं।

वास्तविक दुनिया के प्रदर्शन लाभ

केवल लीनियर लेयर्स के लिए, FP8 रेसिपी लगातार 15-25% थ्रूपुट सुधार प्रदान करती है। थियोरेटिकल 2x स्पीडअप और वास्तविक लाभ के बीच अंतर BF16 में रहने वाली अटेंशन लेयर्स और क्वांटाइजेशन कर्नेल ओवरहेड से आता है।

KV कैश और अटेंशन ऑपरेशन तक FP8 का विस्तार करने से BF16 बेसलाइन पर कुल स्पीडअप लगभग 48% तक पहुंच जाता है। कैच: RL के लगातार अपडेट होने वाले पॉलिसी वेट्स को प्रत्येक ट्रेनिंग स्टेप के बाद क्वांटाइजेशन स्केल के डायनामिक रीकैलिब्रेशन की आवश्यकता होती है। NVIDIA का दृष्टिकोण इस रीकैलिब्रेशन के लिए लगभग 2-3% ओवरहेड जोड़ता है—पर्याप्त त्वरण के लिए एक मामूली लागत।

Qwen3-30B (एक मिक्सचर-ऑफ-एक्सपर्ट्स मॉडल) पर परीक्षण ने FP8 और BF16 कॉन्फ़िगरेशन के बीच मेल खाती एक्यूरेसी कर्व्स दिखाई, जो सुझाव देती हैं कि तकनीक आर्किटेक्चर में स्केल करती है।

AI इकोनॉमिक्स के लिए यह क्यों महत्वपूर्ण है

उन्नत AI असिस्टेंट के पीछे के रीजनिंग-सक्षम मॉडल के लिए RL ट्रेनिंग को भारी कंप्यूट की आवश्यकता होती है। 48% स्पीडअप सीधे तौर पर इन सिस्टम को प्रशिक्षित करने वाले संगठनों के लिए कम GPU-घंटे और कम बिजली बिल में अनुवादित होता है।

इम्पोर्टेंस सैंपलिंग तकनीक जो एक्यूरेसी संरक्षण को सक्षम बनाती है, समान रूप से मूल्यवान साबित हो सकती है। प्रति-टोकन के आधार पर जेनरेशन और ट्रेनिंग मॉडल के बीच डिस्ट्रिब्यूशन मिसमैच को ठीक करके, यह मॉडल गुणवत्ता का त्याग किए बिना आक्रामक प्रिसिजन कमी की अनुमति देती है।

पूर्ण कार्यान्वयन NVIDIA की ओपन-सोर्स NeMo RL लाइब्रेरी में उपलब्ध है, Llama 3.1 8B और Moonlight 16B मॉडल के लिए पूर्व-कॉन्फ़िगर की गई रेसिपी के साथ। उन्नत उपयोगकर्ता दृष्टिकोण को फाइन-ट्यून कर सकते हैं—विशिष्ट ट्रांसफॉर्मर लेयर्स को BF16 में रखते हुए या अतिरिक्त ऑप्टिमाइजेशन के लिए पावर-ऑफ-2 स्केलिंग फैक्टर्स पर स्विच करते हुए।

मॉडल जटिलता के साथ कंप्यूट लागत बढ़ते देख रहे AI इंफ्रास्ट्रक्चर ऑपरेटरों के लिए, यह एक सार्थक दक्षता लीवर का प्रतिनिधित्व करता है जिसे हार्डवेयर अपग्रेड की आवश्यकता नहीं है—बस मौजूदा H100 क्षमताओं का स्मार्ट उपयोग।

Image source: Shutterstock