NVIDIA की नई FP8 रेसिपी रीइन्फोर्समेंट लर्निंग के लिए BF16 एक्यूरेसी को मैच करते हुए 48% तेज़ ट्रेनिंग प्रदान करती है, जिससे AI इंफ्रास्ट्रक्चर की लागत में उल्लेखनीय कमी आती है। (पढ़ेंNVIDIA की नई FP8 रेसिपी रीइन्फोर्समेंट लर्निंग के लिए BF16 एक्यूरेसी को मैच करते हुए 48% तेज़ ट्रेनिंग प्रदान करती है, जिससे AI इंफ्रास्ट्रक्चर की लागत में उल्लेखनीय कमी आती है। (पढ़ें

NVIDIA NeMo RL एंड-टू-एंड FP8 प्रिसिजन ट्रेनिंग के साथ 48% स्पीडअप हासिल करता है

2026/04/21 07:41
4 मिनट पढ़ें
इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें

NVIDIA NeMo RL एंड-टू-एंड FP8 प्रिसिजन ट्रेनिंग के साथ 48% स्पीडअप हासिल करता है

Jessie A Ellis Apr 20, 2026 23:41

NVIDIA की रीइन्फोर्समेंट लर्निंग के लिए नई FP8 रेसिपी BF16 एक्यूरेसी को मैच करते हुए 48% तेज ट्रेनिंग प्रदान करती है, जिससे AI इंफ्रास्ट्रक्चर की लागत में काफी कमी आती है।

NVIDIA NeMo RL एंड-टू-एंड FP8 प्रिसिजन ट्रेनिंग के साथ 48% स्पीडअप हासिल करता है

NVIDIA ने रीइन्फोर्समेंट लर्निंग के लिए एक व्यापक FP8 प्रिसिजन रेसिपी जारी की है जो पारंपरिक BF16 दृष्टिकोण के साथ एक्यूरेसी पैरिटी बनाए रखते हुए 48% तक तेज ट्रेनिंग थ्रूपुट प्रदान करती है—यह AI इंफ्रास्ट्रक्चर लागत और GPU कंप्यूट इकोनॉमिक्स के लिए महत्वपूर्ण निहितार्थ वाला विकास है।

यह तकनीक, जो NVIDIA के Guyue Huang के एक तकनीकी ब्लॉग पोस्ट में विस्तृत है, RL ट्रेनिंग की सबसे कठिन समस्याओं में से एक को संबोधित करती है: अलग-अलग इंजनों में विभिन्न प्रिसिजन स्तरों का उपयोग करते समय जेनरेशन और ट्रेनिंग फेज के बीच संख्यात्मक असहमति।

तकनीकी सफलता

पारंपरिक RL पाइपलाइन रोलआउट के लिए vLLM और ट्रेनिंग के लिए Megatron Core का उपयोग करती हैं—प्रत्येक अद्वितीय CUDA कर्नेल के साथ जो संचयी संख्यात्मक अंतर पेश करते हैं। ये विसंगतियां कम प्रिसिजन स्तरों पर बढ़ती हैं, ऐतिहासिक रूप से FP8 अपनाने को सीमित करती हैं।

NVIDIA का समाधान? प्रिसिजन स्तरों को मिलाने के बजाय जेनरेशन और ट्रेनिंग दोनों में FP8 को लगातार लागू करें। Llama 3.1 8B Instruct पर परीक्षण ने एंड-टू-एंड FP8 के साथ 0.613 की वैलिडेशन एक्यूरेसी दिखाई बनाम BF16 के लिए 0.616—प्रभावी रूप से अंतर को बंद करना। इस बीच, केवल जेनरेशन के लिए FP8 का उपयोग करने से एक्यूरेसी 0.586 तक गिर गई।

यह रेसिपी वेट्स के लिए 128x128 ग्रैन्युलैरिटी और एक्टिवेशन के लिए 1x128 के साथ ब्लॉक-वाइज क्वांटाइज्ड FP8 (E4M3 फॉर्मेट) का उपयोग करती है। लीनियर लेयर्स BF16 की तुलना में 2x थियोरेटिकल पीक थ्रूपुट पर FP8 मैथ चलाते हैं, जबकि अटेंशन, नॉर्मलाइजेशन, और नॉन-लीनियर फंक्शन BF16 में रहते हैं।

वास्तविक दुनिया के प्रदर्शन लाभ

केवल लीनियर लेयर्स के लिए, FP8 रेसिपी लगातार 15-25% थ्रूपुट सुधार प्रदान करती है। थियोरेटिकल 2x स्पीडअप और वास्तविक लाभ के बीच अंतर BF16 में रहने वाली अटेंशन लेयर्स और क्वांटाइजेशन कर्नेल ओवरहेड से आता है।

KV कैश और अटेंशन ऑपरेशन तक FP8 का विस्तार करने से BF16 बेसलाइन पर कुल स्पीडअप लगभग 48% तक पहुंच जाता है। कैच: RL के लगातार अपडेट होने वाले पॉलिसी वेट्स को प्रत्येक ट्रेनिंग स्टेप के बाद क्वांटाइजेशन स्केल के डायनामिक रीकैलिब्रेशन की आवश्यकता होती है। NVIDIA का दृष्टिकोण इस रीकैलिब्रेशन के लिए लगभग 2-3% ओवरहेड जोड़ता है—पर्याप्त त्वरण के लिए एक मामूली लागत।

Qwen3-30B (एक मिक्सचर-ऑफ-एक्सपर्ट्स मॉडल) पर परीक्षण ने FP8 और BF16 कॉन्फ़िगरेशन के बीच मेल खाती एक्यूरेसी कर्व्स दिखाई, जो सुझाव देती हैं कि तकनीक आर्किटेक्चर में स्केल करती है।

AI इकोनॉमिक्स के लिए यह क्यों महत्वपूर्ण है

उन्नत AI असिस्टेंट के पीछे के रीजनिंग-सक्षम मॉडल के लिए RL ट्रेनिंग को भारी कंप्यूट की आवश्यकता होती है। 48% स्पीडअप सीधे तौर पर इन सिस्टम को प्रशिक्षित करने वाले संगठनों के लिए कम GPU-घंटे और कम बिजली बिल में अनुवादित होता है।

इम्पोर्टेंस सैंपलिंग तकनीक जो एक्यूरेसी संरक्षण को सक्षम बनाती है, समान रूप से मूल्यवान साबित हो सकती है। प्रति-टोकन के आधार पर जेनरेशन और ट्रेनिंग मॉडल के बीच डिस्ट्रिब्यूशन मिसमैच को ठीक करके, यह मॉडल गुणवत्ता का त्याग किए बिना आक्रामक प्रिसिजन कमी की अनुमति देती है।

पूर्ण कार्यान्वयन NVIDIA की ओपन-सोर्स NeMo RL लाइब्रेरी में उपलब्ध है, Llama 3.1 8B और Moonlight 16B मॉडल के लिए पूर्व-कॉन्फ़िगर की गई रेसिपी के साथ। उन्नत उपयोगकर्ता दृष्टिकोण को फाइन-ट्यून कर सकते हैं—विशिष्ट ट्रांसफॉर्मर लेयर्स को BF16 में रखते हुए या अतिरिक्त ऑप्टिमाइजेशन के लिए पावर-ऑफ-2 स्केलिंग फैक्टर्स पर स्विच करते हुए।

मॉडल जटिलता के साथ कंप्यूट लागत बढ़ते देख रहे AI इंफ्रास्ट्रक्चर ऑपरेटरों के लिए, यह एक सार्थक दक्षता लीवर का प्रतिनिधित्व करता है जिसे हार्डवेयर अपग्रेड की आवश्यकता नहीं है—बस मौजूदा H100 क्षमताओं का स्मार्ट उपयोग।

Image source: Shutterstock
  • nvidia
  • ai training
  • fp8 precision
  • machine learning
  • nemo rl
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

MAGA अटॉर्नी जनरल ने सीनेट चुनाव गरमाने के बीच शपथ के तहत नैतिकता उल्लंघन की बात स्वीकार की: WSJ

MAGA अटॉर्नी जनरल ने सीनेट चुनाव गरमाने के बीच शपथ के तहत नैतिकता उल्लंघन की बात स्वीकार की: WSJ

वॉल स्ट्रीट जर्नल द्वारा प्राप्त नए अनसील किए गए बयान प्रतिलेखों से पता चला कि टेक्सास के अटॉर्नी जनरल केन पैक्सटन ने शपथ के तहत अटॉर्नी का उल्लंघन करने की बात स्वीकार की
शेयर करें
Rawstory2026/04/21 09:10
सेलर की रणनीति ने बिटकॉइन होल्डिंग्स को 815,000 BTC से अधिक बढ़ाया

सेलर की रणनीति ने बिटकॉइन होल्डिंग्स को 815,000 BTC से अधिक बढ़ाया

सेलर की रणनीति बिटकॉइन होल्डिंग्स को 815,000 BTC से आगे बढ़ाती है यह पोस्ट BitcoinEthereumNews.com पर प्रकाशित हुई। माइकल सेलर की Strategy, दुनिया की सबसे बड़ी सार्वजनिक Bitcoin
शेयर करें
BitcoinEthereumNews2026/04/21 08:48
मूल्य हेरफेर के दावों के बीच RAVE टोकन को 50% की और गिरावट का सामना

मूल्य हेरफेर के दावों के बीच RAVE टोकन को 50% की और गिरावट का सामना

RAVE Token Faces Another 50% Crash Amid Price Manipulation Claims पोस्ट BitcoinEthereumNews.com पर प्रकाशित हुई। RavenDAO के RAVE टोकन ने अपने मूल्य का 98% से अधिक खो दिया
शेयर करें
BitcoinEthereumNews2026/04/21 09:33

24/7 लाइव न्यूज़

अधिक

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!