Anyscale का Ray Serve LLM अपडेट vLLM WideEP डिप्लॉयमेंट के लिए DP ग्रुप फॉल्ट टॉलरेंस को सक्षम करता है, जो डिस्ट्रिब्यूटेड AI इंफरेंस सिस्टम के लिए डाउनटाइम जोखिम को कम करता है। (ReadAnyscale का Ray Serve LLM अपडेट vLLM WideEP डिप्लॉयमेंट के लिए DP ग्रुप फॉल्ट टॉलरेंस को सक्षम करता है, जो डिस्ट्रिब्यूटेड AI इंफरेंस सिस्टम के लिए डाउनटाइम जोखिम को कम करता है। (Read

Ray 2.55 बड़े पैमाने पर AI मॉडल तैनाती के लिए फॉल्ट टॉलरेंस जोड़ता है

2026/04/03 02:35
4 मिनट पढ़ें
इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें

Ray 2.55 बड़े पैमाने पर AI मॉडल डिप्लॉयमेंट के लिए फॉल्ट टॉलरेंस जोड़ता है

Joerg Hiller Apr 02, 2026 18:35

Anyscale का Ray Serve LLM अपडेट vLLM WideEP डिप्लॉयमेंट के लिए DP ग्रुप फॉल्ट टॉलरेंस सक्षम करता है, जो डिस्ट्रिब्यूटेड AI इंफरेंस सिस्टम के लिए डाउनटाइम जोखिम को कम करता है।

Ray 2.55 बड़े पैमाने पर AI मॉडल डिप्लॉयमेंट के लिए फॉल्ट टॉलरेंस जोड़ता है

Anyscale ने अपने Ray Serve LLM फ्रेमवर्क के लिए एक महत्वपूर्ण अपडेट जारी किया है जो बड़े पैमाने पर AI इंफरेंस वर्कलोड चलाने वाले संगठनों के लिए एक महत्वपूर्ण परिचालन चुनौती को संबोधित करता है। Ray 2.55 vLLM Wide Expert Parallelism डिप्लॉयमेंट के लिए डेटा पैरेलल (DP) ग्रुप फॉल्ट टॉलरेंस पेश करता है—एक फीचर जो एकल GPU विफलताओं को पूरे मॉडल सर्विंग क्लस्टर को बंद करने से रोकता है।

यह अपडेट Mixture of Experts (MoE) मॉडल सर्विंग में एक विशिष्ट समस्या को लक्षित करता है। पारंपरिक मॉडल डिप्लॉयमेंट के विपरीत जहां प्रत्येक रेप्लिका स्वतंत्र रूप से काम करता है, DeepSeek-V3 जैसी MoE आर्किटेक्चर एक्सपर्ट लेयर्स को GPU के समूहों में शार्ड करती हैं जिन्हें सामूहिक रूप से काम करना चाहिए। जब इन कॉन्फ़िगरेशन में एक GPU विफल होता है, तो पूरा समूह—संभावित रूप से 16 से 128 GPUs तक फैला हुआ—गैर-परिचालित हो जाता है।

तकनीकी समस्या

MoE मॉडल विशेष "एक्सपर्ट" न्यूरल नेटवर्क को कई GPUs में वितरित करते हैं। उदाहरण के लिए, DeepSeek-V3 में प्रति लेयर 256 एक्सपर्ट होते हैं लेकिन प्रति टोकन केवल 8 को सक्रिय करता है। टोकन को उन GPUs पर रूट किया जाता है जो आवश्यक एक्सपर्ट को डिस्पैच और कंबाइन ऑपरेशन के माध्यम से रखते हैं जिसमें सभी भाग लेने वाले रैंक को स्वस्थ होना आवश्यक है।

पहले, एक रैंक विफलता इन सामूहिक ऑपरेशन को तोड़ देती थी। क्वेरी प्रभावित समूह में जीवित रेप्लिका को रूट करना जारी रखतीं, लेकिन हर अनुरोध विफल हो जाता था। रिकवरी के लिए पूरे सिस्टम को पुनरारंभ करना आवश्यक था।

Ray इसे कैसे हल करता है

Ray Serve LLM अब गैंग शेड्यूलिंग के माध्यम से प्रत्येक DP ग्रुप को एक परमाणु इकाई के रूप में मानता है। जब एक रैंक विफल होता है, तो सिस्टम पूरे समूह को अस्वस्थ चिह्नित करता है, उस पर ट्रैफ़िक रूटिंग बंद कर देता है, विफल समूह को नष्ट कर देता है, और इसे एक इकाई के रूप में पुनर्निर्माण करता है। अन्य स्वस्थ समूह पूरे समय अनुरोध सेवा करना जारी रखते हैं।

यह फीचर Ray 2.55 में डिफ़ॉल्ट रूप से सक्षम आता है। मौजूदा DP डिप्लॉयमेंट को कोड परिवर्तन की आवश्यकता नहीं है—फ्रेमवर्क स्वचालित रूप से ग्रुप-स्तर हेल्थ चेक, शेड्यूलिंग और रिकवरी को संभालता है।

ऑटोस्केलिंग भी इन सीमाओं का सम्मान करती है। स्केल-अप और स्केल-डाउन ऑपरेशन व्यक्तिगत रेप्लिका के बजाय ग्रुप-आकार की वृद्धि में होते हैं, आंशिक समूहों के निर्माण को रोकते हैं जो ट्रैफ़िक सेवा नहीं कर सकते।

परिचालन निहितार्थ

यह अपडेट एक महत्वपूर्ण डिज़ाइन विचार बनाता है: ग्रुप चौड़ाई बनाम समूहों की संख्या। Anyscale द्वारा उद्धृत vLLM बेंचमार्क के अनुसार, प्रति GPU थ्रूपुट 32, 72, और 96 के एक्सपर्ट पैरेलल आकारों में अपेक्षाकृत स्थिर रहता है। इसका मतलब है कि ऑपरेटर दक्षता का त्याग किए बिना छोटे समूहों की ओर ट्यून कर सकते हैं—और छोटे समूहों का मतलब है विफलताओं के समय छोटे ब्लास्ट रेडियाई।

Anyscale नोट करता है कि यह ऑर्केस्ट्रेशन-स्तर की लचीलापन vLLM समुदाय में हो रहे इंजन-स्तर की लोच कार्य को पूरक करती है। vLLM Elastic Expert Parallelism RFC संबोधित करता है कि रनटाइम एक समूह के भीतर टोपोलॉजी को गतिशील रूप से कैसे समायोजित कर सकता है, जबकि Ray Serve LLM प्रबंधित करता है कि कौन से समूह मौजूद हैं और ट्रैफ़िक प्राप्त करते हैं।

बड़े पैमाने पर DeepSeek-शैली के मॉडल तैनात करने वाले संगठनों के लिए, व्यावहारिक लाभ सीधा है: GPU विफलताएं सिस्टम-व्यापी आउटेज के बजाय स्थानीयकृत घटनाएं बन जाती हैं। कोड नमूने और पुनरुत्पादन चरण Anyscale के GitHub रिपॉजिटरी पर उपलब्ध हैं।

छवि स्रोत: Shutterstock
  • ray
  • vllm
  • ai infrastructure
  • machine learning
  • distributed computing
मार्केट अवसर
Raydium लोगो
Raydium मूल्य(RAY)
$0.6596
$0.6596$0.6596
+6.69%
USD
Raydium (RAY) मूल्य का लाइव चार्ट
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

ईरान का सबसे बड़ा पुल संकट के बीच ढह गया

ईरान का सबसे बड़ा पुल संकट के बीच ढह गया

बिटकॉइनएथेरियमन्यूज.कॉम पर ईरान का सबसे बड़ा पुल संकट के बीच गिरने की पोस्ट प्रकाशित हुई। ईरान का सबसे बड़ा पुल 2 अप्रैल, 2026 को जलडमरूमध्य के दौरान गिर गया
शेयर करें
BitcoinEthereumNews2026/04/03 06:36
XAG/USD $71.00 से नीचे गिरा क्योंकि US डॉलर का प्रभुत्व तेज हुआ

XAG/USD $71.00 से नीचे गिरा क्योंकि US डॉलर का प्रभुत्व तेज हुआ

पोस्ट XAG/USD $71.00 से नीचे गिरता है क्योंकि US डॉलर का प्रभुत्व बढ़ता है BitcoinEthereumNews.com पर प्रकाशित हुई। सिल्वर प्राइस फोरकास्ट: XAG/USD $71.00 से नीचे गिरता है
शेयर करें
BitcoinEthereumNews2026/04/03 05:51
ट्रंप अधिकारी राष्ट्रपति की तुलना जो बिडेन से करते हैं

ट्रंप अधिकारी राष्ट्रपति की तुलना जो बिडेन से करते हैं

राष्ट्रपति डोनाल्ड ट्रंप ने बुधवार को ईरान युद्ध पर 19 मिनट का प्रमुख समय संबोधन दिया, जिसमें दावा किया गया कि सैन्य उद्देश्य "जल्द ही, बहुत जल्द" पूरे हो जाएंगे
शेयर करें
Rawstory2026/04/03 05:50

24/7 लाइव न्यूज़

अधिक

Trade GOLD, Share 1,000,000 USDT

Trade GOLD, Share 1,000,000 USDTTrade GOLD, Share 1,000,000 USDT

0 fees, up to 1,000x leverage, deep liquidity