Ray 2.55 बड़े पैमाने पर AI मॉडल डिप्लॉयमेंट के लिए फॉल्ट टॉलरेंस जोड़ता है
Joerg Hiller Apr 02, 2026 18:35
Anyscale का Ray Serve LLM अपडेट vLLM WideEP डिप्लॉयमेंट के लिए DP ग्रुप फॉल्ट टॉलरेंस सक्षम करता है, जो डिस्ट्रिब्यूटेड AI इंफरेंस सिस्टम के लिए डाउनटाइम जोखिम को कम करता है।
Anyscale ने अपने Ray Serve LLM फ्रेमवर्क के लिए एक महत्वपूर्ण अपडेट जारी किया है जो बड़े पैमाने पर AI इंफरेंस वर्कलोड चलाने वाले संगठनों के लिए एक महत्वपूर्ण परिचालन चुनौती को संबोधित करता है। Ray 2.55 vLLM Wide Expert Parallelism डिप्लॉयमेंट के लिए डेटा पैरेलल (DP) ग्रुप फॉल्ट टॉलरेंस पेश करता है—एक फीचर जो एकल GPU विफलताओं को पूरे मॉडल सर्विंग क्लस्टर को बंद करने से रोकता है।
यह अपडेट Mixture of Experts (MoE) मॉडल सर्विंग में एक विशिष्ट समस्या को लक्षित करता है। पारंपरिक मॉडल डिप्लॉयमेंट के विपरीत जहां प्रत्येक रेप्लिका स्वतंत्र रूप से काम करता है, DeepSeek-V3 जैसी MoE आर्किटेक्चर एक्सपर्ट लेयर्स को GPU के समूहों में शार्ड करती हैं जिन्हें सामूहिक रूप से काम करना चाहिए। जब इन कॉन्फ़िगरेशन में एक GPU विफल होता है, तो पूरा समूह—संभावित रूप से 16 से 128 GPUs तक फैला हुआ—गैर-परिचालित हो जाता है।
तकनीकी समस्या
MoE मॉडल विशेष "एक्सपर्ट" न्यूरल नेटवर्क को कई GPUs में वितरित करते हैं। उदाहरण के लिए, DeepSeek-V3 में प्रति लेयर 256 एक्सपर्ट होते हैं लेकिन प्रति टोकन केवल 8 को सक्रिय करता है। टोकन को उन GPUs पर रूट किया जाता है जो आवश्यक एक्सपर्ट को डिस्पैच और कंबाइन ऑपरेशन के माध्यम से रखते हैं जिसमें सभी भाग लेने वाले रैंक को स्वस्थ होना आवश्यक है।
पहले, एक रैंक विफलता इन सामूहिक ऑपरेशन को तोड़ देती थी। क्वेरी प्रभावित समूह में जीवित रेप्लिका को रूट करना जारी रखतीं, लेकिन हर अनुरोध विफल हो जाता था। रिकवरी के लिए पूरे सिस्टम को पुनरारंभ करना आवश्यक था।
Ray इसे कैसे हल करता है
Ray Serve LLM अब गैंग शेड्यूलिंग के माध्यम से प्रत्येक DP ग्रुप को एक परमाणु इकाई के रूप में मानता है। जब एक रैंक विफल होता है, तो सिस्टम पूरे समूह को अस्वस्थ चिह्नित करता है, उस पर ट्रैफ़िक रूटिंग बंद कर देता है, विफल समूह को नष्ट कर देता है, और इसे एक इकाई के रूप में पुनर्निर्माण करता है। अन्य स्वस्थ समूह पूरे समय अनुरोध सेवा करना जारी रखते हैं।
यह फीचर Ray 2.55 में डिफ़ॉल्ट रूप से सक्षम आता है। मौजूदा DP डिप्लॉयमेंट को कोड परिवर्तन की आवश्यकता नहीं है—फ्रेमवर्क स्वचालित रूप से ग्रुप-स्तर हेल्थ चेक, शेड्यूलिंग और रिकवरी को संभालता है।
ऑटोस्केलिंग भी इन सीमाओं का सम्मान करती है। स्केल-अप और स्केल-डाउन ऑपरेशन व्यक्तिगत रेप्लिका के बजाय ग्रुप-आकार की वृद्धि में होते हैं, आंशिक समूहों के निर्माण को रोकते हैं जो ट्रैफ़िक सेवा नहीं कर सकते।
परिचालन निहितार्थ
यह अपडेट एक महत्वपूर्ण डिज़ाइन विचार बनाता है: ग्रुप चौड़ाई बनाम समूहों की संख्या। Anyscale द्वारा उद्धृत vLLM बेंचमार्क के अनुसार, प्रति GPU थ्रूपुट 32, 72, और 96 के एक्सपर्ट पैरेलल आकारों में अपेक्षाकृत स्थिर रहता है। इसका मतलब है कि ऑपरेटर दक्षता का त्याग किए बिना छोटे समूहों की ओर ट्यून कर सकते हैं—और छोटे समूहों का मतलब है विफलताओं के समय छोटे ब्लास्ट रेडियाई।
Anyscale नोट करता है कि यह ऑर्केस्ट्रेशन-स्तर की लचीलापन vLLM समुदाय में हो रहे इंजन-स्तर की लोच कार्य को पूरक करती है। vLLM Elastic Expert Parallelism RFC संबोधित करता है कि रनटाइम एक समूह के भीतर टोपोलॉजी को गतिशील रूप से कैसे समायोजित कर सकता है, जबकि Ray Serve LLM प्रबंधित करता है कि कौन से समूह मौजूद हैं और ट्रैफ़िक प्राप्त करते हैं।
बड़े पैमाने पर DeepSeek-शैली के मॉडल तैनात करने वाले संगठनों के लिए, व्यावहारिक लाभ सीधा है: GPU विफलताएं सिस्टम-व्यापी आउटेज के बजाय स्थानीयकृत घटनाएं बन जाती हैं। कोड नमूने और पुनरुत्पादन चरण Anyscale के GitHub रिपॉजिटरी पर उपलब्ध हैं।
छवि स्रोत: Shutterstock- ray
- vllm
- ai infrastructure
- machine learning
- distributed computing







