Ray 2.55 Voegt Fouttolerantie Toe voor Grootschalige AI-Modelimplementaties

Joerg Hiller 02 apr 2026 18:35

Anyscale's Ray Serve LLM-update maakt DP-groep fouttolerantie mogelijk voor vLLM WideEP-implementaties, waardoor het risico op downtime voor gedistribueerde AI-inferentiesystemen wordt verminderd.

Ray 2.55 Voegt Fouttolerantie Toe voor Grootschalige AI-Modelimplementaties

Anyscale heeft een belangrijke update uitgebracht voor zijn Ray Serve LLM-framework die een kritieke operationele uitdaging aanpakt voor organisaties die grootschalige AI-inferentiewerklasten draaien. Ray 2.55 introduceert data parallel (DP) groep fouttolerantie voor vLLM Wide Expert Parallelism-implementaties—een functie die voorkomt dat enkelvoudige GPU-storingen hele modelserveringsclusters platleggen.

De update richt zich op een specifiek pijnpunt in Mixture of Experts (MoE) modelservering. In tegenstelling tot traditionele modelimplementaties waarbij elke replica onafhankelijk werkt, verdelen MoE-architecturen zoals DeepSeek-V3 expertlagen over groepen GPU's die collectief moeten werken. Wanneer één GPU in deze configuraties faalt, wordt de hele groep—mogelijk 16 tot 128 GPU's omvattend—niet-operationeel.

Het Technische Probleem

MoE-modellen verdelen gespecialiseerde "expert" neurale netwerken over meerdere GPU's. DeepSeek-V3 bevat bijvoorbeeld 256 experts per laag maar activeert slechts 8 per token. Tokens worden doorgestuurd naar welke GPU's de benodigde experts bevatten via dispatch- en combine-operaties die vereisen dat alle deelnemende ranks gezond zijn.

Voorheen zou een enkele rank-storing deze collectieve operaties breken. Query's zouden blijven doorsturen naar overlevende replica's in de getroffen groep, maar elk verzoek zou mislukken. Herstel vereiste het opnieuw opstarten van het hele systeem.

Hoe Ray Het Oplost

Ray Serve LLM behandelt nu elke DP-groep als een atomaire eenheid via gang scheduling. Wanneer één rank faalt, markeert het systeem de hele groep als ongezond, stopt het doorsturen van verkeer ernaar, breekt de gefaalde groep af en herbouwt deze als een eenheid. Andere gezonde groepen blijven gedurende het hele proces verzoeken bedienen.

De functie wordt standaard ingeschakeld geleverd in Ray 2.55. Bestaande DP-implementaties vereisen geen codewijzigingen—het framework handelt groepsniveau gezondheidscontroles, planning en herstel automatisch af.

Automatisch schalen respecteert ook deze grenzen. Opschaal- en afschaaloperaties gebeuren in groepsgrootte-incrementen in plaats van individuele replica's, waardoor het maken van gedeeltelijke groepen die geen verkeer kunnen bedienen wordt voorkomen.

Operationele Implicaties

De update creëert een belangrijke ontwerpoverweging: groepsbreedte versus aantal groepen. Volgens vLLM-benchmarks geciteerd door Anyscale blijft de doorvoer per GPU relatief stabiel over expert parallelle groottes van 32, 72 en 96. Dit betekent dat operators kunnen afstemmen op kleinere groepen zonder efficiëntie op te offeren—en kleinere groepen betekenen kleinere schadestralen wanneer storingen optreden.

Anyscale merkt op dat deze orchestratieniveau-veerkracht het elasticiteitswerk op engine-niveau in de vLLM-gemeenschap aanvult. De vLLM Elastic Expert Parallelism RFC behandelt hoe runtime dynamisch de topologie binnen een groep kan aanpassen, terwijl Ray Serve LLM beheert welke groepen bestaan en verkeer ontvangen.

Voor organisaties die DeepSeek-stijl modellen op schaal implementeren, is het praktische voordeel duidelijk: GPU-storingen worden gelokaliseerde incidenten in plaats van systeembrede uitval. Codevoorbeelden en reproductiestappen zijn beschikbaar op Anyscale's GitHub-repository.

Afbeeldingsbron: Shutterstock