Anyscale’i Ray Serve LLM-i värskendus võimaldab DP-grupi vigade talumist vLLM WideEP-deploymentside jaoks, vähendades seega jaotatud AI-inference süsteemide katkestuste riski. (LoeAnyscale’i Ray Serve LLM-i värskendus võimaldab DP-grupi vigade talumist vLLM WideEP-deploymentside jaoks, vähendades seega jaotatud AI-inference süsteemide katkestuste riski. (Loe

Ray 2.55 lisab suurte ulatuses AI mudelite kasutuselevõtu vigade taluvuse

2026/04/03 02:35
3 minutiline lugemine
Selle sisu kohta tagasiside või murede korral võtke meiega ühendust aadressil crypto.news@mexc.com

Ray 2.55 lisab vigatetõrje suurte AI-mudelite juurutamisele

Joerg Hiller 02. aprill 2026, 18:35

Anyscale’i Ray Serve LLM uuendus võimaldab DP-gruppide vigatetõrjet vLLM WideEP-juurutustele, vähendades katkestuste riski jaotatud AI-inferentsisüsteemides.

Ray 2.55 lisab vigatetõrje suurte AI-mudelite juurutamisele

Anyscale on välja andnud olulise uuenduse oma Ray Serve LLM raamistikus, mis lahendab kriitilist toimimisprobleemi organisatsioonidele, kes käivitavad suurte ulatusega AI-inferentsi töökoormusi. Ray 2.55 tutvustab andmeparalleelse (DP) gruppide vigatetõrjet vLLM Wide Expert Parallelism’i juurutustele – funktsiooni, mis takistab üksiku GPU tõttu kogu mudelitarnimisklastrite väljalangemist.

Uuendus on suunatud konkreetsele valulikule punktile Mixture of Experts (MoE) mudelite tarnimisel. Traditsiooniliste mudelite juurutamisest erinevalt, kus iga koopia töötab sõltumatult, jagavad MoE arhitektuurid (nt DeepSeek-V3) ekspertkihte mitme GPU rühma vahel, millel peab koos töötama. Kui sellistes konfiguratsioonides üks GPU läheb katki, muutub terve rühm – potentsiaalselt 16–128 GPUst koosnev – töökindlamatuks.

Tehniline probleem

MoE mudelid jaotavad spetsialiseeritud „ekspert“-neuronvõrke mitme GPU vahel. Näiteks sisaldab DeepSeek-V3 igas kihis 256 eksperti, kuid aktiveerib iga tokeni kohta ainult 8. Tokenid suunatakse nende GPU-dele, kus asuvad vajalikud eksperdid, kasutades saatmis- ja kombineerimisoperatsioone, mille jaoks peavad kõik osalevad rangid olema terviklikud.

Varem lõpetas üksika ranga tõrge need kogumisoperatsioonid. Päringud jätkasid suunamist ellujäänud koopiatele mõjutatud grupis, kuid iga päring nurjus. Taastumiseks oli vaja taaskäivitada terve süsteem.

Kuidas Ray seda lahendab

Ray Serve LLM käsitleb nüüd iga DP-rühma aatomilisena gang scheduling’u kaudu. Kui üks rank läheb katki, märgib süsteem terve rühma terviklikkusetuks, peatab sellele liikluse suunamise, hävitab katkinud rühma ja taastab selle ühtse ühikuna. Teised terviklikud rühmad jätkavad päringute teenindamist ilma katkestuseta.

Funktsioon on Ray 2.55 versioonis vaikimisi lubatud. Olemasolevad DP-juurutused ei nõua mingit koodimuudatust – raamistik teeb automaatselt rühmataseme terviklikkuskontrollid, planeerimise ja taastumise.

Automaatne skaalavus austab ka neid piire. Skaala laiendamine ja kitsendamine toimub rühmade suuruses, mitte üksikute koopiate kaupa, et vältida osaliste rühmade loomist, mis ei suuda liiklust teenindada.

Toimimislikud tagajärjed

Uuendus teeb olulise disainiküsimuse: rühma laius vs rühmade arv. Anyscale’i viidatud vLLM benchmarke kohaselt jääb GPU kohta saavutatav läbilaskevõime suhteliselt stabiilseks ekspertparalleelsuse suurustel 32, 72 ja 96. See tähendab, et operaatorid saavad reguleerida väiksemate rühmade poole ilma efektiivsuse kaotamata – ja väiksemad rühmad tähendavad väiksemat „plahvatusringi“ tõrgete korral.

Anyscale märkis, et see orkestratsioonitaseme vastupidavus täiendab vLLM kogukonnas toimuvat mootoritaseme elastset tööd. vLLM Elastic Expert Parallelism RFC kirjeldab, kuidas käitusaja (runtime) saab dünaamiliselt kohandada topoloogiat rühma sees, samas kui Ray Serve LLM haldab, millised rühmad eksisteerivad ja kellele liiklus suunatakse.

Suuremahuliste DeepSeek-stiilsete mudelite juurutamisel annab praktikas lihtne eelis: GPU tõrked muutuvad lokaliseeritud juhtumiteks, mitte süsteemiüleseks katkestuseks. Koodinäited ja taastamise sammud on saadaval Anyscale’i GitHubi repositooriumis.

Pildi allikas: Shutterstock
  • ray
  • vllm
  • ai infrastructure
  • machine learning
  • distributed computing
Turuvõimalus
Raydium logo
Raydium hind(RAY)
$0.615
$0.615$0.615
-0.51%
USD
Raydium (RAY) reaalajas hinnagraafik
Lahtiütlus: Sellel saidil taasavaldatud artiklid pärinevad avalikelt platvormidelt ja on esitatud ainult informatiivsel eesmärgil. Need ei kajasta tingimata MEXC seisukohti. Kõik õigused jäävad algsetele autoritele. Kui arvate, et sisu rikub kolmandate isikute õigusi, võtke selle eemaldamiseks ühendust aadressil crypto.news@mexc.com. MEXC ei garanteeri sisu täpsust, täielikkust ega ajakohasust ega vastuta esitatud teabe põhjal võetud meetmete eest. Sisu ei ole finants-, õigus- ega muu professionaalne nõuanne ega seda tohiks pidada MEXC soovituseks ega toetuseks.

Trade GOLD, Share 1,000,000 USDT

Trade GOLD, Share 1,000,000 USDTTrade GOLD, Share 1,000,000 USDT

0 fees, up to 1,000x leverage, deep liquidity