La mise à jour Ray Serve LLM d'Anyscale active la tolérance aux pannes du groupe DP pour les déploiements vLLM WideEP, réduisant le risque d'interruption pour les systèmes d'inférence IA distribués. (ReadLa mise à jour Ray Serve LLM d'Anyscale active la tolérance aux pannes du groupe DP pour les déploiements vLLM WideEP, réduisant le risque d'interruption pour les systèmes d'inférence IA distribués. (Read

Ray 2.55 ajoute la tolérance aux pannes pour les déploiements de modèles d'IA à grande échelle

2026/04/03 02:35
Temps de lecture : 4 min
Pour tout commentaire ou toute question concernant ce contenu, veuillez nous contacter à l'adresse suivante : crypto.news@mexc.com

Ray 2.55 ajoute la tolérance aux pannes pour les déploiements de modèles IA à grande échelle

Joerg Hiller 02 avril 2026 18h35

La mise à jour Ray Serve LLM d'Anyscale active la tolérance aux pannes des groupes DP pour les déploiements vLLM WideEP, réduisant les risques de temps d'arrêt pour les systèmes d'inférence IA distribués.

Ray 2.55 ajoute la tolérance aux pannes pour les déploiements de modèles IA à grande échelle

Anyscale a publié une mise à jour importante de son framework Ray Serve LLM qui répond à un défi opérationnel critique pour les organisations exécutant des charges de travail d'inférence IA à grande échelle. Ray 2.55 introduit la tolérance aux pannes des groupes de parallélisme de données (DP) pour les déploiements vLLM Wide Expert Parallelism - une fonctionnalité qui empêche les pannes de GPU individuels de mettre hors service des clusters entiers de serveurs de modèles.

La mise à jour cible un point sensible spécifique dans le service de modèles Mixture of Experts (MoE). Contrairement aux déploiements de modèles traditionnels où chaque réplique fonctionne indépendamment, les architectures MoE comme DeepSeek-V3 fragmentent les couches d'experts sur des groupes de GPU qui doivent travailler collectivement. Lorsqu'un GPU dans ces configurations tombe en panne, l'ensemble du groupe - pouvant couvrir de 16 à 128 GPU - devient non opérationnel.

Le problème technique

Les modèles MoE distribuent des réseaux neuronaux « experts » spécialisés sur plusieurs GPU. DeepSeek-V3, par exemple, contient 256 experts par couche mais n'active que 8 par jeton. Les jetons sont acheminés vers les GPU qui détiennent les experts nécessaires via des opérations de répartition et de combinaison qui exigent que tous les rangs participants soient en bonne santé.

Auparavant, la défaillance d'un seul rang romprait ces opérations collectives. Les requêtes continueraient à être acheminées vers les répliques survivantes du groupe affecté, mais chaque demande échouerait. La récupération nécessitait le redémarrage de l'ensemble du système.

Comment Ray résout le problème

Ray Serve LLM traite désormais chaque groupe DP comme une unité atomique grâce à la planification de groupe. Lorsqu'un rang échoue, le système marque l'ensemble du groupe comme défaillant, cesse d'y acheminer le trafic, démonte le groupe défaillant et le reconstruit en tant qu'unité. Les autres groupes sains continuent de servir les requêtes tout au long du processus.

La fonctionnalité est activée par défaut dans Ray 2.55. Les déploiements DP existants ne nécessitent aucune modification de code - le framework gère automatiquement les vérifications de santé au niveau du groupe, la planification et la récupération.

La mise à l'échelle automatique respecte également ces limites. Les opérations de montée en charge et de réduction se produisent par incréments de taille de groupe plutôt que par répliques individuelles, empêchant la création de groupes partiels qui ne peuvent pas servir de trafic.

Implications opérationnelles

La mise à jour crée une considération de conception importante : la largeur du groupe par rapport au nombre de groupes. Selon les benchmarks vLLM cités par Anyscale, le débit par GPU reste relativement stable pour des tailles parallèles d'experts de 32, 72 et 96. Cela signifie que les opérateurs peuvent s'orienter vers des groupes plus petits sans sacrifier l'efficacité - et des groupes plus petits signifient des rayons d'impact plus petits lorsque des pannes se produisent.

Anyscale note que cette résilience au niveau de l'orchestration complète le travail d'élasticité au niveau du moteur qui se déroule dans la communauté vLLM. Le RFC vLLM Elastic Expert Parallelism traite de la manière dont le runtime peut ajuster dynamiquement la topologie au sein d'un groupe, tandis que Ray Serve LLM gère les groupes qui existent et reçoivent du trafic.

Pour les organisations déployant des modèles de style DeepSeek à grande échelle, l'avantage pratique est simple : les pannes de GPU deviennent des incidents localisés plutôt que des pannes à l'échelle du système. Des exemples de code et des étapes de reproduction sont disponibles sur le dépôt GitHub d'Anyscale.

Source de l'image : Shutterstock
  • ray
  • vllm
  • infrastructure ia
  • apprentissage automatique
  • informatique distribuée
Opportunité de marché
Logo de Raydium
Cours Raydium(RAY)
$0,615
$0,615$0,615
-0,51%
USD
Graphique du prix de Raydium (RAY) en temps réel
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter crypto.news@mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.

Tradez du GOLD, partagez 1M USDT

Tradez du GOLD, partagez 1M USDTTradez du GOLD, partagez 1M USDT

0 frais, effet de levier 1 000x, liquidité profonde