NVIDIA lance la surveillance NCCL en temps réel avec Prometheus
Lawrence Jengar 07 Mai 2026 16:39
NVIDIA introduit l'inspecteur NCCL en temps réel avec l'intégration de Prometheus, améliorant le débogage et la surveillance des charges de travail IA avec la visualisation Grafana.
NVIDIA a dévoilé une mise à niveau majeure de sa bibliothèque de communication collective (NCCL) avec l'introduction d'une surveillance des performances en temps réel via NCCL Inspector et l'intégration de Prometheus. Cette nouvelle fonctionnalité est conçue pour simplifier le débogage et optimiser la communication GPU à GPU — un composant essentiel dans l'apprentissage profond distribué et le calcul haute performance (HPC).
NCCL constitue l'épine dorsale de nombreuses charges de travail IA, permettant une communication efficace entre les GPU, que ce soit au sein d'une seule machine ou sur plusieurs nœuds. Cependant, l'identification des goulets d'étranglement dans les flux de travail d'entraînement a toujours été un défi. Avec la dernière mise à jour de NCCL Inspector, les utilisateurs peuvent désormais accéder à des données en direct sous forme de séries temporelles visualisées via les tableaux de bord Grafana, simplifiant ainsi le processus de diagnostic et de résolution des ralentissements de performance.
Mode Prometheus : un changement majeur pour la surveillance en temps réel
Le nouveau mode Prometheus élimine le besoin des fichiers JSON volumineux précédemment requis pour l'analyse hors ligne. À la place, les métriques de performance NCCL sont collectées par un Prometheus Node Exporter et stockées dans une base de données de séries temporelles, permettant des visualisations en temps réel. Ces métriques incluent des détails tels que la bande passante du bus, le temps d'exécution et la taille des messages, et sont catégorisées par contexte comme le périphérique GPU, le nœud et le type d'opération collective.
Par exemple, lors d'un grand travail de préentraînement IA, les utilisateurs peuvent surveiller la bande passante et les performances d'exécution sur des couches de communication mixtes comme NVLink et les interconnexions réseau. La capacité à corréler les données en direct avec les ralentissements observés fournit des informations exploitables pour le dépannage et l'optimisation des flux de travail.
Cas d'utilisation pratiques
L'inspecteur NCCL amélioré est particulièrement utile pour deux scénarios clés :
- Observabilité en direct : Les tableaux de bord en temps réel permettent aux utilisateurs d'identifier et de résoudre rapidement les anomalies de performance lors de tâches longues. NVIDIA a démontré cette capacité lors d'une expérience avec un grand modèle de langage, où des contraintes induites par le réseau ont réduit les performances de calcul de 13 %. Grâce aux données en direct, les ingénieurs ont isolé le problème à un goulet d'étranglement réseau, réduisant considérablement le temps de résolution.
- Attribution des performances : L'outil prend également en charge l'analyse post-mortem en corrélant les baisses de performance avec des périodes de temps spécifiques et les conditions réseau. Par exemple, des dégradations temporaires du débit lors d'une expérience ont été attribuées à des perturbations dans NVLink et la communication réseau.
Déploiement et prochaines étapes
La configuration de NCCL Inspector avec Prometheus nécessite la configuration des variables d'environnement et le déploiement du plugin de profilage. NVIDIA fournit une documentation détaillée sur sa page GitHub, incluant des modèles Grafana pour la personnalisation des tableaux de bord. Cette intégration devrait favoriser une adoption généralisée parmi les chercheurs en IA et les organisations souhaitant optimiser leurs charges de travail GPU.
L'évolution vers l'observabilité en temps réel s'aligne avec la complexité croissante des modèles d'IA et l'infrastructure nécessaire pour les entraîner. À mesure que les grands modèles de langage et d'autres charges de travail intensives en calcul augmentent en échelle, des outils comme NCCL Inspector seront essentiels pour garantir des performances efficaces et fiables.
Avec cette version, NVIDIA continue de consolider sa position de leader dans l'écosystème matériel et logiciel IA, en fournissant aux développeurs les outils nécessaires pour repousser les limites de l'apprentissage automatique et du HPC.
Source de l'image : Shutterstock- nvidia
- nccl
- ai
- prometheus
- grafana








