NVIDIA 推出結合 Prometheus 的即時 NCCL 監控功能

Lawrence Jengar 2026年5月7日 16:39（UTC +8）

NVIDIA 推出整合 Prometheus 的即時 NCCL Inspector，透過 Grafana 視覺化功能強化 AI 工作負載的除錯與監控。

NVIDIA 宣布對其集體通訊庫（NCCL）進行重大升級，透過 NCCL Inspector 與 Prometheus 整合引入即時效能監控功能。此新功能旨在簡化除錯流程並優化 GPU 對 GPU 的通訊——這是分散式深度學習與高效能運算（HPC）中的關鍵環節。

NCCL 是眾多 AI 工作負載的核心骨幹，無論是在單一機器內或跨多個節點，均能實現 GPU 之間的高效通訊。然而，識別訓練工作流程中的瓶頸歷來是一大挑戰。透過最新的 NCCL Inspector 更新，使用者現可存取經由 Grafana 儀表板視覺化呈現的即時時間序列資料，簡化效能瓶頸的診斷與處理流程。

Prometheus 模式：即時監控的重大突破

全新的 Prometheus 模式免除了先前離線分析所需的龐大 JSON 檔案儲存需求。NCCL 效能指標改由 Prometheus Node Exporter 收集並儲存於時間序列資料庫中，實現即時視覺化。這些指標涵蓋匯流排頻寬、執行時間及訊息大小等詳細資訊，並依 GPU 裝置、節點及集體操作類型等情境進行分類。

舉例而言，在大規模 AI 預訓練任務期間，使用者可監控跨 NVLink 與網路互連等混合通訊層的頻寬及執行效能。將即時資料與觀測到的效能降低相關聯的能力，為故障排除和工作流程優化提供可行的洞察。

實際應用場景

強化版 NCCL Inspector 對以下兩大關鍵場景尤具價值：

即時可觀測性：即時儀表板讓使用者能在長時間執行的任務中快速識別並處理效能異常。NVIDIA 在一項大型語言模型實驗中展示了此能力，其中網路引發的限制使運算效能降低了 13%。藉由即時資料，工程師將問題鎖定為網路瓶頸，大幅縮短了解決問題所需的時間。
效能歸因：此工具亦支援事後分析，透過將效能下降與特定時間段及網路狀況相關聯來找出原因。例如，實驗中出現的暫時性吞吐量降低被追溯至 NVLink 及網路通訊中斷。