NVIDIA เปิดตัวการติดตาม NCCL แบบเรียลไทม์ด้วย Prometheus

Lawrence Jengar 07 พฤษภาคม 2026 23:39

NVIDIA เปิดตัว NCCL Inspector แบบเรียลไทม์พร้อมการผสานรวม Prometheus เพิ่มประสิทธิภาพการดีบักและตรวจสอบ AI workload ด้วยการแสดงผล Grafana

NVIDIA เปิดตัวการติดตาม NCCL แบบเรียลไทม์ด้วย Prometheus

NVIDIA ได้เปิดเผยการอัปเกรดครั้งสำคัญของ Collective Communication Library (NCCL) ด้วยการนำเสนอการติดตามประสิทธิภาพแบบเรียลไทม์ผ่าน NCCL Inspector และการผสานรวม Prometheus ฟีเจอร์ใหม่นี้ออกแบบมาเพื่อปรับปรุงกระบวนการดีบักและเพิ่มประสิทธิภาพการสื่อสารระหว่าง GPU ซึ่งเป็นองค์ประกอบสำคัญในการเรียนรู้เชิงลึกแบบกระจายและการประมวลผลสมรรถนะสูง (HPC)

NCCL เป็นรากฐานของ AI workload จำนวนมาก ช่วยให้การสื่อสารระหว่าง GPU เป็นไปอย่างมีประสิทธิภาพ ไม่ว่าจะอยู่ในเครื่องเดียวกันหรือหลายโหนด อย่างไรก็ตาม การระบุจุดคอขวดในกระบวนการเทรนนิ่งเป็นความท้าทายมาโดยตลอด ด้วยการอัปเดต NCCL Inspector ล่าสุด ผู้ใช้สามารถเข้าถึงข้อมูล time-series แบบสดที่แสดงผลผ่าน Grafana dashboard ช่วยให้การวินิจฉัยและแก้ไขปัญหาด้านประสิทธิภาพง่ายขึ้น

Prometheus Mode: ตัวเปลี่ยนเกมสำหรับการติดตามแบบเรียลไทม์

Prometheus Mode ใหม่ช่วยลดความจำเป็นในการใช้ไฟล์ JSON ที่ใช้พื้นที่จัดเก็บมากซึ่งเดิมต้องใช้สำหรับการวิเคราะห์แบบออฟไลน์ แต่เปลี่ยนมาเก็บเมตริกประสิทธิภาพ NCCL โดย Prometheus Node Exporter และจัดเก็บในฐานข้อมูล time-series ช่วยให้แสดงผลแบบเรียลไทม์ได้ เมตริกเหล่านี้รวมถึงรายละเอียดต่างๆ เช่น ความกว้างแบนด์ของบัส เวลาประมวลผล และขนาดข้อความ และจัดหมวดหมู่ตามบริบท เช่น อุปกรณ์ GPU โหนด และประเภทการดำเนินการแบบ collective

ตัวอย่างเช่น ในระหว่างงาน AI pretraining ขนาดใหญ่ ผู้ใช้สามารถติดตามความกว้างแบนด์และประสิทธิภาพการประมวลผลในชั้นการสื่อสารแบบผสมอย่าง NVLink และการเชื่อมต่อเครือข่าย ความสามารถในการเชื่อมโยงข้อมูลสดกับการชะลอตัวที่สังเกตได้ช่วยให้มีข้อมูลเชิงลึกที่นำไปปฏิบัติได้สำหรับการแก้ปัญหาและปรับปรุง workflow

กรณีการใช้งานจริง

NCCL Inspector ที่ปรับปรุงแล้วมีคุณค่าโดยเฉพาะในสองสถานการณ์หลัก:

การสังเกตการณ์แบบสด: dashboard แบบเรียลไทม์ช่วยให้ผู้ใช้ระบุและแก้ไขความผิดปกติด้านประสิทธิภาพได้อย่างรวดเร็วในระหว่างงานที่ใช้เวลานาน NVIDIA ได้สาธิตความสามารถนี้ในการทดลองกับโมเดลภาษาขนาดใหญ่ ซึ่งข้อจำกัดจากเครือข่ายทำให้ประสิทธิภาพการประมวลผลลดลง 13% ด้วยข้อมูลสด วิศวกรสามารถระบุปัญหาไปยังจุดคอขวดของเครือข่าย ช่วยลดเวลาในการแก้ปัญหาได้อย่างมาก
การระบุแหล่งที่มาของประสิทธิภาพ: เครื่องมือนี้ยังรองรับการวิเคราะห์ภายหลังโดยการเชื่อมโยงการลดลงของประสิทธิภาพกับช่วงเวลาและสภาพเครือข่ายที่เฉพาะเจาะจง ตัวอย่างเช่น การลดลงชั่วคราวของปริมาณงานในการทดลองถูกสืบย้อนไปยังการหยุดชะงักใน NVLink และการสื่อสารเครือข่าย

การติดตั้งใช้งานและขั้นตอนถัดไป

การตั้งค่า NCCL Inspector ด้วย Prometheus ต้องกำหนดค่าตัวแปรสภาพแวดล้อมและติดตั้ง profiler plugin NVIDIA ให้เอกสารรายละเอียดบนหน้า GitHub รวมถึงเทมเพลต Grafana สำหรับการปรับแต่ง dashboard การผสานรวมนี้คาดว่าจะผลักดันการนำไปใช้อย่างแพร่หลายในหมู่นักวิจัย AI และองค์กรที่มุ่งเพิ่มประสิทธิภาพ GPU workload

การมุ่งสู่การสังเกตการณ์แบบเรียลไทม์สอดคล้องกับความซับซ้อนที่เพิ่มขึ้นของโมเดล AI และโครงสร้างพื้นฐานที่จำเป็นสำหรับการเทรน เมื่อโมเดลภาษาขนาดใหญ่และ workload ที่ต้องการการประมวลผลสูงอื่นๆ เติบโตขึ้นในระดับ เครื่องมืออย่าง NCCL Inspector จะมีบทบาทสำคัญในการรับรองประสิทธิภาพที่มีประสิทธิผลและเชื่อถือได้

ด้วยการเปิดตัวนี้ NVIDIA ยังคงเสริมสร้างตำแหน่งของตนในฐานะผู้นำในระบบนิเวศฮาร์ดแวร์และซอฟต์แวร์ AI โดยมอบเครื่องมือที่นักพัฒนาต้องการเพื่อขยายขีดจำกัดของการเรียนรู้ของเครื่องและ HPC

แหล่งที่มาของภาพ: Shutterstock