Công thức FP8 mới của NVIDIA cho học tăng cường mang lại tốc độ huấn luyện nhanh hơn 48% trong khi vẫn đạt độ chính xác BF16, giảm đáng kể chi phí hạ tầng AI. (ĐọcCông thức FP8 mới của NVIDIA cho học tăng cường mang lại tốc độ huấn luyện nhanh hơn 48% trong khi vẫn đạt độ chính xác BF16, giảm đáng kể chi phí hạ tầng AI. (Đọc

NVIDIA NeMo RL Đạt Tốc Độ Nhanh Hơn 48% với Huấn Luyện Độ Chính Xác FP8 End-to-End

2026/04/21 07:41
Đọc trong 5 phút
Đối với phản hồi hoặc thắc mắc liên quan đến nội dung này, vui lòng liên hệ với chúng tôi qua crypto.news@mexc.com

NVIDIA NeMo RL đạt tốc độ nhanh hơn 48% với huấn luyện độ chính xác FP8 đầu cuối

Jessie A Ellis 23:41 20/04/2026 (Giờ VN)

Công thức FP8 mới của NVIDIA cho học tăng cường mang lại tốc độ huấn luyện nhanh hơn 48% trong khi duy trì độ chính xác tương đương BF16, cắt giảm đáng kể chi phí cơ sở hạ tầng AI.

NVIDIA NeMo RL đạt tốc độ nhanh hơn 48% với huấn luyện độ chính xác FP8 đầu cuối

NVIDIA đã phát hành công thức độ chính xác FP8 toàn diện cho học tăng cường mang lại thông lượng huấn luyện nhanh hơn tới 48% trong khi duy trì độ chính xác ngang bằng với các phương pháp BF16 truyền thống—một bước phát triển có ý nghĩa quan trọng đối với chi phí cơ sở hạ tầng AI và kinh tế tính toán GPU.

Kỹ thuật này, được trình bày chi tiết trong bài đăng blog kỹ thuật của Guyue Huang từ NVIDIA, giải quyết một trong những vấn đề khó khăn nhất của huấn luyện RL: sự không nhất quán số học giữa các giai đoạn tạo sinh và huấn luyện khi sử dụng các mức độ chính xác khác nhau trên các engine riêng biệt.

Đột phá kỹ thuật

Các pipeline RL truyền thống sử dụng vLLM cho rollouts và Megatron Core cho huấn luyện—mỗi loại có các CUDA kernel độc đáo tạo ra sự khác biệt số học tích lũy. Những sự chênh lệch này phóng đại ở các mức độ chính xác thấp hơn, lịch sử hạn chế việc áp dụng FP8.

Giải pháp của NVIDIA? Áp dụng FP8 nhất quán trên cả tạo sinh và huấn luyện thay vì trộn lẫn các mức độ chính xác. Kiểm tra trên Llama 3.1 8B Instruct cho thấy độ chính xác xác thực là 0.613 với FP8 đầu cuối so với 0.616 cho BF16—có hiệu quả thu hẹp khoảng cách. Trong khi đó, chỉ sử dụng FP8 cho tạo sinh làm giảm độ chính xác xuống 0.586.

Công thức sử dụng FP8 lượng tử hóa theo khối (định dạng E4M3) với độ chi tiết 128x128 cho trọng số và 1x128 cho kích hoạt. Các lớp tuyến tính chạy phép toán FP8 ở thông lượng đỉnh lý thuyết gấp 2 lần so với BF16, trong khi attention, normalization và các hàm phi tuyến tính vẫn ở BF16.

Tăng hiệu suất thực tế

Chỉ riêng cho các lớp tuyến tính, công thức FP8 mang lại cải thiện thông lượng ổn định 15-25%. Khoảng cách giữa tốc độ tăng lý thuyết gấp 2 lần và lợi ích thực tế đến từ các lớp attention vẫn ở BF16 cộng với overhead kernel lượng tử hóa.

Mở rộng FP8 sang KV cache và các hoạt động attention đẩy tổng tốc độ tăng lên khoảng 48% so với baseline BF16. Vấn đề: trọng số chính sách liên tục cập nhật của RL yêu cầu hiệu chuẩn lại động các thang đo lượng tử hóa sau mỗi bước huấn luyện. Phương pháp của NVIDIA thêm khoảng 2-3% overhead cho việc hiệu chuẩn lại này—một chi phí nhỏ cho gia tốc đáng kể.

Kiểm tra trên Qwen3-30B (một mô hình mixture-of-experts) cho thấy các đường cong độ chính xác khớp nhau giữa cấu hình FP8 và BF16, cho thấy kỹ thuật này mở rộng quy mô trên các kiến trúc.

Tại sao điều này quan trọng đối với kinh tế AI

Huấn luyện RL cho các mô hình có khả năng lập luận như những mô hình đằng sau các trợ lý AI nâng cao yêu cầu khả năng tính toán lớn. Tốc độ tăng 48% chuyển đổi trực tiếp thành giảm giờ GPU và hóa đơn tiền điện thấp hơn cho các tổ chức huấn luyện các hệ thống này.

Kỹ thuật importance sampling cho phép bảo toàn độ chính xác có thể chứng minh giá trị tương đương. Bằng cách điều chỉnh sự không khớp phân phối giữa các mô hình tạo sinh và huấn luyện trên cơ sở mỗi token, nó cho phép giảm độ chính xác mạnh mẽ mà không hy sinh chất lượng mô hình.

Triển khai đầy đủ có sẵn trong thư viện NeMo RL mã nguồn mở của NVIDIA, với các công thức được cấu hình sẵn cho các mô hình Llama 3.1 8B và Moonlight 16B. Người dùng nâng cao có thể tinh chỉnh phương pháp—giữ các lớp transformer cụ thể trong BF16 hoặc chuyển sang các hệ số tỷ lệ lũy thừa của 2 để tối ưu hóa bổ sung.

Đối với các nhà vận hành cơ sở hạ tầng AI đang theo dõi chi phí tính toán tăng cùng với độ phức tạp của mô hình, điều này đại diện cho một đòn bẩy hiệu quả có ý nghĩa không yêu cầu nâng cấp phần cứng—chỉ cần sử dụng thông minh hơn các khả năng H100 hiện có.

Nguồn hình ảnh: Shutterstock
  • nvidia
  • ai training
  • fp8 precision
  • machine learning
  • nemo rl
Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ crypto.news@mexc.com để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.

USD1 khởi nguồn: 0 phí + 12% APR

USD1 khởi nguồn: 0 phí + 12% APRUSD1 khởi nguồn: 0 phí + 12% APR

Người mới: Stake để nhận APR đến 600%. Có thời hạn!