NVIDIA NeMo RL досягає прискорення на 48% завдяки наскрізному навчанню з точністю FP8

Jessie A Ellis 23:41, 20 квітня 2026

Новий рецепт FP8 від NVIDIA для навчання з підкріпленням забезпечує на 48% швидше навчання при збереженні точності BF16, значно скорочуючи витрати на інфраструктуру ШІ.

NVIDIA NeMo RL досягає прискорення на 48% завдяки наскрізному навчанню з точністю FP8

NVIDIA випустила комплексний рецепт точності FP8 для навчання з підкріпленням, який забезпечує до 48% швидшу пропускну здатність навчання, зберігаючи паритет точності з традиційними підходами BF16 — розробка зі значними наслідками для витрат на інфраструктуру ШІ та економіки обчислень GPU.

Техніка, детально описана в технічному блозі Guyue Huang з NVIDIA, вирішує одну з найскладніших проблем навчання з підкріпленням: числову невідповідність між фазами генерації та навчання при використанні різних рівнів точності в окремих двигунах.

Технічний прорив

Традиційні конвеєри навчання з підкріпленням використовують vLLM для розгортань і Megatron Core для навчання — кожен з унікальними ядрами CUDA, які вносять кумулятивні числові відмінності. Ці розбіжності посилюються при нижчих рівнях точності, історично обмежуючи впровадження FP8.

Рішення NVIDIA? Застосовувати FP8 послідовно як для генерації, так і для навчання, а не змішувати рівні точності. Тестування на Llama 3.1 8B Instruct показало точність валідації 0,613 з наскрізним FP8 проти 0,616 для BF16 — фактично закриваючи розрив. Тим часом використання FP8 тільки для генерації знизило точність до 0,586.

Рецепт використовує поблочно квантований FP8 (формат E4M3) з гранулярністю 128x128 для ваг і 1x128 для активацій. Лінійні шари виконують математику FP8 з 2-кратною теоретичною піковою пропускною здатністю проти BF16, тоді як увага, нормалізація та нелінійні функції залишаються в BF16.

Реальні покращення продуктивності

Лише для лінійних шарів рецепт FP8 забезпечує стабільне покращення пропускної здатності на 15-25%. Розрив між теоретичним 2-кратним прискоренням і фактичними досягненнями пов'язаний з тим, що шари уваги залишаються в BF16 плюс накладні витрати ядра квантування.

Розширення FP8 на операції KV кешу та уваги підвищує загальне прискорення приблизно до 48% порівняно з базовими показниками BF16. Особливість: постійно оновлювані ваги політики навчання з підкріпленням вимагають динамічної перекалібровки шкал квантування після кожного кроку навчання. Підхід NVIDIA додає приблизно 2-3% накладних витрат на цю перекалібровку — незначна ціна за істотне прискорення.

Тестування на Qwen3-30B (модель mixture-of-experts) показало відповідність кривих точності між конфігураціями FP8 і BF16, що свідчить про масштабованість техніки в різних архітектурах.

Чому це важливо для економіки ШІ

Навчання з підкріпленням для моделей з можливостями міркування, таких як ті, що стоять за розширеними ШІ-асистентами, вимагає масивних обчислень. Прискорення на 48% безпосередньо трансформується в скорочені GPU-години та нижчі рахунки за електроенергію для організацій, що навчають ці системи.

Техніка важливісного вибору, яка забезпечує збереження точності, може виявитися рівноцінно цінною. Виправляючи невідповідності розподілу між моделями генерації та навчання на рівні окремих токенів, вона дозволяє агресивне зниження точності без шкоди якості моделі.

Повна реалізація доступна в відкритій бібліотеці NeMo RL від NVIDIA з попередньо налаштованими рецептами для моделей Llama 3.1 8B і Moonlight 16B. Досвідчені користувачі можуть точно налаштувати підхід — зберігаючи окремі шари трансформера в BF16 або переключаючись на коефіцієнти масштабування в степенях 2 для додаткової оптимізації.

Для операторів інфраструктури ШІ, які спостерігають зростання витрат на обчислення разом із складністю моделей, це представляє значущий важіль ефективності, який не вимагає оновлення обладнання — лише розумніше використання існуючих можливостей H100.

Джерело зображення: Shutterstock

nvidia
навчання ШІ
точність fp8
машинне навчання
nemo rl

NVIDIA NeMo RL досягає прискорення на 48% завдяки наскрізному навчанню з точністю FP8

NVIDIA NeMo RL досягає прискорення на 48% завдяки наскрізному навчанню з точністю FP8

Технічний прорив

Реальні покращення продуктивності

Чому це важливо для економіки ШІ

Вам також може сподобатися

Токен RAVE зазнає ще одного падіння на 50% на тлі звинувачень у маніпуляції ціною

Попередження про північне сяйво: ці 24 штати можуть побачити аврору сьогодні ввечері

Звільнення Гегсетом армійського генерала під час війни з Іраном викликало занепокоєння в Білому домі

Популярні новини

Bitmine купує 101 тис. ETH, наближається до мети в 5% пропозиції

Ripple встановлює ціль на 2028 рік для підготовки XRP Ledger до квантових загроз

Revolut відкладає IPO до 2028 року після отримання банківської ліцензії Великобританії

Генеральний прокурор MAGA визнав під присягою порушення етики на тлі загострення гонки до Сенату: WSJ

Стратегія Saylor збільшує Bitcoin-активи понад 815,000 BTC

Новини в реальному часі 24/7

Ціни на криптовалюту