Новий рецепт FP8 від NVIDIA для навчання з підкріпленням забезпечує на 48% швидше навчання при збереженні точності BF16, значно знижуючи витрати на AI-інфраструктуру. (ReadНовий рецепт FP8 від NVIDIA для навчання з підкріпленням забезпечує на 48% швидше навчання при збереженні точності BF16, значно знижуючи витрати на AI-інфраструктуру. (Read

NVIDIA NeMo RL досягає прискорення на 48% завдяки наскрізному навчанню з точністю FP8

2026/04/21 07:41
3 хв читання
Якщо у вас є відгуки або зауваження щодо цього контенту, будь ласка, зв’яжіться з нами за адресою crypto.news@mexc.com

NVIDIA NeMo RL досягає прискорення на 48% завдяки наскрізному навчанню з точністю FP8

Jessie A Ellis 23:41, 20 квітня 2026

Новий рецепт FP8 від NVIDIA для навчання з підкріпленням забезпечує на 48% швидше навчання при збереженні точності BF16, значно скорочуючи витрати на інфраструктуру ШІ.

NVIDIA NeMo RL досягає прискорення на 48% завдяки наскрізному навчанню з точністю FP8

NVIDIA випустила комплексний рецепт точності FP8 для навчання з підкріпленням, який забезпечує до 48% швидшу пропускну здатність навчання, зберігаючи паритет точності з традиційними підходами BF16 — розробка зі значними наслідками для витрат на інфраструктуру ШІ та економіки обчислень GPU.

Техніка, детально описана в технічному блозі Guyue Huang з NVIDIA, вирішує одну з найскладніших проблем навчання з підкріпленням: числову невідповідність між фазами генерації та навчання при використанні різних рівнів точності в окремих двигунах.

Технічний прорив

Традиційні конвеєри навчання з підкріпленням використовують vLLM для розгортань і Megatron Core для навчання — кожен з унікальними ядрами CUDA, які вносять кумулятивні числові відмінності. Ці розбіжності посилюються при нижчих рівнях точності, історично обмежуючи впровадження FP8.

Рішення NVIDIA? Застосовувати FP8 послідовно як для генерації, так і для навчання, а не змішувати рівні точності. Тестування на Llama 3.1 8B Instruct показало точність валідації 0,613 з наскрізним FP8 проти 0,616 для BF16 — фактично закриваючи розрив. Тим часом використання FP8 тільки для генерації знизило точність до 0,586.

Рецепт використовує поблочно квантований FP8 (формат E4M3) з гранулярністю 128x128 для ваг і 1x128 для активацій. Лінійні шари виконують математику FP8 з 2-кратною теоретичною піковою пропускною здатністю проти BF16, тоді як увага, нормалізація та нелінійні функції залишаються в BF16.

Реальні покращення продуктивності

Лише для лінійних шарів рецепт FP8 забезпечує стабільне покращення пропускної здатності на 15-25%. Розрив між теоретичним 2-кратним прискоренням і фактичними досягненнями пов'язаний з тим, що шари уваги залишаються в BF16 плюс накладні витрати ядра квантування.

Розширення FP8 на операції KV кешу та уваги підвищує загальне прискорення приблизно до 48% порівняно з базовими показниками BF16. Особливість: постійно оновлювані ваги політики навчання з підкріпленням вимагають динамічної перекалібровки шкал квантування після кожного кроку навчання. Підхід NVIDIA додає приблизно 2-3% накладних витрат на цю перекалібровку — незначна ціна за істотне прискорення.

Тестування на Qwen3-30B (модель mixture-of-experts) показало відповідність кривих точності між конфігураціями FP8 і BF16, що свідчить про масштабованість техніки в різних архітектурах.

Чому це важливо для економіки ШІ

Навчання з підкріпленням для моделей з можливостями міркування, таких як ті, що стоять за розширеними ШІ-асистентами, вимагає масивних обчислень. Прискорення на 48% безпосередньо трансформується в скорочені GPU-години та нижчі рахунки за електроенергію для організацій, що навчають ці системи.

Техніка важливісного вибору, яка забезпечує збереження точності, може виявитися рівноцінно цінною. Виправляючи невідповідності розподілу між моделями генерації та навчання на рівні окремих токенів, вона дозволяє агресивне зниження точності без шкоди якості моделі.

Повна реалізація доступна в відкритій бібліотеці NeMo RL від NVIDIA з попередньо налаштованими рецептами для моделей Llama 3.1 8B і Moonlight 16B. Досвідчені користувачі можуть точно налаштувати підхід — зберігаючи окремі шари трансформера в BF16 або переключаючись на коефіцієнти масштабування в степенях 2 для додаткової оптимізації.

Для операторів інфраструктури ШІ, які спостерігають зростання витрат на обчислення разом із складністю моделей, це представляє значущий важіль ефективності, який не вимагає оновлення обладнання — лише розумніше використання існуючих можливостей H100.

Джерело зображення: Shutterstock
  • nvidia
  • навчання ШІ
  • точність fp8
  • машинне навчання
  • nemo rl
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою crypto.news@mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися

Токен RAVE зазнає ще одного падіння на 50% на тлі звинувачень у маніпуляції ціною

Токен RAVE зазнає ще одного падіння на 50% на тлі звинувачень у маніпуляції ціною

Стаття про те, що токен RAVE зіткнувся з черговим обвалом на 50% на тлі звинувачень у маніпулюванні ціною, з'явилася на BitcoinEthereumNews.com. Токен RAVE від RavenDAO втратив понад 98% своєї вартості
Поділитись
BitcoinEthereumNews2026/04/21 09:33
Попередження про північне сяйво: ці 24 штати можуть побачити аврору сьогодні ввечері

Попередження про північне сяйво: ці 24 штати можуть побачити аврору сьогодні ввечері

Публікація Northern Lights Alert: These 24 States May See Aurora Tonight з'явилася на BitcoinEthereumNews.com. Головне спостерігачі північного сяйва у 24 штатах мають
Поділитись
BitcoinEthereumNews2026/04/21 08:53
Звільнення Гегсетом армійського генерала під час війни з Іраном викликало занепокоєння в Білому домі

Звільнення Гегсетом армійського генерала під час війни з Іраном викликало занепокоєння в Білому домі

Міністр оборони Піт Хегсет звільнив начальника штабу армії генерала Ренді Джорджа 2 квітня під час стислої телефонної розмови, яка тривала менше хвилини, не надавши жодних пояснень
Поділитись
Rawstory2026/04/21 09:52

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!