Tony Kim
23 грудня 2025 21:56
Character.ai розкриває інноваційні методи оптимізації масштабного попереднього навчання, зосереджуючись на таких техніках, як Squinch, динамічне обмеження та Gumbel Softmax, для підвищення ефективності навчання ШІ-моделей.
Character.ai, помітний гравець у сфері ШІ, нещодавно поділився інформацією про свої ранні зусилля з оптимізації масштабного навчання трансформерів. Компанія, яка згодом переорієнтувала свою увагу на основи моделей з відкритим кодом, спочатку досліджувала різні техніки для підвищення ефективності та швидкості навчання, згідно з блогом Character.AI.
Стиснення градієнта: Squinch
Однією з ключових інновацій, виділених у зусиллях Character.ai, є алгоритм стиснення градієнта, відомий як Squinch. Розроблена співзасновником Ноамом Шазіром, ця 6-бітна техніка стиснення була призначена для значного зменшення комунікаційної пропускної здатності під час розподіленого навчання при збереженні точності моделі. Алгоритм ефективно стискає градієнти до 6 біт на елемент, оптимізуючи використання пропускної здатності навчальних кластерів.
Точна регуляризація: Attention Z-Reg
Character.ai також розробила Attention Z-Reg, метод регуляризації, застосований до логітів уваги для забезпечення числової стабільності. Ця техніка допомагає підтримувати точність представлень bfloat16, що має вирішальне значення для оптимізації навчання великих моделей.
Стабільність квантування: динамічне обмеження
Динамічне обмеження є ще однією технікою, що використовується для підвищення стабільності квантування. Воно запобігає обваленню малих значень активації до нуля шляхом динамічного обчислення діапазону обмеження на основі середньоквадратичного значення вхідних ваг. Цей метод покращує стабільність навчання шляхом зменшення помилок квантування.
Ефективний API уваги: маска видимості
Впровадження маски видимості, інструменту для представлення міжтокенових відносин під час навчання та висновку, покращило ефективність навчальних систем. Цей API допомагає керувати діапазонами уваги в межах пакетів, підтримуючи древовидні зв'язки документів та двонаправлену увагу.
Оптимізація дистиляції: Gumbel Softmax
У сфері дистиляції моделей Character.ai використала техніку Gumbel Softmax для зменшення витрат на зберігання та пропускну здатність при збереженні точності моделей-вчителів. Цей підхід передбачає вибірку підмножин виходів моделі-вчителя, зберігаючи м'які цільові значення для більш ефективного навчання моделі-учня.
Зусилля Character.ai з оптимізації попереднього навчання проклали шлях для більш ефективного навчання ШІ-моделей, навіть коли компанія переходить до посттренінгового навчання з підкріпленням для моделей з відкритим кодом. Ці техніки, включаючи Squinch та Gumbel Softmax, підкреслюють прихильність компанії до просування ефективності та масштабованості ШІ.
Джерело зображення: Shutterstock
Джерело: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining


