Публікація Character.ai представляє ефективні техніки для масштабного попереднього навчання з'явилася на BitcoinEthereumNews.com. Tony Kim 23 грудня 2025 21:56 Character.aiПублікація Character.ai представляє ефективні техніки для масштабного попереднього навчання з'явилася на BitcoinEthereumNews.com. Tony Kim 23 грудня 2025 21:56 Character.ai

Character.ai представляє ефективні методи для масштабного попереднього навчання



Tony Kim
23 грудня 2025 21:56

Character.ai розкриває інноваційні методи оптимізації масштабного попереднього навчання, зосереджуючись на таких техніках, як Squinch, динамічне обмеження та Gumbel Softmax, для підвищення ефективності навчання ШІ-моделей.

Character.ai, помітний гравець у сфері ШІ, нещодавно поділився інформацією про свої ранні зусилля з оптимізації масштабного навчання трансформерів. Компанія, яка згодом переорієнтувала свою увагу на основи моделей з відкритим кодом, спочатку досліджувала різні техніки для підвищення ефективності та швидкості навчання, згідно з блогом Character.AI.

Стиснення градієнта: Squinch

Однією з ключових інновацій, виділених у зусиллях Character.ai, є алгоритм стиснення градієнта, відомий як Squinch. Розроблена співзасновником Ноамом Шазіром, ця 6-бітна техніка стиснення була призначена для значного зменшення комунікаційної пропускної здатності під час розподіленого навчання при збереженні точності моделі. Алгоритм ефективно стискає градієнти до 6 біт на елемент, оптимізуючи використання пропускної здатності навчальних кластерів.

Точна регуляризація: Attention Z-Reg

Character.ai також розробила Attention Z-Reg, метод регуляризації, застосований до логітів уваги для забезпечення числової стабільності. Ця техніка допомагає підтримувати точність представлень bfloat16, що має вирішальне значення для оптимізації навчання великих моделей.

Стабільність квантування: динамічне обмеження

Динамічне обмеження є ще однією технікою, що використовується для підвищення стабільності квантування. Воно запобігає обваленню малих значень активації до нуля шляхом динамічного обчислення діапазону обмеження на основі середньоквадратичного значення вхідних ваг. Цей метод покращує стабільність навчання шляхом зменшення помилок квантування.

Ефективний API уваги: маска видимості

Впровадження маски видимості, інструменту для представлення міжтокенових відносин під час навчання та висновку, покращило ефективність навчальних систем. Цей API допомагає керувати діапазонами уваги в межах пакетів, підтримуючи древовидні зв'язки документів та двонаправлену увагу.

Оптимізація дистиляції: Gumbel Softmax

У сфері дистиляції моделей Character.ai використала техніку Gumbel Softmax для зменшення витрат на зберігання та пропускну здатність при збереженні точності моделей-вчителів. Цей підхід передбачає вибірку підмножин виходів моделі-вчителя, зберігаючи м'які цільові значення для більш ефективного навчання моделі-учня.

Зусилля Character.ai з оптимізації попереднього навчання проклали шлях для більш ефективного навчання ШІ-моделей, навіть коли компанія переходить до посттренінгового навчання з підкріпленням для моделей з відкритим кодом. Ці техніки, включаючи Squinch та Gumbel Softmax, підкреслюють прихильність компанії до просування ефективності та масштабованості ШІ.

Джерело зображення: Shutterstock

Джерело: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Ринкові можливості
Логотип Sleepless AI
Курс Sleepless AI (AI)
$0.03701
$0.03701$0.03701
+1.09%
USD
Графік ціни Sleepless AI (AI) в реальному часі
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою service@support.mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.