Емітент стейблкоїну USDT компанія Tether оголосила про запуск того, що вона описує як перший кросплатформний фреймворк для тонкого налаштування LoRA, розроблений для моделей Microsoft BitNet, які базуються на 1-бітній архітектурі великих мовних моделей. Ця можливість інтегрована в систему QVAC Fabric і, як повідомляється, значно зменшує як використання пам'яті, так і обчислювальні потреби. За словами компанії, ця розробка дозволяє великомасштабним мовним моделям, включаючи ті, що мають мільярди параметрів, проходити тонке налаштування за допомогою широко доступного споживчого обладнання, такого як ноутбуки, стандартні графічні процесори та сучасні смартфони.
Розробка та обслуговування систем штучного інтелекту традиційно вимагали обладнання корпоративного рівня, зокрема спеціалізованої інфраструктури NVIDIA або хмарних середовищ. Ці вимоги сприяли високим операційним витратам, обмежуючи доступ до розширеної розробки ШІ переважно великим організаціям зі значними фінансовими ресурсами та доступом до спеціалізованих обчислювальних систем.
Tether заявила, що її велика мовна модель QVAC Fabric, посилена нещодавно представленим фреймворком на основі BitNet, усуває ці обмеження, підтримуючи кросплатформне тонке налаштування LoRA та прискорюючи інференцію на різноманітних споживчих GPU. Це включає обладнання від Intel, AMD та Apple Silicon, серед інших. Як результат, користувачі можуть навчати та налаштовувати моделі ШІ безпосередньо на загальнодоступних споживчих пристроях, а не покладатися на централізовану інфраструктуру.
Компанія повідомила, що її інженерна команда вперше успішно продемонструвала тонке налаштування BitNet на мобільних графічних процесорах, включаючи такі платформи, як Adreno, Mali та Apple Bionic GPU. Внутрішнє тестування показало, що модель BitNet з 125 мільйонами параметрів може бути точно налаштована приблизно за десять хвилин на пристрої Samsung S25, оснащеному GPU Adreno, використовуючи біомедичний набір даних, що складається приблизно з 300 документів або близько 18 000 токенів. Для моделі з 1 мільярдом параметрів той самий набір даних вимагав приблизно однієї години та вісімнадцяти хвилин на Samsung S25 і однієї години та сорока п'яти хвилин на iPhone 16. Компанія також повідомила, що змогла розширити тестування до моделей розміром до 13 мільярдів параметрів на iPhone 16 в умовах максимальної потужності пристрою.
Подальші висновки свідчать про те, що фреймворк може підтримувати тонке налаштування моделей до двох разів більшого розміру порівняно з подібними моделями, що не є BitNet, які працюють під квантизацією Q4 на периферійних пристроях. Цей результат пояснюється зменшеним обсягом пам'яті, пов'язаним з архітектурою BitNet.
На додаток до покращень у навчанні, фреймворк також демонструє покращену продуктивність інференції. Тести, проведені на мобільних пристроях, показали, що моделі BitNet працюють значно швидше при виконанні на GPU, з швидкістю обробки від двох до одинадцяти разів вищою, ніж виконання на основі CPU. Ці результати вказують на те, що мобільні GPU все більше здатні обробляти навантаження, які раніше вимагали спеціалізованого обладнання або ресурсів рівня дата-центру.
Система також показує значні переваги в ефективності використання пам'яті. Дані бенчмарків свідчать про те, що модель BitNet-1B з конфігурацією TQ1_0 вимагає до 77,8 відсотків менше VRAM порівняно з 16-бітною моделлю Gemma-3-1B і 65,6 відсотків менше, ніж 16-бітна модель Qwen3-0.6B під час процесів інференції та тонкого налаштування LoRA. Ці зменшення забезпечують додаткові можливості для запуску більших моделей та увімкнення персоналізованих функцій на обладнанні, яке раніше вважалося б недостатнім.
Tether далі зазначила, що фреймворк вперше вводить можливості тонкого налаштування LoRA для 1-бітних великих мовних моделей на обладнанні, що не є NVIDIA, розширюючи сумісність на платформи AMD, Intel, Apple Silicon та мобільні GPU. Зменшуючи залежність від спеціалізованої інфраструктури та хмарних обчислень, підхід дозволяє конфіденційним даним залишатися збереженими локально на пристроях користувачів. Компанія зазначила, що ця ефективність також може підтримувати розробку систем федеративного навчання, в яких моделі можуть навчатися спільно на розподілених пристроях, зберігаючи конфіденційність даних та мінімізуючи залежність від централізованих систем.
Публікація Tether запускає кросплатформний фреймворк BitNet LoRA, що дозволяє проводити навчання та інференцію ШІ з мільярдами параметрів на споживчих пристроях вперше з'явилася на Metaverse Post.


