Siaran Character.ai Dedahkan Teknik Cekap untuk Pralatihan Berskala Besar muncul di BitcoinEthereumNews.com. Tony Kim 23 Dis 2025 21:56 Character.aiSiaran Character.ai Dedahkan Teknik Cekap untuk Pralatihan Berskala Besar muncul di BitcoinEthereumNews.com. Tony Kim 23 Dis 2025 21:56 Character.ai

Character.ai 推出大规模预训练的高效技术



Tony Kim
23 Dis 2025 21:56

Character.ai mendedahkan kaedah inovatif untuk mengoptimumkan pralatihan berskala besar, memfokuskan kepada teknik seperti Squinch, dynamic clamping, dan Gumbel Softmax, untuk meningkatkan kecekapan dalam latihan model AI.

Character.ai, pemain terkenal dalam ruang AI, baru-baru ini berkongsi pandangan tentang usaha awalnya untuk mengoptimumkan latihan transformer berskala besar. Syarikat ini, yang kini telah mengalihkan fokusnya kepada asas model sumber terbuka, pada asalnya meneroka pelbagai teknik untuk meningkatkan kecekapan dan kelajuan latihan, menurut Blog Character.AI.

Mampatan Gradien: Squinch

Salah satu inovasi utama yang diserlahkan dalam usaha Character.ai ialah algoritma mampatan gradien yang dikenali sebagai Squinch. Dibangunkan oleh pengasas bersama Noam Shazeer, teknik mampatan 6-bit ini direka untuk mengurangkan lebar jalur komunikasi dengan ketara semasa latihan teragih sambil mengekalkan ketepatan model. Algoritma ini secara berkesan memampatkan gradien kepada 6 bit setiap elemen, mengoptimumkan penggunaan lebar jalur kluster latihan.

Pengaturan Ketepatan: Attention Z-Reg

Character.ai juga membangunkan Attention Z-Reg, kaedah pengaturan yang digunakan pada logit perhatian untuk memastikan kestabilan berangka. Teknik ini membantu mengekalkan ketepatan representasi bfloat16, yang penting untuk mengoptimumkan latihan model besar.

Kestabilan Kuantisasi: Dynamic Clamping

Dynamic Clamping adalah satu lagi teknik yang digunakan untuk meningkatkan kestabilan kuantisasi. Ia menghalang nilai pengaktifan kecil daripada runtuh kepada sifar dengan mengira julat clamping secara dinamik berdasarkan punca min kuasa dua berat input. Kaedah ini meningkatkan kestabilan latihan dengan mengurangkan ralat kuantisasi.

API Perhatian Cekap: Visibility Mask

Pengenalan Visibility Mask, alat untuk mewakili hubungan antara token semasa latihan dan inferens, telah meningkatkan kecekapan sistem latihan. API ini membantu mengurus julat perhatian dalam kumpulan, menyokong hubungan dokumen berstruktur pokok dan perhatian dua hala.

Pengoptimuman Penyulingan: Gumbel Softmax

Dalam bidang penyulingan model, Character.ai telah memanfaatkan teknik Gumbel Softmax untuk mengurangkan kos penyimpanan dan lebar jalur sambil mengekalkan kesetiaan model guru. Pendekatan ini melibatkan pensampelan subset output model guru, memelihara nilai sasaran lembut untuk latihan model pelajar yang lebih cekap.

Usaha Character.ai dalam mengoptimumkan pralatihan telah membuka jalan untuk latihan model AI yang lebih cekap, walaupun syarikat ini beralih ke pembelajaran pengukuhan pasca-latihan untuk model sumber terbuka. Teknik-teknik ini, termasuk Squinch dan Gumbel Softmax, menekankan komitmen syarikat untuk memajukan kecekapan dan kebolehskalaan AI.

Sumber imej: Shutterstock

Sumber: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

市场机遇
Sleepless AI 图标
Sleepless AI实时价格 (AI)
$0.03666
$0.03666$0.03666
+0.13%
USD
Sleepless AI (AI) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。