Character.ai 揭露大規模預訓練的高效技術

Tony Kim
2025年12月23日 21:56

Character.ai 揭示了優化大規模預訓練的創新方法,專注於 Squinch、動態鉗位和 Gumbel Softmax 等技術,以提升 AI 模型訓練的效率。

Character.ai 作為 AI 領域的重要參與者,最近分享了其早期優化大規模 Transformer 訓練的見解。根據 Character.AI 部落格,該公司現已將重心轉向開源模型基礎,最初探索了各種技術來提升訓練效率和速度。

梯度壓縮:Squinch

Character.ai 工作中重點介紹的關鍵創新之一是名為 Squinch 的梯度壓縮演算法。該 6 位元壓縮技術由聯合創始人 Noam Shazeer 開發,旨在顯著減少分散式訓練期間的通訊頻寬,同時維持模型準確性。該演算法有效地將梯度壓縮至每個元素 6 位元,優化了訓練叢集的頻寬使用。

Character.ai 還開發了 Attention Z-Reg,這是一種應用於注意力 logits 的正則化方法,以確保數值穩定性。該技術有助於維持 bfloat16 表示的精確度,這對於優化大型模型的訓練至關重要。

動態鉗位是另一種用於增強量化穩定性的技術。它透過基於輸入權重的均方根動態計算鉗位範圍,防止小的啟動值歸零。此方法透過減少量化誤差來提升訓練穩定性。

可見性遮罩的引入,這是一種在訓練和推理期間表示 token 間關係的工具,提升了訓練系統的效率。此 API 協助管理批次內的注意力範圍,支援樹狀結構的文件關係和雙向注意力。

在模型蒸餾領域,Character.ai 利用了 Gumbel Softmax 技術來降低儲存和頻寬成本,同時維持教師模型的保真度。此方法涉及對教師模型輸出的子集進行取樣,保留軟目標值以實現更高效的學生模型訓練。

Character.ai 在優化預訓練方面的努力為更高效的 AI 模型訓練鋪平了道路,即使該公司正在轉向開源模型的訓練後強化學習。這些技術,包括 Squinch 和 Gumbel Softmax,彰顯了該公司對推進 AI 效率和可擴展性的承諾。

圖片來源:Shutterstock

來源:https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining