中國 AI 新創 DeepSeek 發表最新研究論文,提出一種高效率的 AI 訓練新方法,僅需增加 6.7% 訓練時間就能大幅提升訓練穩定性,為其即將推出的旗艦模型 R2 暖身。
由創辦人梁文鋒率領的研究團隊,透過開放平台 arXiv 與 Hugging Face 公布名為「流形約束超連接」(Manifold-Constrained Hyper-Connections)的新框架,這項技術透過優化神經網路架構,在僅增加 6.7% 訓練時間的情況下大幅提升訓練穩定性,這在大型模型訓練中被視為非常低且可接受的代價。
這套方式不只能提供訓練穩定性。實驗顯示,在 27B 參數規模的模型上,相較傳統方法,這項技術在推理能力測試(BBH)中提升超過 7%,在數學推理(GSM8K)和閱讀理解(DROP)等基準測試中也都有 7% 左右的顯著進步。
更關鍵的是,論文實驗涵蓋 3B、9B 到 27B 參數的模型,證實這項技術在不同規模下都能保持優勢,顯示 DeepSeek 已為更大規模的 R2 模型做好技術準備。
外界預期,R2 將在 2 月春節期間問世。
DeepSeek 一年前以低成本推理模型 R1 震撼業界,開發經費僅為矽谷對手零頭。彭博智庫分析師指出,R2 可能再次撼動全球 AI 版圖,儘管 Google Gemini 3 去年 11 月超車 OpenAI 躋身效能榜前三,中國低成本模型仍在前 15 強中佔 2 席。
更值得注意的是,在開放模型領域,來自中國的 AI 模型已經成為一股不可忽視的力量。截至 2025 年 9 月,Hugging Face 上 63% 的新微調或衍生模型是基於中國開發的基礎模型。其中,基於阿里巴巴模型的衍生模型數量甚至超過了 Google、Meta、Microsoft 和 OpenAI 衍生模型的總和。
NVIDIA CEO 黃仁勳曾在 2023 年大肆批評美國政府的晶片政策,並預言中國將藉此機會培育本土 GPU 業者,如今中國「GPU 四小龍」正逐漸齊聚資本市場進入或完成 IPO 階段,百度旗下 AI 晶片子公司崑崙芯亦在近日提交赴港上市申請。
DeepSeek 的最新技術突破,再次證明「用更聰明的方式訓練」而非單純堆疊運算資源的策略,正在美國晶片禁令的限制下開出新局。
加入 INSIDE 會員,獨享 INSIDE 科技趨勢電子報,點擊立刻成為會員!
延伸閱讀:
中國 AI 開放模型逆襲!下載量超車美國,川普喊:「這是警鐘」
黃仁勳看中國晶片禁令影響:「中國會利用此機會培育本土 GPU 業者」
Meta 收購 Manus 案 中國學者指存在技術出口合規風險


