DeepSeek 一年前以低成本推理模型 R1 震撼業界,外界預期,R2 將在 2 月春節期間問世。DeepSeek 一年前以低成本推理模型 R1 震撼業界,外界預期,R2 將在 2 月春節期間問世。

DeepSeek 破解大模型訓練穩定性難題,梁文鋒署名論文為 R2 暖身?

2026/01/03 16:39
閱讀時長 5 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

中國 AI 新創 DeepSeek 發表最新研究論文,提出一種高效率的 AI 訓練新方法,僅需增加 6.7% 訓練時間就能大幅提升訓練穩定性,為其即將推出的旗艦模型 R2 暖身。

由創辦人梁文鋒率領的研究團隊,透過開放平台 arXiv 與 Hugging Face 公布名為「流形約束超連接」(Manifold-Constrained Hyper-Connections)的新框架,這項技術透過優化神經網路架構,在僅增加 6.7% 訓練時間的情況下大幅提升訓練穩定性,這在大型模型訓練中被視為非常低且可接受的代價。

這套方式不只能提供訓練穩定性。實驗顯示,在 27B 參數規模的模型上,相較傳統方法,這項技術在推理能力測試(BBH)中提升超過 7%,在數學推理(GSM8K)和閱讀理解(DROP)等基準測試中也都有 7% 左右的顯著進步。

更關鍵的是,論文實驗涵蓋 3B、9B 到 27B 參數的模型,證實這項技術在不同規模下都能保持優勢,顯示 DeepSeek 已為更大規模的 R2 模型做好技術準備。

外界預期,R2 將在 2 月春節期間問世。

中國持續撼動全球 AI 版圖

DeepSeek 一年前以低成本推理模型 R1 震撼業界,開發經費僅為矽谷對手零頭。彭博智庫分析師指出,R2 可能再次撼動全球 AI 版圖,儘管 Google Gemini 3 去年 11 月超車 OpenAI 躋身效能榜前三,中國低成本模型仍在前 15 強中佔 2 席。

更值得注意的是,在開放模型領域,來自中國的 AI 模型已經成為一股不可忽視的力量。截至 2025 年 9 月,Hugging Face 上 63% 的新微調或衍生模型是基於中國開發的基礎模型。其中,基於阿里巴巴模型的衍生模型數量甚至超過了 Google、Meta、Microsoft 和 OpenAI 衍生模型的總和。

晶片禁令下的逆勢成長

NVIDIA CEO 黃仁勳曾在 2023 年大肆批評美國政府的晶片政策,並預言中國將藉此機會培育本土 GPU 業者,如今中國「GPU  四小龍」正逐漸齊聚資本市場進入或完成 IPO 階段,百度旗下 AI 晶片子公司崑崙芯亦在近日提交赴港上市申請。

DeepSeek 的最新技術突破,再次證明「用更聰明的方式訓練」而非單純堆疊運算資源的策略,正在美國晶片禁令的限制下開出新局。

加入 INSIDE 會員,獨享 INSIDE 科技趨勢電子報,點擊立刻成為會員

延伸閱讀:

  • 中國 AI 開放模型逆襲!下載量超車美國,川普喊:「這是警鐘」

  • 黃仁勳看中國晶片禁令影響:「中國會利用此機會培育本土 GPU 業者」

  • Meta 收購 Manus 案 中國學者指存在技術出口合規風險

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

USD1 Genesis:0 費率 + 12% APR

USD1 Genesis:0 費率 + 12% APRUSD1 Genesis:0 費率 + 12% APR

新用戶:質押最高享 600% APR。限時福利!