DeepSeek 一年前以低成本推理模型 R1 震撼業界，外界預期，R2 將在 2 月春節期間問世。DeepSeek 一年前以低成本推理模型 R1 震撼業界，外界預期，R2 將在 2 月春節期間問世。

DeepSeek 破解大模型訓練穩定性難題，梁文鋒署名論文為 R2 暖身？

來源：Inside

2026/01/03 16:39

閱讀時長 5 分鐘

如需對本內容提供反饋或相關疑問，請通過郵箱 crypto.news@mexc.com 聯絡我們。

中國 AI 新創 DeepSeek 發表最新研究論文，提出一種高效率的 AI 訓練新方法，僅需增加 6.7% 訓練時間就能大幅提升訓練穩定性，為其即將推出的旗艦模型 R2 暖身。

由創辦人梁文鋒率領的研究團隊，透過開放平台 arXiv 與 Hugging Face 公布名為「流形約束超連接」（Manifold-Constrained Hyper-Connections）的新框架，這項技術透過優化神經網路架構，在僅增加 6.7% 訓練時間的情況下大幅提升訓練穩定性，這在大型模型訓練中被視為非常低且可接受的代價。

這套方式不只能提供訓練穩定性。實驗顯示，在 27B 參數規模的模型上，相較傳統方法，這項技術在推理能力測試（BBH）中提升超過 7%，在數學推理（GSM8K）和閱讀理解（DROP）等基準測試中也都有 7% 左右的顯著進步。

更關鍵的是，論文實驗涵蓋 3B、9B 到 27B 參數的模型，證實這項技術在不同規模下都能保持優勢，顯示 DeepSeek 已為更大規模的 R2 模型做好技術準備。

外界預期，R2 將在 2 月春節期間問世。

中國持續撼動全球 AI 版圖

DeepSeek 一年前以低成本推理模型 R1 震撼業界，開發經費僅為矽谷對手零頭。彭博智庫分析師指出，R2 可能再次撼動全球 AI 版圖，儘管 Google Gemini 3 去年 11 月超車 OpenAI 躋身效能榜前三，中國低成本模型仍在前 15 強中佔 2 席。

更值得注意的是，在開放模型領域，來自中國的 AI 模型已經成為一股不可忽視的力量。截至 2025 年 9 月，Hugging Face 上 63% 的新微調或衍生模型是基於中國開發的基礎模型。其中，基於阿里巴巴模型的衍生模型數量甚至超過了 Google、Meta、Microsoft 和 OpenAI 衍生模型的總和。

晶片禁令下的逆勢成長

NVIDIA CEO 黃仁勳曾在 2023 年大肆批評美國政府的晶片政策，並預言中國將藉此機會培育本土 GPU 業者，如今中國「GPU 四小龍」正逐漸齊聚資本市場進入或完成 IPO 階段，百度旗下 AI 晶片子公司崑崙芯亦在近日提交赴港上市申請。

DeepSeek 的最新技術突破，再次證明「用更聰明的方式訓練」而非單純堆疊運算資源的策略，正在美國晶片禁令的限制下開出新局。

加入 INSIDE 會員，獨享 INSIDE 科技趨勢電子報，點擊立刻成為會員！

延伸閱讀：

中國 AI 開放模型逆襲！下載量超車美國，川普喊：「這是警鐘」
黃仁勳看中國晶片禁令影響：「中國會利用此機會培育本土 GPU 業者」
Meta 收購 Manus 案中國學者指存在技術出口合規風險

只要一分鐘，20 USDT 免費拿！

充值 $100，多拿 $300 GOLD 倉位！

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。