DeepSeek 宣布新一代 V4 模型將全面採用國產晶片方案,不再依賴輝達 GPU。從中興事件到三輪晶片禁令,中國 AI 產業正以演算法優化、國產替代和 Token 出海三條路線同步突圍。 (前情提要:老高談 DeepSeek:絕對沒抄襲 ChatGPT,透過底層技術繞過輝達 CUDA 平台) (背景補充:FBI、白宮出手調查!美懷疑:DeepSeek 藉新加坡白手套取得輝達晶片) 八年前,中興心臟驟停。2018 年 4 月 16 日,美國商務部工業與安全域性的一紙禁令,讓中興通訊這家擁有 8 萬名員工、年營收超千億的全球第四大通訊裝置商,在一夜之間停擺。禁令內容很簡單,未來七年,禁止任何美國公司向中興出售零部件、商品、軟體和技術。 沒有了高通的晶片,基站停產。沒有了谷歌的安卓授權,手機也沒有能用的系統了。23 天后,中興發布公告,稱公司主要經營活動已無法進行。 不過中興最終活了下來,但代價是 14 億美元。 10 億美元罰款,一次性付清;4 億美元保證金,存入美國銀行的託管賬戶。此外,全部高管換血,接受美方合規監督團隊進駐。2018 年全年,中興淨虧損 70 億元人民幣,營收同比暴跌 21.4%。 時任中興董事長殷一民在內部信中寫道:「我們身處在一個複雜的、高度依賴全球供應鏈的產業中。」這句話,在當時聽來,是反思,也是無奈。 八年後,2026 年 2 月 26 日,中國 AI 獨角獸 DeepSeek 宣布,其即將發布的 V4 多模態大模型,將優先與國產晶片廠商深度合作,首次實現從預訓練到精調的全流程非英偉達方案。 翻譯一下就是:我們不用英偉達了。 訊息一出,市場的第一反應是質疑。英偉達在全球 AI 訓練晶片市場的份額超過 90%,放棄它,這在商業上合理嗎? 但 DeepSeek 的選擇背後,藏著一個比商業邏輯更大的問題:中國 AI,到底需要一場怎樣的算力獨立? 很多人以為,晶片禁令卡住的是硬體。但真正讓中國 AI 公司感到窒息的,是一個叫 CUDA 的東西。 CUDA,全稱 Compute Unified Device Architecture,是英偉達在 2006 年推出的一套平行計算平臺和程式設計模型。它允許開發者直接呼叫英偉達 GPU 的算力,來加速各種複雜的計算任務。 在 AI 時代到來之前,這只是一個屬於少數極客的工具。但當深度學習的浪潮襲來,CUDA 變成了整個 AI 產業的地基。 AI 大模型的訓練,本質上就是海量的矩陣運算。而這恰恰是 GPU 最擅長的工作。 英偉達憑藉提前十幾年的布局,用 CUDA 為全球的 AI 開發者搭建了一整套從底層硬體到上層應用的完整工具鏈。今天,全球所有主流的 AI 框架,從谷歌的 TensorFlow 到 Meta 的 PyTorch,底層都與 CUDA 深度繫結。 一個 AI 專業的博士生,從入學第一天起,就是在 CUDA 的環境裡學習、程式設計、做實驗。他寫的每一行程式碼,都在加固英偉達的護城河。 截至 2025 年,CUDA 生態已經擁有超過 450 萬開發者,覆蓋了 3000 多個 GPU 加速應用,全球超過 4 萬家公司在使用 CUDA。這個數字意味著全球 90% 以上的 AI 開發者,都被繫結在英偉達的生態裡。 CUDA 的可怕之處在於,它是一個飛輪。越多的開發者使用,就會產生越多的工具、庫和程式碼,生態就越繁榮;生態越繁榮,就越能吸引更多的開發者加入。這個飛輪一旦轉起來,就幾乎無法被撼動。 結果就是,英偉達賣給你最貴的鏟子,還定義了唯一的挖礦姿勢。你想換一把鏟子?可以。但你得先把過去十幾年裡,全球幾十萬最聰明的大腦在這個姿勢下積累的所有經驗、工具和程式碼,全部重寫一遍。 這個成本,誰來付? 所以,當 2022 年 10 月 7 日,BIS 第一輪管制落地,限制英偉達 A100 和 H100 對華出口時,中國的 AI 公司們,第一次集體感受到了中興式的窒息感。英偉達隨後推出了「中國特供版」A800 和 H800,降低了晶片間的互聯頻寬,勉強維持供應。 但僅僅一年後,2023 年 10 月 17 日,第二輪管制再次收緊,A800 和 H800 也被禁,13 家中國公司被列入實體清單。英偉達不得不再推出進一步閹割的 H20。到 2024 年 12 月,拜登政府任期內的最後一輪管制落地,連 H20 的出口都被嚴格限制。 三輪管制,層層加碼。 但這一次,故事的走向,和當年的中興完全不同。 禁令之下,所有人都以為,中國 AI 的大模型之夢會就此終結。 他們都錯了。面對封鎖,中國公司並沒有選擇正面硬剛,而是開始了一場突圍。這場突圍的第一個戰場,不在晶片,而在演演算法。 2024 年底到 2025 年,中國的 AI 公司們集體轉向了一個技術方向:混合專家模型。 簡單來說,就是把一個巨大的模型拆分成很多個小專家,處理任務時只啟用其中最相關的幾個,而不是讓整個模型都動起來。 DeepSeek 的 V3 就是這個思路的典型代表。它擁有 6710 億個引數,但每次推理只啟用其中的 370 億個,僅佔總量的 5.5%。訓練成本方面,它使用了 2048 塊英偉達 H800 GPU,訓練 58 天,總花費 557.6 萬美元。作為對比,外界對 GPT-4 訓練成本的估算,大約在 7800 萬美元。一個量級的差距。 演演算法上的極致最佳化,直接反映到了價格上。DeepSeek 的 API 價格,輸入每百萬 Token 僅 0.028 到 0.28 美元,輸出 0.42 美元。而 GPT-4o 的輸入價格是 5 美元,輸出 15 美元。Claude Opus 更貴,輸入 15 美元,輸出 75 美元。換算下來,DeepSeek 比 Claude 便宜了 25 到 75 倍。 這個價格差,在全球開發者市場上反響巨大。2026 年 2 月,全球最大的 AI 模型 API 聚合平臺 OpenRouter 上,中國 AI 模型的周呼叫量在三週內暴漲 127%,首次超越美...