NVIDIA 將採用 X3D 堆疊設計，下一代 GPU 導入 LPU 單元大幅提升 AI 推論效能

雖然 NVIDIA 目前在 AI 訓練領域無可匹敵，但面對日益增加的即時推論需求，他們正著手規劃一項足以改變產業格局的「秘密武器」。根據 AGF 的消息指出，NVIDIA 計畫在 2028 年推出的 Feynman（費曼）架構 GPU 中，整合 Groq 公司的 LPU（語言處理單元），以大幅提升 AI 推論效能。

Feynman 架構將接替 Rubin 架構，採用台積電最先進的 A16 (1.6 奈米) 製程。為了突破半導體物理限制，NVIDIA 打算運用台積電的 SoIC 混合鍵合技術，將專為推論加速設計的 LPU 單元直接堆疊在 GPU 上方。

這種設計類似於 AMD 的 3D V-Cache 技術，但 NVIDIA 堆疊的並不是普通的快取，而是專為推論加速設計的 LPU 單元。

這項設計的核心原理在於解決 SRAM 的微縮困境。在 1.6 奈米這種極致製程下，直接在主晶片內建大量 SRAM 不僅成本極高，也佔用大量空間。

透過堆疊技術，NVIDIA 可以將運算核心留在主晶片上，而將需要大量面積的 SRAM 獨立成另一層晶片堆疊上去。

台積電 A16 製程的一大特色是支援背面供電技術。這項技術能騰出晶片正面的空間，專供垂直訊號連接，確保堆疊的 LPU 能以極低功耗高速交換資料。

結合 LPU 的「確定性」執行邏輯，未來的 NVIDIA GPU 在處理即時 AI 回應（像是語音對話、即時翻譯）時，速度將會達到質的飛躍。

不過，這也面臨兩大潛在挑戰，分別是散熱問題和 CUDA 相容性難題。在運算密度極高的 GPU 上再多加一層晶片，如何避免「熱當機」是工程團隊的首要難題。

同時，LPU 強調「確定性」執行順序，需要精確的記憶體配置；而 CUDA 生態系則是基於硬體抽象化設計的。要讓這兩者完美協同運作，需要頂尖的軟體最佳化。