NVIDIA於2026年CES的主題演講由執行長黃仁勳再次為Vera Rubin運算平台預熱,值得注意的是雖然NVIDIA已經與Intel宣布合作,Intel將開發支援NVLink的x86 CPU與NVIDIA平台接軌,不過NVIDIA的Arm指令集第二世代資料中心處理器Vera卻野心勃勃的把Arm指令集資料中心CPU擴大到「空間多執行緒」,是類似x86常見的「超執行緒」但又略有不同的多執行緒技術,使Vera能擴展至176個執行緒;。
畢竟這是首次看到Arm指令集CPU支援超執行緒功能,筆者在當下也向Arm詢問狀況,得到的結論是Arm目前提供的Neoverse微架構並不具備多執行緒功能,代表空間多執行緒功能是由NVIDIA設計的Olympus微架構實現,這也意味著NVIDIA不甘受限於Arm Neoverse微架構的制約,透過自主微架構提升對CPU設計的掌控。
▲Vera採用NVIDIA的Olympus微架構,是支援多執行緒的Arm資料中心處理器
NVIDIA於Hopper平台首次導入自主伺服器處理器Grace CPU,不過Grace採用的是Arm的Neoverse V2微架構,重點則聚焦在透過NVLink-C2C技術提供雙CPU或CPU與GPU之間的高速互聯,這也是目前為止其它雲端資料中心營運商自主Arm CPU普遍的做法;當然Arm Neoverse微架構並沒有甚麼問題,畢竟這原本就是Arm獲得富士通A64FX處理器的激勵,針對資料中心所規劃的資料中心級CPU授權。
畢竟Vera Rubin平台將是NVDIA在2026年GTC的重頭戲,目前NVIDIA還未在官網提供白皮書,對於Vera僅有較為基本的描述;但若對比資訊,即可看到NVIDIA強調Vera的88核CPU是由NVIDIA設計、基於Arm v9.2指令集的Olympus核心,號稱效能可達Grace的兩倍(備註:Arm稱Neoverse V3「每插槽效能」高於Neoverse V2 50%),且每個核心都支援「空間多執行緒」功能。
▲Grace CPU不具備多執行緒,單一晶片對應72核心
值得注意的是,NVIDIA在描述中特別強調,雖然「空間多執行緒」仍是一項多執行緒功能,使單一核心具備2個執行緒的執行能力,並未使單一CPU的執行緒變得更多,但其執行模式卻不同於現行x86架構所採用的「同時多執行緒」;傳統x86處理器的多執行緒屬於將資源透過「時間分割」的模式,而空間多執行緒則是採用「空間分割」,強調可藉此最大限度提升傳輸量,並於執行階段選擇效能導向或密度導向的核心。
姑且不論「空間多執行緒」與「同時多執行緒」在實作的性能差異,畢竟在硬體還未正式公開前都還未能得知啟用後可提升的性能效益,但光具備多執行緒這點,對於Arm架構CPU在資料中心就已經意義非凡;雖然多執行緒並不能將CPU效能真正提高2倍,但從實做而言確實可帶來更大的多執行緒性能,尤其在資料中心負載又更為重要,別忘了Intel也才為現階段的Xeon處理器取消多執行緒的支援所擾,並宣布後續將重新為資料中心CPU架構支援多執行緒。
▲Olympus的特色除了多執行緒還支援FP8精度
在Vera出現前,Arm指令集CPU要提升執行緒的方式就是繼續堆疊CPU數量,如Neoverse V3強調可擴展至192核;然而核心越多表示CPU設計越複雜,也會增加晶片發熱、能耗與影響生產良率,倘若要更有效益的提升性能,多執行緒雖無法將性能等比翻倍,但卻可將執行緒的執行數量翻倍,對於重心放在GPU運算的NVIDIA而言,Vera支援多執行緒功能確實有其必要性,也同時勢必引發其它採用Arm指令集CPU的廠商跟進。
此外另一個值得關注的是NVIDIA Olympus在支援空間多執行緒以外,還強調是業界首款支援FP8的CPU,也意味著Vera也能進一步在特定工作負載以較低精度的方式執行任務,也許也是NVIDIA描述Vera對比Grace具備超越Arm Neoverse世代性能差的2倍性能的關鍵,就如同NVIDIA在描述前後代產品的AI效能時,也經常是以不同精度下進行評估而來的結果。


