NVIDIA 在 Computex 宣布伺服器夥伴將推出 Grace Superchip 伺服器產品

2022.05.30 12:44PM
照片中提到了BUILT FOR GIANT-SCALE AI AND HPC、CPU and GPU Superchip、15X Higher System Memory Bandwidth to GPU | 900GB/s Coherent Interface,包含了中央處理器、電腦、軟件、英偉達、數據處理單元

NVIDIA 在 2021 年的 GTC 大會公布品牌首款 CPU 處理器 NVIDIA Grace ,宣示 NVIDIA 借助 Arm 指令集正式跨足超算 CPU 領域,而 2022 年的 Computex , NVIDIA 藉宣布新一代超算 GPU Hopper 之際,一併公布稱為 Grace CPU Superchip 與 Grace Hopper Superchip 的雙晶粒晶片計畫,後續再度於 2022 Computex 公布其 Grace CPU Superchip 與 Grace Hopper Superchip 將由伺服器夥伴在 2023 年推出的消息。雖然從順序來看似理所當然,但對 NVIDIA 而言,今年在 Computex 宣布將由合作夥伴提供伺服器的消息對 NVIDIA 跨足伺服器領域顯得相當重要。

雖然 NVIDIA 當前在 GPU 市場已是首屈一指的品牌,同時也借助 CUDA 技術使 GPU 在加速運算、 AI 等奠定不可動搖的地位,然而從 CPU 發展的角度, NVIDIA 也僅有過去為了行動運算開發 Tegra 平台、後續隨著市場局勢轉型為 Jetson 平台,不過也僅止於低功耗產品,與高效能運算層級相去甚遠; Grace CPU 看似隔空出世,不過對 NVIDIA 卻也是不得不的抉擇。

照片中提到了ANNOUNCING、NVIDIA DGX A100、3RD GENERATION INTEGRATED AI SYSTEM,包含了英偉達dgx a100、英偉達DGX、圖形處理單元、900-21001-0000-000 NVIDIA NVIDIA A100 顯卡、中央處理器

▲ x86 CPU 生態系長期由 AMD 與 Intel 佔據, NVIDIA 當前異構運算仍須仰賴搭配兩者的處理器 

從以往 NVIDIA 加速技術在超算領域所遇到的情況,即是 CPU 受限於 AMD 與 Intel 等傳統 x86 廠商,偏偏 AMD 與 Intel 也不可能乖乖看著 NVIDIA 獨自大放異彩,也借助自身資源自行發展完整的配套方案;同時, NVIDIA 為了使異構更具效益,自行開發稱為 NVLink 的多向高速通道技術,在 AMD 與 Intel 不可能放下競爭採納的前提下, NVIDIA 初期找上 IBM Power 合作,雖然也攻進美國能源局成為 Summit 與 Sierra 兩套系統,不過顯然 IBM Power 在超算的資源與採納度難以與 x86 抗衡。

雖然 Arm 指令集在超算領域起步較晚,也一度沒有顯著的成效,但由於在行動運算的成功,加上由於低功耗特性獲得儲存、資料中心等需求,也被如亞馬遜 AWS 、微軟 Azure 與百度等採用,慢慢的在相關軟體環境也逐漸成熟;而至關重要的則是富士通的 FX64 處理器的問世,富士通 A64FX 是第一款在意義上為超算而生的 Arm 指令集 CPU ,從發表時被市場質疑至今仍多年蟬聯 TOP500 榜單效能首位,為 Arm 指令集在超算領域奠定良好的基礎。

照片中提到了GPU,包含了電子工程、中央處理器、IBM公司、圖形處理單元、英偉達

▲雖然 NVIDIA 也曾一度想藉與 PowerPC 合作建構生態圈,但成效不彰 

也幾乎是在 AF64 問世不久, NVIDIA 即積極啟動對 Arm 架構的配套,自宣布加速運算工具全面支援 Arm 架構處理器、與合作夥伴推出基於 Arm 架構 CPU 的 HPC 參考設計,公布加速運算於 Arm 平台的表現,甚至還動念興起收購 Arm 的計畫,最終的目的即是啟動基於 Arm 指令集的超算 CPU 計畫,第一項成果也就是當前所看到的 Grace CPU Superchip 。

Grace CPU Superchip 雖是基於標準 Arm Neoverse 微架構為基礎,不過 NVIDIA 將 NVLink 技術發展為晶粒對晶粒層級的 NVLink-C2C ,使晶粒與晶粒之間可藉由高速、低延遲的通道彼此連接,同時也能降低晶片的生產成本提供更多彈性;以 Grace CPU Superchip 與 Grace Hopper Superchip 為例,借助連接兩個 72 核的 Grace CPU 實現單一 144 核 CPU ,且單一系統的 TDP 僅 500W ,抑或將 Grace 與 Hopper 連接後,使 CPU 與 GPU 具備達 900GB/s 的溝通頻寬, TDP 仍僅有 1000W 層級。

照片中提到了CT、-(1) OCP Ge、Configurable CPU/GPU Ratios (8x SXM2),包含了母板、電腦硬件、圖形處理單元、英偉達特斯拉、帕斯卡

▲ 2016 年公布 DGX-1 時僅有少數系統商入列

光看產品技術介紹即感受到 NVIDIA 在 HPC 等級的 CPU 來勢洶洶,然而技術規格與帳面數據再好看,也需要有廠商願意導入;回到當年 NVIDIA 2016 年推出第一代的 DGX-1 之際,僅有少數的伺服器廠商願意推出產品,但當 DGX-1 成效彰顯、市場需求提高後,後續就有更多廠商願意推出符合 NVIDIA Certified 的認證系統,市場需求才是決定產品是否廣被合作夥伴採納並量產的關鍵。

而 NVIDIA 在 2022 年 Computex 的主題演講,列舉多家台灣與全球知名系統業者將在 2023 年推出 Grace Hopper 生態系統的伺服器,同時還公布四大類的參考設計,不難想像 NVIDIA 應該是已經有多家潛在客戶有意導入其 Grace CPU Superchip 的伺服器系統,也使 NVIDIA 能夠稍微擺脫 CPU 受制於人的現況。

照片中提到了ANNOUNCING 2U HIGH DENSITY SERVER REFERENCE DESIGNS FOR RAPID ADOPTION、HGX GRACE、HGX GRACE HOPPER,跟超微有關,包含了英偉達、電腦、中央處理器、英偉達、ARM 架構家族

▲第一世代 CPU 產品即有多家系統業者宣布響應是好的開始,不過短期 NVIDIA 也不可能斷然中止與 x86 的合作

當然,筆者不認為 Grace CPU 能夠使 NVIDIA 徹底擺脫與 x86 CPU 的糾葛,現階段在 HPC 的 CPU 領域 x86 架構仍有壓倒性的市場偏好與需求,畢竟許多超算的基礎都是建立在 x86 生態系,但考慮到包括專利等因素, NVIDIA 難以進入 x86 CPU 的開發,已經有一定基礎的 Arm 指令集架構也成為 NVIDIA 實現自有超算級 CPU 最好的選擇;至於 RISC-V ?首先不如先回過頭來看 Arm 花了幾年的時間才成功從已有行動運算的成功基礎下一步一步站穩當前在超算級的地位吧。

1 則回應