NVIDIA 自 2021 年至 2022 年 GTC 陸續公布新一代超算平台計畫,包括首款基於 Arm 指令集的超算級處理器 Grace ,以及新一代 AI 加速 GPU Hopper ,還有集結兩款平台的 Grace Hopper 超級晶片;今年 Computex , NVIDIA 宣布與包括華碩、富士康、技嘉、 QCT 、 Supermicro 與緯穎等多家台灣系統業者合作,將在 2023 年推出 Grace Hopper 系統生態伺服器,並包括採用 x86 架構與 Arm 架構,滿足不同領域的應用需求。
NVIDIA 與合作夥伴建構四種基於 Grace CPU Super Chip 與 Grace Hopper Superchip 的系統參考設計,採用 2U 外型,使系統業者能夠快速架構提供 NVIDIA CGX 雲端遊戲、 NVIDIA OVX 數位孿生、 NVIDIA HGX AI 與 HPC 等不同類型應用的系統。
▲兩款超級晶片皆利用 NVLink-C2C 使內部的兩個芯能夠以高速通道相互溝通
Grace CPU Superchip 以兩個 Grace CPU 為基礎,彼此透過 NVIDIA NVLink-C2C 技術在晶片內相互連接,具備高達 144 個支援可擴充向量的 Armv9 核心與 1TB/s 的記憶體子系統頻寬,旨在提供 HPC 、數據分析、數位孿生、雲遊戲、大規模運算所需的超高效能運算與高記憶體頻寬特性。
而 Grace Hopper Superchip 則是借助 NVIDIA NVLink-C2C 將 Grace CPU 與 Hopper GPU 結合為單一晶片,使其成為具備超算等級 CPU 、 GPU 的單晶片,相較傳統 CPU-GPU 伺服器提供超過 15 倍的 CPU 與 GPU 溝通頻寬速度,適用於包括 AI 、 HPC 、數位孿生與雲遊戲等應用。
▲因應包括 HPC 運算、 AI 運算、虛擬化協作與雲遊戲等不同應用類型提供達 4 種參考設計
▲ HGX Grace 為純 CPU 伺服器參考設計, HGX Grace Hopper 為異構運算伺服器參考設計
NVIDIA 提出的 Grace CPU Superchip 和 Grace Hopper Superchip 系統單晶片具備單路、二路與四路三種組合,可提供四種特定工作負載的設計。其一是針對 AI 訓練、推論與 HPC 的 NVIDIA HGX Grace Hopper ,結合 Grace Hopper Superchip 與 NVIDIA BlueField-3 DPU ;針對 HPC 與超算的 NVIDIA HGX Grace 則著重純 CPU 運算,基於 Grace CPU Superchip 與 BlueField-3 ;鎖定數位孿生、協作的 NVIDIA OVX 則基於 Grace CPU Superchip、BlueField-3 和 NVIDIA GPU ;最後是因應雲端圖形與遊戲應用的 NVIDIA CGX ,基於 Grace CPU Superchip、BlueField 3 和 NVIDIA A16 GPU 。