NVIDIA DGX H100 超算系統將採用 Sapphire Rapids 而非 EPYC ,單執行緒性能與新架構設計為關鍵考量

2022.06.08 12:54PM

NVIDIA 雖然已經著手開發基於 Arm Neoverse 架構的超算處理器 NVIDIA Grace ,並宣布將與系統業者提供基於 Grace CPU 的伺服器與異構運算系統,但 NVIDIA 也熟知當前運算與超算領域 x86 架構仍為主流,故原本就提到不會貿然放棄支援 x86 平台,故此次的主流系統 DGX H100 也仍舊搭配 x86 CPU 。雖然 DGX H100 官方介紹頁面不會強調處理器,但根據外媒採訪 NVIDAI 執行長黃仁勳透露, NVIDIA 此次的 CPU 合作夥伴再度從 AMD EPYC 回到 Intel Sapphire Rapids 。

黃仁勳指稱, Sapphire Rapids 脫穎而出的關鍵是出色的單執行緒效能,不過若從 NVIDIA Hopper 包括支援 PCIe Gen 5 ,筆者認為扣除性能以外,另一個關鍵恐怕是 Sapphire Rapids 率先支援 PCIe Gen 5 通道技術。

▲ Sapphire Rapids 雀屏中選的檯面原因是出色的單執行緒效能,然而筆者推測率先支援 PCIe Gen 5 提供與 Hopper 加速器進行高速連接也是關鍵之一

在 NVIDIA 的加速運算概念當中, GPU 是運算架構中的主角, CPU 則優先視為執行作業系統與調度系統資源等的控制中心,故 CPU 的純效能相對之下沒有來的那麼重要,然而 NVIDIA 雖然藉由軟體、 NVLink 技術使 GPU 盡可能不需要透過 CPU 發號指令即可繼續進行運算,但最終異構運算仍會牽涉 CPU 與 GPU 需要交換資料,故支援高速通道就會是 NVIDIA 的重要考量之一,在 AMD 與 Intel 不可能支援 NVLink 技術的前提下, NVIDIA 會優先選擇具備新一代通道技術的 x86 處理器,然而 AMD 當前的 EPYC 仍停留在 PCIe Gen 4 通道技術。

同理, NVIDIA 決定自行開發 Grace 處理器也是基於相同的原因,透過 NVLink-C2C 把 CPU 與 GPU 晶粒連接的 Grace Hopper Superchip ,就能使 CPU 與 GPU 之間享有高達 900GB/s 的通道連接,藉此快速傳輸資料與共享記憶體,但畢竟要快速改變以 x86 為首的生態不易, NVIDIA 短期仍會持續與 AMD 或 Intel 合作。無獨有偶, Intel 在 ISC 2022 也公布 Falcon Shores XPU 也同樣是使 CPU 與 GPU 晶粒透過高速通道連接的異構晶片,而 AMD 也傳出將在 Instinct 產品線推出 APU 產品。

資料來源

1 則回應