NVIDIA 在 GTC 大會宣布新一代加速產品" Hopper " NVIDIA H100 後,除了宣布第四代 DGX 系統 DGX H100 外,也宣布將借助 NVIDIA SuperPOD 架構,以 576 個 DGX H100 打造新一代超算系統 NVIDIA EOS ,將成為當前全球最高 AI 性能的超算系統, NVIDIA EOS 預計在今年內啟用,預估 AI 運算性能可達 18.4 exaflops 。
▲借助外部 NVLink Switch ,能夠將 32 個 DGX 節點以 70TB 頻寬連結
基於 NVIDIA H100 的 DGX H100 由 8 張提供 900GB/s 的 NVLink 連接的 NVIDIA H100 搭配 2 個 x86 CPU 組成,等同具備 6,400 億個電晶體的超大 GPU ,在全新 FP8 精度可達 32 prtaflops AI 運算性能,相較 DGX A100 在 AI 運算高出 6 倍;每套 DGX H100 配有 2 個 BlueField-3 DPU 作為卸載、加速與隔離先進網路、儲存與安全服務, DGX H100 還藉助 8 張 NVIDIA ConnectX-7 Quantum-2 InfiniBand 網路連接運算單元與儲存單元達到前一代系統兩倍的傳輸量,同時借助全新的 NVIDIA NVLink 交換器系統,能夠將 32 個節點、 256 個 NVIDIA H100 GPU 以高達 70TB 頻寬進行連接,同時構成 NVIDIA DGX SuperPOD 系統,這也使得新一代 DGX SuperPOD 可達到 1 exaflops 的 FP8 AI 運算性能,可運行達上兆個參數的大型 LLM 作業負載。
▲ NVIDIA SuperPOD 以 DGX 為基礎構成,具備容易規劃與擴展的特質
NVIDIA 將借助可迅速擴展的 NVIDIA SuperPOD 架構,共連接 576 套 DGX H100 系統與達 4,068 個 NVIDIA H100 GPU 構成 NVIDIA EOS 系統,除了提供高出富岳 4 倍具備 18.4 exaflops 的 AI 運算性能外,在傳統科學運算亦可達到 275 petaflops 的效能; NVIDIA EOS 將作為研究人員推動包括 AI 發展以及氣候科學、數位生物學等基礎,並成為 NVIDIA 與 OEM 與雲端運算夥伴發展先進 AI 基礎設施的藍圖。借助組合多個 DGX SuperPOD 單元,能夠對汽車、醫療照護、製造、通訊與零售等產業提供大型 AI 模型所需的運算效能。
同時, NVIDIA 對於 DGX 系統的既有客戶推出全新 DGX-Ready 生命週期管理計畫,加入此 DGX-Ready 生命週期管理計畫的 NVIDIA 通路合作夥伴,能提供為採用前一代 DGX 系統的客戶進行付費升級到最新 NVIDIA DGX 平台的服務。
此外, NVIDIA 也將推動名為 DGX-Ready 代管服務的計畫,由勤業眾信( Deloitte )作為首家與 NVIDIA 合作推動計畫的全球服務供應商,借助 DGX-Ready 代管計畫,客戶能夠透過勤業眾信專家管理的 NVIDIA DGX 系統與軟體使用最先進的 AI 服務。