GTC 2022 ： NVIDIA 將以 576 個 DGX H100 構成大規模 DGX SuperPOD ，打造新一代最強 AI 超算系統 NVIDIA EOS (174651)

照片中提到了18 DGX PODS、FP8、18 EFLOPS，包含了電子儀器、產品設計、產品、設計、字形

NVIDIA 在 GTC 大會宣布新一代加速產品" Hopper " NVIDIA H100 後，除了宣布第四代 DGX 系統 DGX H100 外，也宣布將借助 NVIDIA SuperPOD 架構，以 576 個 DGX H100 打造新一代超算系統 NVIDIA EOS ，將成為當前全球最高 AI 性能的超算系統， NVIDIA EOS 預計在今年內啟用，預估 AI 運算性能可達 18.4 exaflops 。

▲借助外部 NVLink Switch ，能夠將 32 個 DGX 節點以 70TB 頻寬連結

基於 NVIDIA H100 的 DGX H100 由 8 張提供 900GB/s 的 NVLink 連接的 NVIDIA H100 搭配 2 個 x86 CPU 組成，等同具備 6,400 億個電晶體的超大 GPU ，在全新 FP8 精度可達 32 prtaflops AI 運算性能，相較 DGX A100 在 AI 運算高出 6 倍；每套 DGX H100 配有 2 個 BlueField-3 DPU 作為卸載、加速與隔離先進網路、儲存與安全服務， DGX H100 還藉助 8 張 NVIDIA ConnectX-7 Quantum-2 InfiniBand 網路連接運算單元與儲存單元達到前一代系統兩倍的傳輸量，同時借助全新的 NVIDIA NVLink 交換器系統，能夠將 32 個節點、 256 個 NVIDIA H100 GPU 以高達 70TB 頻寬進行連接，同時構成 NVIDIA DGX SuperPOD 系統，這也使得新一代 DGX SuperPOD 可達到 1 exaflops 的 FP8 AI 運算性能，可運行達上兆個參數的大型 LLM 作業負載。

▲ NVIDIA SuperPOD 以 DGX 為基礎構成，具備容易規劃與擴展的特質

NVIDIA 將借助可迅速擴展的 NVIDIA SuperPOD 架構，共連接 576 套 DGX H100 系統與達 4,068 個 NVIDIA H100 GPU 構成 NVIDIA EOS 系統，除了提供高出富岳 4 倍具備 18.4 exaflops 的 AI 運算性能外，在傳統科學運算亦可達到 275 petaflops 的效能； NVIDIA EOS 將作為研究人員推動包括 AI 發展以及氣候科學、數位生物學等基礎，並成為 NVIDIA 與 OEM 與雲端運算夥伴發展先進 AI 基礎設施的藍圖。借助組合多個 DGX SuperPOD 單元，能夠對汽車、醫療照護、製造、通訊與零售等產業提供大型 AI 模型所需的運算效能。

同時， NVIDIA 對於 DGX 系統的既有客戶推出全新 DGX-Ready 生命週期管理計畫，加入此 DGX-Ready 生命週期管理計畫的 NVIDIA 通路合作夥伴，能提供為採用前一代 DGX 系統的客戶進行付費升級到最新 NVIDIA DGX 平台的服務。

此外， NVIDIA 也將推動名為 DGX-Ready 代管服務的計畫，由勤業眾信( Deloitte )作為首家與 NVIDIA 合作推動計畫的全球服務供應商，借助 DGX-Ready 代管計畫，客戶能夠透過勤業眾信專家管理的 NVIDIA DGX 系統與軟體使用最先進的 AI 服務。

Chevelle.fu

Chevelle.fu

相關消息