NVIDIA 與合作夥伴宣布新式 HGX A100 系統,同步推出 NVIDIA A100 80GB PCIe GPU 、 NVIDIA NDR 400G InfiniBand 與 NVIDIA Magnum IO GPUDirect

2021.06.28 03:01PM
照片中提到了SUPERCLOUDS: CLOUD-NATIVE SUPERCOMPUTERS、Secured and Accelerated by NVIDIA BlueField DPU | Multi-Tenant Bare-Metal Performance | TOP500 June '21、---,包含了英偉達 dgx 站 320g、戴爾 NVIDIA Ampere A100 PCIE 250W 490-BGFV、英偉達DGX、英偉達、圖形處理單元

NVIDIA 宣布與業界合作夥伴推出新一代 HGX A100 系統,同時一併公布三項重大產品,包括記憶體容量加倍的 NVIDIA A100 80GB PCIe GPU ,NVIDIA NDR 400G InfiniBand 高速連接網路與 NVIDIA Magnum IO GPU Direct 軟體。包括 Atos 、 Dell 、 HPE 、聯想、微軟 Azure 、 NetApp 等皆為首波導入 NVIDIA 新一代 HGX A100 的合作夥伴。

NVIDIA A100 80GB PCIe GPU

照片中提到了ANNOUNCING NVIDIA A100 80GB PCIE、Supercharging The World's Highest Performing AI Supercomputing GPU、2TB/s,跟美聯控股有關,包含了多媒體、產品設計、牌、產品、多媒體

▲繼去年推出 SXM 介面的 80GB 版本 NVIDIA A100 後,此次則是發表 PCIe 介面版本

NVIDIA 在 2020 年的 SC20 就已經宣布 SXM 型態的 NVIDIA A100 80GB 版本,此次則是宣布通用性較高的 PCIe 版本,能夠適用於傳統型態的伺服器機箱與 PCIe 插槽,並能夠以單卡提供高達 80GB 的 VRAM 容量;相較已經上市的 40GB 版本,  NVIDIA A100 80GB PCIe GPU 提升達 25% 的記憶體頻寬,達到 2TBps 的傳輸性能,更不用說加倍的儲存容量亦能在單卡進行更大型的 AI 模型訓練。

NVIDIA NDR 400G InfiniBand

照片中提到了ANNOUNCING NVIDIA NDR 400G INFINIBAND SYSTEMS、In-Network Computing Accelerates Cloud Native Supercomputing at Any Scale、64 NDR Ports,包含了產品設計、產品、牌、字形、儀表

▲ NVIDIA NDR 400G InfiniBand 高速連接網路相較帶來更高速的網路

InfiniBand 是當前全球許多超級電腦所使用的高速網路連接介面, NVIDIA 也宣布新一代產品 NVIDIA NDR 400G InfiniBand ,強調是全球唯一全網路卸載的網路內運算連接技術;而 NVIDIA Quantum-2 固定式交換機可提供每個介面達 64 個 NDR 400Gb/s InfiniBand 介面或 128 個 NDR200 介面,相較 InfinyBand HDR 高出 3 倍的介面密度。

而 NVIDIA Quantum-2  模組化交換機則具備高達 2,048 個 NDR 400Gb/s InfiniBand 介面或 4,096 個 NDR200 介面,雙向吞吐量可達 1.64 petabits ,比起上一代高出 5 倍吞吐量;同時在擴充性比起上一代產品提高 6.5 倍,能夠透過 DragonFly+ 網路拓樸輕鬆達到百萬個節點。

此外,第三代 NVIDIA SHARP 網路內計算數據壓縮技術能夠進一步提升效率,項較上一代在 AI 加速應用達 32 倍;同時藉由 NVIDIA UFM Cyber-AI 平台可進一步透過自癒網路功能,減少數據中心的停機時間。 NVIDIA Quantum-2 預計在今年底開始提供樣品,並具備向前與向後相容性,能夠使當前的系統以及軟體得以延用。

Magnum IO GPUDirect Storage

照片中提到了System Memory、ANNOUNCING、GPUDIRECT STORAGE,包含了屏幕截圖、產品設計、牌、產品、屏幕截圖

▲ Magnum IO GPUDirect Storage 使 GPU 能的記憶體直接存取硬碟資料,不須透過 CPU 與系統記憶體

Magnum IO GPUDirect Storage 是一項軟體技術,能將當前系統當中 GPU 存取硬碟資料須先透過 CPU 與系統記憶體的模式,使 GPU 的 VRAM 與能直接經由 PCIe Switch 與硬碟儲存的資料互通,使 CPU 不再需要調度額外的資源存取 GPU 所需使用的資料,同時因儲存路徑簡化大幅降低存取延遲。