NVIDIA於年度活動GTC 2025的重點之一即是聚焦在Blackwell升級版本的Blackwell Ultra GPU,Blackwell Ultra基於GTC 2024公布的Blackwell晶片,並進一步進行增強與搭配更大容量的記憶體,基於Blackwell Ultra的GPU率先搭載高達288GB的HBM3e記憶體,並輔以增強FP4性能,可實現1.5倍的FP4推論性能,對比基於Hopper架構建構的AI工廠有望創造50倍的營收機會;同時NVIDIA也同步宣布針對AI基礎架構的NVIDIA Spectrum-X Enhanced 800G乙太網路系統,還有增強設計的NVIDIA GB300 NVL72與NVDIA B300 NVL16,以及基於GB300 NVL72構成的Blackwell Ultra DGX SuperPOD系統。
NVIDIA的合作夥伴預計自2025年下半年推出搭載Blackwell Ultra的產品,除了Aivres、華擎科技、華碩、鴻海科技集團、技嘉科技、英業達、和碩聯合科技、雲達科技、緯創與緯穎,思科、戴爾科技集團、慧與科技、聯想集團與美超微也皆會推出搭載各種型態、搭載Blackwell Ultra的伺服器;另外Amazon Web Services(AWS)、Google Cloud、Microsoft Azure 與 Oracle Cloud Infrastructure,以及GPU雲端供應商 CoreWeave、Crusoe、Lambda、Nebius、Nscale、Yotta與YTL等將率先提供Blackwell Ultra驅動的執行個體。
NVIDIA強調Blackwell Ultra於FP4性能進行增強,輔以頻寬更高、容量更大的HBM3e記憶體可執行更大參數模型與更好的整體性能,相較Hopper架構則受惠吞吐量、運算性能雙雙提升,能夠成就50倍的獲利機會。基於Blackwell Ultra的GB300 SuperChip則同樣以一個Grace CPU晶片搭配2個Blackwell Ultra GPU晶片,配有288GB的HBM3e記憶體480GB的LPDDR5x記憶體。NVIDIA強調Blackwell Ultra適合如代理型AI、實體AI等需要進行精密複雜推論、迭代規劃與產生即時逼真影像或大規模訓練機器人及自駕車的情境。
同時Blackwell Ultra平台也導入NVIDIA Spectrum-X Ethernet以及NVIDIA Quantum-X800 InfiniBand網路平台,透過NVIDIA ConnectX-8 SuperNIC,為系統的每個GPU提供800 Gb/s的資料傳輸性能,使跨機架的遠端記憶體存取更快、延遲更低,藉此降低AI工廠與雲端資料中心執行AI推論的連接瓶頸問題;同時因應多租戶網路、GPU彈性運算、加速資料存取與安全性,Blackwell Ultra平台也結合具資料卸載功能的NVIDIA BlueField-3 DPU。
▲基於GB300 NVL72的DGX SuperPod with DGX GB300具備576個Blackwell Ultra GPU,可實現11.5 ExaFLOPS的FP4算力
此外基於Blackwell Ultra架構的GB300超級晶片的GB300 NVL72機架系統進行增強設計,基於36個Grace CPU晶片與72個Blackwell Ultra GPU晶片,能夠提升能源效率與服務穩定性,達到20TB的HBM記憶體與40TB高速記憶體(基於LPDDR5x),機內的NVLink頻寬則高達130TB/s,並具備14.4TB/s的網路頻寬,單一機架可實現1.1 ExaFLOPS的FP4推論性能,以執行DeepSeek-R1 671B模型的推論為例,使用Hopper架構的H100約具備100 Tok/s性能與1.5分鐘的執行時間,而GB300 NVL72則可實現1,000 Tok/s的性能與僅10秒的執行時間,大幅提升Token的產生量與縮減推論時間。
NVIDIA也同步推出基於16個Blavkwell Ultra GPU的NVDIA HGX B300 NVL16,相較Hopper世代於大型語言模型推論增加11倍,運算性能提升7倍,記憶體容量則提高4倍,因應當前大型語言模型等生成式AI推論需求。
因應GB300 NVL72規劃的DGX SuperPod with DGX GB300系統共具備288個Grace CPU與576個Blackwell Ultra GPU,等同由8套GB300 NVL72串接而成,可提供高達11.5 ExaFLOPS FP4的AI算力,並採用全新設計的NVIDIA MGX機架設計。