NVIDIA 當前在超級電腦領域仍得仰賴與 Intel 或 AMD 合作,不過未來 NVIDIA 也將針對超級電腦與 AI 運算推出自研 CPU 了; NVIDIA 在此次 GTC 大會由執行長黃仁勳宣布將推出名為 NVIDIA Grace 的自研 CPU ,基於新一代 Arm Nerverse 超算微架構,並且藉由新一代頻寬高達 900GBps 的 NVLink , NVIDIA Grace 得以在多個 CPU 與 GPU 之間共享資料與記憶體,突破現行 GPU 受制 PCIe 頻寬難以高速存取系統記憶體的限制,有助於透過大容量系統記憶體執行大規模科學運算與 AI 訓練。
▲ NVIDIA 的超算晶片藍圖
NVIDIA Grace 預計於 2023 年推出,不過黃仁勳仍強調, NVIDIA 每世代的 GPU 加速產品仍將同時支援 x86 與 Arm 架構,因應客戶不同架構與應用的需求。黃仁勳也在此次公布針對超算與 AI 的晶片藍圖,將以兩年為周期交錯公布 CPU 、 GPU 與 DPU ,而不少人期待的下一代 GPU 架構預計於 2022 年公布,至於 Grace 的後繼產品預計在 2025 年亮相。
▲ Grace 取自程式語言先驅 Grace Hopper
Grace 象徵的是歷史上有名的程式語言先驅 Grace Hopper /霍普,也是 NVIDIA 首度將科學家的名字用於 GPU 以外的產品線; NVIDIA Grace 的出現,也宣示 NVIDIA 在運算處理器有更完整的藍圖,繼做為 NVIDIA 進軍運算領域的 GPU 以外,加上與 VMWare 合作的 BlueField DPU ,現在再正式進軍高效能 CPU 領域,使 NVIDIA 能夠擴大對資料中心、 AI 與運算的核心布局。
▲ SCSC 與洛斯阿拉漠國家實驗室將率先導入 Grace 架構的超算系統
目前包括瑞士超級電腦中心 CSCS 、美國的洛斯阿拉莫斯國家實驗室皆以預計導入基於 NVIDIA Grace 與 NVIDIA 下一代 GPU 構成的超級電腦系統,並於 HPE 取得合約建構這兩套系統。
▲當前的 x86 超算系統所採用的 PCIe 頻寬使得 CPU 與 GPU 難以超高速相互存取彼此的記憶體
Grace 是專為大規模 AI 與 HPC 運算所規劃的超高效能 Arm 架構處理器,能滿足包括自然語言處理、推薦系統與 AI 運算等應用,並具備超高運算性能與超大記憶體支援,同時能藉由次世代 NVLink 提供比起 PCIe 介面更高的頻寬,使 CPU 與 GPU 能突破上限進行更直接的資料溝通,號稱是 NVIDIA 與 Arm 團隊歷經一萬工作年的成功,其結果即是搭載 Grace CPU 的新一代系統能夠發揮比現行 x86 處理器之 DGX 系統高出 10 倍性能。
▲ Grace 將採用第 4 代 NVLink 提供 CPU 、 GPU 與記憶體的相互存取,頻寬達 900GBps
除了 Arm Neoverse CPU 微架構的性能外, Grace 還有兩項重要且息息相關的關鍵技術,其一即是搭載 LPDDR5x 記憶體,這項記憶體技術不僅提供比 DDR4 更高的頻寬與 10 倍能源效率,還提供統一快取一致性與單一記憶體定址,能結合採用 HBM 記憶體的 GPU 提供單一記憶體定址,將 CPU 的系統記憶體與 GPU 的 vRAM 構成超大規模記憶體;另一項關鍵是 Grace 將具備第四代 NVLink 通道技術,能夠提供高達 900GBps ,相較當前 PCIe 4.0 的頻寬高出 30 倍,以利於 GPU 快速存取 Grace 掌控的大容量系統記憶體,使進行大規模運算時不再受限 GPU 記憶體大小。
NVIDIA 也一併宣布將提供 NVIDIA HPC 軟體開發套件與完整 CUDA 、 CUDA-X 庫對 NVIDIA Grace CPU 的支援,能夠使用高達 2,000 種以上的 GPU 加速運算程式。
▲ CSCS 將採用 Grace 架構的 Alps 取代現行的 Piz Daint
NVIDIA 在宣布 NVIDIA Grace 之際也宣布兩套即將採用 Grace CPU 與下一代 GPU 的系統,宣布將與瑞士國家超算中心/ CSCS 、 HPE 共同打造基於 Grace CPU 的下一代超算系統 Alps ,新一代 Alps 將採用 HPE 新一代 HPE Cray EX 構成,並延續 CSCS 歷代超算系統在天氣模擬與預測領域的應用,此外還將廣泛應用於材料科學、天體物理、流體力學、生命科學、分子動力學、量子化學、粒子物理學、經濟學與社會學等研究,並將開放給瑞士與其他國家的研究人員使用資源。
ALPS 將做為取代現行 Piz Daint 系統的下一代系統,在結合新世代 NVIDIA CPU 與 GPU 的加持下, Alps 執行自然語言模型 GPT-3 訓練僅需 3 天,比起 NVIDIA 目前自建系統、性能達 2.8 AI exflops 的 Selene 縮減 7 倍時間。
▲洛斯阿拉莫斯國家實驗室將成 Grace 的第一個美國客戶
洛斯阿拉莫斯國家實驗室的下一代系統也同樣採用基於 HPE 新一代 HPE Cray EX 的系統,同時也是第一家宣布導入 Grace 的美國客戶,這也是洛斯阿拉莫斯國家實驗室與 NVIDIA 長期合作的新進展,在新系統於 2023 年正式架設完成前,洛斯阿拉莫斯國家實驗室將率先添購 NVIDIA A100 並安裝於現行的系統提升運算效能。洛斯阿拉莫斯國家實驗室預計將採用新系統做為高品質 3D 仿真加速科學與全新新運算方式。
7 則回應
只是能耗有點不優而已
只是能耗有點不優而已