NVIDIA 於 ISC 大會公布多樣超算布局,強化與 Arm 的合作、僅在 3 周架設全球第 22 快的 DGX SuperPOD 伺服器

2019.06.17 05:10PM
Computer Cases & Housings, , Architecture, Computer, Nvidia, Santa Clara, Computer architecture, Frankfurt, , High performance computing, architecture, Server, Technology, Electronic device, Computer cluster, Architecture, Cable management, Computer network, Disk array, Building

近年在全球超級運算領域大放異彩的 NVIDIA 在稍早於德國舉辦的 ISC /國際超級運算峰會宣布多項超算領域的布局,包括強化與 Arm 在超算的合作,以及針對自動駕駛訓練、僅在 3 周建設完成並邁入超算 TOP 500 榜單中的 22 名新 AI 伺服器 DGX SuperPOD ,以及當前美國性能最高的超級電腦 Summit 在全新的超級運算評估軟體 HPL-AI 下,達到較僅以 FP64 為主的 HPL 攀升 3 倍的性能表現。

此外,日本新世代超級電腦 ABCI 也搭載 NVIDIA 的 Tesla V Tensor Core GPU ,一舉成為日本最快的超級電腦。同時利用兼具 HPC 與 AI 雙方面的性能,使得 ABCI 能同時為研究人員與工業用戶提供從核物理到製造的科學模擬與演算,但同時亦能藉由分散式運算提供其它領域的使用者加快 AI 訓練。

NVIDIA 攜手 Arm 共創節能超級運算架構

Logo, Font, Product, Brand, Product design, Gadget, , Design, Screenshot, Atos, atos consulting, Product, Text, Font, Technology, Brand, Screenshot, Electronic device, Multimedia

▲ NVIDIA 與 Arm 將針對超算、 AI 進行深入合作

隨著 Arm CPU 架構性能越來越提升,去年底亦有基於 Arm CPU 的超級電腦跨入 Super 500 榜單,雖然只是一個起步,但卻也證實 Arm 架構不再只有低功耗的優點,同時歐洲也欲降低對美國處理器的依賴,打算在超級運算領域透過 Arm 與 RISC 建構自己的 CPU 平台,更使 Arm 在超級運算領域的後續發展倍受注目。

NVIDIA 在 ISC 的第一項宣布就是攜手 Arm ,針對低功耗的超級運算共造良好的環境,使 Arm 平台共容易使用到 NVIDIA 的 GPU 加速運算, NVIDIA 將針對 Arm 平台提供最佳化調整的 CUDA-X HPC & AI 軟體平台,針對達 600 項 HPC 應用程式、人工智慧框架進行加速,並提供包括 CUDA 等完整的開發工具,而這項合作計畫預期在 2019 年末啟動,包括 Atos 、 CRAY 以及最近買了 CRAY 的 HPC / HewlettPackard Enterprise 都是參與計畫的合作夥伴。

在三周內建構完成的 AI 訓練、超算兼用超級電腦 DGX SuperPOD

Song, , Aberdeen Baptist Lui Ming Choi College, , Turn Me On, Turn Me on Fuego, , , Turn Me On fuego, Cortes Entertainment, window, Eye, Organ, Window, Architecture, Door, Tints and shades, Eye shadow, Glass, Facade, Shadow

▲ DGX SuperPOD 可說是延續 DGX-SATURNV 的新一代 NVIDIA 自建 HPC

Internet coupon, Coupon, Font, Brand, Technology, Presentation, Code, coupon code, Text, Font, Technology, Electronic device, Server

▲ DGX SuperPOD 由 96 台 DGX-2H ( 搭載 32GB HBM 版  Tesla V100 )構成

在先前為了 AI 訓練, NVIDIA 即自行架設、基於 DGX-1 的 DGX-SATURNV 超級電腦,在當時甫建設完成就已經名列 TOP500 的 28 名,而此次再度宣布針對包括自動駕駛、語音 AI 、醫護、影像與 HPC 等綜合應用,再度架設全新的 DGX SuperPOD ,這款從架設到完成僅 3 周的超級電腦已經一舉跨入 Top500 的 22 名。

DGX-SuperPOD 搭載 96 具 DGX-2H (內部的 Tesla V100 為 32GB 的升級版),並透過 Mellanox 網路彼此連接,共有高達 1,536 個 Tesla V100 ,在約 1 megawatt 功耗達到 9.4 PF 的 HPL 測試性能,而在 AI PF 則達到 200 以上,並具備 6 MLPerf 的訓練紀錄,與低於兩分鐘訓練 RN-50 的紀錄,在 RN-50 問世的 2015 年當時最頂尖的系統需要 25 天才能完成。

另一個值得注意的是,相較類似效能的超級電腦主機需要使用上千台伺服器, DGX-SuperPOD 僅使用與其相近排名約 1/400 的空間即可架設,顯現 NVIDIA 的 GPU 平台在效能與能耗表現有著凜先優勢,同時在 Green 500 能耗性能榜單上,基於 NVIDIA 平台的超級電腦也佔領前 25 位中的 22 位。

DGX SuperPOD 能在三周建設完成,也是拜 DGX-2 以高度模組化的彈性架構, NVIDIA 稱此為 DGX-SuperPOD 架構,能夠在 3 周時間完成過往至少費時 6 個月到 9 個月的系統部屬。同時 NVIDIA 也藉此提供 DGX-Ready Data Center 計畫,使有志導入新一代 HPC 與 AI 混合超級電腦的組織,能藉由 NVIDIA SuperPOD 架構快速部屬。

全新超級電腦性能評估完整發揮 Summit 實力

Computer program, , Angle, Line, IBM Cloud Video, Presentation, Computer, Computer Icons, Font, Brand, ustream icon, Text, Font, Line, Technology, Diagram, Parallel, Electronics, Electronic device

▲ HPL-AI 測試基準為新一代兼具 HPC 與 AI 的超級電腦提供更具指標性的測試

隨著新一代超級電腦不再僅是針對 HPC 的模擬,同時也兼具針對機器學習的 AI 演算, TOP500 也知道該為新一代的超級電腦提供更具指標性的測試方式,而 HPL-AI 即是同時針對 HPC 與 AI 雙方面所需、綜合 HPC 所需的 FP64 ,以及 AI 常用的 FP16 、FP32 的測試指標。

藉由 HPL-AI 的出現,當前地表最快的 HPC 、美國 Summit 再度刷新測試成績,原本在 HPL 測試已經達到 149 PF ,在加入 AI 性能評估之後, Summit 於 HPL-AI 也達到驚人近 500PF ,足足比起僅計算 FP64 性能的 HPL 提升 3 倍。

NGC 提供達 50 個 GPU 優化容器、系統管理者可預先下載容器並存放於叢集

, Jive Software, Font, Organism, Computer Software, Brand, Jive, jive software, Organism, Terrestrial plant, Technology, Science, Space, Earth

▲ NGC 藉由容器型態加速深度學習等應用的開發

NVIDIA 的 NGC 當前已經提供超過 50 個 GPU 的優化容器,並能在  Docker 與 Singularity 執行包括深度學習框架、機器學習演算法與 HPC 應用程式,同時此次也宣布使超級電腦計算中心、學術單位的 HPC 系統管理員,現時能下載 NGC 容器並存放在叢集上,使用戶能直接自叢集取得 NGC 容器,降低網路流量並節省儲存空間,同時 NVIDIA 也藉由提供 NGC Container Replicator ,可協助管理者自動檢查與下載最新的 NGC 容器。

當前 NVIDIA 提供的 NGC 已不光只有深度學習容器,並針對包括物體偵測、自然語言處理、文字與語音等熱門應用案例,提供達 60 種預先訓練的模型與 17 種模型腳本。