NVIDIA 藉由 GPU 加速顛覆人工智慧的發展後,不少企業與新創公司也紛紛藉由各種方式挑戰 NVIDIA 在 AI 領域的地位,從數據規格與設計,無不以超越 NVIDIA 的硬體為目標;然而,帳面規格是一回事,實作又是另一回事, NVIDIA 拿出 MLPerf 的基準測試紀錄,一舉突破 MLPerf 六項測試基準、創下八項紀錄,八項紀錄中包括三項大規模整體運算效能、以及五項基於加速器的效能紀錄。
▲ 除了 MiniGo 是以 DGX-1 外,其它項目皆由搭載 32GB RAM 的 DGX-2H 所創下的紀錄
MLPerf 是包括 Google 、 Intel 、百度、 NVIDIA 等多家業界領導廠商與學界,針對將 AI 性能的量化所開發的測試基準,將多項業界常用的 AI 模型訓練作為基礎,越快完成訓練也意味著有更好的 AI 效能。在新一代的 AI 型超級電腦問世後,一舉將過往需要耗時數一個工作天的訓練流程,如今僅需幾分鐘就可完成。
▲藉由溝通多台 DGX-2H 的 InfiniBand 與分散式運算, DGX SuperPod 在短短 80 秒完成 DGX-1 需 8 小時的訓練過程
舉例來說, NVIDIA 在 2017 年已經藉由搭載 Tesla V100 的第一世代人工智慧超級電腦 NVIDIA DGX-1 單機進行測試,當時在八個小時內完成 ResNet-50 影像辨識模型,當時已經是相當驚人的紀錄,然而當前藉由基於新一代的 NVIDIA DGX-2H 與 Mellanox InfiniBand 構成的 NVIDIA DGX SuperPOD ,結合分散式人工智慧方式,則在 80 秒就達成相同的模型訓練流程,大大提升模型訓練效率。
▲加入 InfiniBand 互連技術的 DGX SuperPod 一舉打破大規模 MILPerf 0.6 的效能紀錄
而今, NVIDIA 在加入 Mellanox 的 InfiniBand 互聯技術後,以及結合全新的分散式 AI 訓練技術,讓 DGX SuperPerf 在大規模 MILPerf 有更驚人的表現,更是當前唯一一款能在 20 分鐘內完成 MILPefr 六項測試的 AI 平台,尤其在 Heavy Weight Object Detection 的 Mask R-CNN 與 Reinforcement Learing 的 MiniGo 這兩項較重度的訓練負載, NVIDIA DGX Super-Pod 較同級平台大幅縮短訓練時間,尤其 Mask R-CNN 訓練時間更僅有第二名約一半時間。
Heavy Weight Object Detection 使用的 Mask R-CNN 對於自動駕駛是相當重要的項目,這一類的負載除了提供進階的實例分割外,可結合攝影機、感測器、超音波等多個數據資訊來源配合,可作為自動駕駛時的行人與物體精確定位,另外用於醫療影像,更能協助醫師搜尋與辨識腫瘤。至於 Reinforcement Learing 的 MiniGo 則可應用在工廠機器人,或是智慧城市的紅綠燈控管。
▲藉由不斷更新軟體, NVIDIA 仍持續提升性能與效率
但打破紀錄並非 NVIDIA 最重要的目的, NVIDIA 的初衷仍是在加速推動創新; NVIDIA 讓使用者能利用 NGC 容器 registry 下載完成針對 DGX SupePOD 最佳化的 CUDA-X AI 軟體,能夠搶先得到高效能的運算力,同時 NVIDIA 幾乎每個月都會持續發表新版 CUDA-X AI 軟體版本,以目前最新版本相較七個月前的訓練成果,在相同硬體基礎的 NVIDIA DGX-2H 伺服器的 MLPerf 0.6 處理量達到先前的 80% ,顯示軟體與硬體的配合有助發揮更高的整體性能。
NVIDIA 也將此次測試的數據在官網做成資訊圖表,有興趣的開發者可見官網說明: NVIDIA 與其它平台在 MILPerf 性能資訊圖表