NVIDIA H100最新MLPerf訓練測試基準較2023年以3.2倍GPU規模實現3倍以上的性能

2024.06.13 11:06AM
照片中包含了英偉達、英偉達、料斗、圖形處理單元、英偉達DGX

NVIDIA持續引領AI產業硬體的關鍵在於不僅止於GPU硬體技術、還有與持續不斷精進的軟體與網路技術結合;NVIDIA公布最新MLPerf Training v4.0基準測試表現,在GPT-3 175B大型語言模型訓練的表現,以較2023年多出3.2倍的GPU數量實現3倍以上的性能增長,展現強大的軟體調校能使GPU數量與性能呈現幾乎1:1的擴充效率,也顯示在相同的硬體架構之下持續擴充規模仍可在軟體不斷增強獲得出色的成效。NVIDIA預期在NVIDIA Blackwell推出後,MLPerf測試基準成績將有更驚人的成果,並邁向訓練與推論的兆參數生成式AI模型世代。

NVIDIA在2023年使用3,584個H100遞交紀錄,在2024年NVIDIA則透過高達11,616個以Quantium-2 InfiniBand相互連接的H100進行基準測試,GPU的規模多出3.2倍。雖然理想的狀態性能應該會隨規模呈現等比成長,但實際上受到多種條件的影響,規模越大性能就越來越難呈現1:1的等比成長,然而NVIDIA卻透過不斷調校軟體改善大規模GPU連接的性能,以同樣512個H100 GPU連接,新版NVIDIA軟體堆疊較2023年提升27%性能,顯示即便未更新或擴充硬體規模,既有的NVIDIA GPU仍可持續由於軟體更新而受惠。

▲NVIDIA H200受惠於記憶體容量與頻寬升級,在與H100相同的基礎架構於單節點訓練能高出47%效能

NVIDIA在近期的財報也以H100增強版H200為例,使用HBM3E記憶體的NVIDIA H200 Tensor Core GPU較H100將記憶體容量提高至141GB、記憶體頻寬也增加40%,在首次進行MLPerf Training的效能較H100提高47%;NVIDIA指出大型語言模型服務供應商若以NVIDIA H200伺服器執行Llama 3 70B模型,可在4年內將1美金的投資轉化為7美金,這樣的試算建立在大型服務商採用的HGX H200可提供24,000 Token/s(每秒詞元)、每百萬Token0.6每金價格提供Llama 3 70B服務的前提。

此外,MLPerfing在此輪的測試也進一步因應企業需求客製化預訓練大型語言模型進行微調的需求,加入應用於Llama 2 70B的LoRA(熱門低秩適應)大型語言模型微調基準,NVIDIA平台提交自8個GPU至1,024個GPU的結果,在最大規模下僅需1.5分鐘就完成基準測試。

同時NVIDIA的新版軟體也展現針對Stable Diffusuion與GNN訓練的成果,與2023年在相同的系統規模提交紀錄,Stable Diffusion v2訓練成果提高80%,而在R-GAT的新GNN(圖神經網路)測試中,搭載H100 GPU的NVIDIA平台無論在小規模與大規模都有出色的成果,而以單節點進行比較,記憶體獲得升級的H200則比H100在訓練提升47%的性能。