不可否認的,以GPGPU為基礎,觸角逐漸延伸到人工智慧和自駕車輛等領域的NVIDIA,在2020年的夏天,NVIDIA的市值連續超車Intel和Samsung,證實了外界多麼看好「皮衣教主」昭示天下的「美好未來」(「未來性」是NVIDIA和AMD的最大差異點)。在「傳統」的個人電腦與高效能運算領域,「電競筆電非有Max-Q不可」的現象和Top500清單上滿滿的NVIDIA GPU,更象徵其牢不可破的優勢地位。
NVIDIA's Next Generation GPU: Performance and Innovation for GPU Computing
但也因此,NVIDIA歷代GPU演進,就變成一個越來越相對無趣的議題,HotChips 32的A100議程,其內容和今年GTC 2020的簡報幾無兩致,唯一的明顯差別,只有這次把華為Ascend 910人工智慧處理器和Intel支援BF16格式的「新型Xeon」Cooper Lake-P拖出來狠狠打一頓,所以筆者也決定共襄盛舉,趁A100這個好機會,談談支撐NVIDIA的「長期潛在競爭優勢」。
長期關注繪圖技術的科科,應該都聽聞NVIDIA在Ampere世代,自行定義了TF32(Tensor Float 32)浮點數格式,講白了就是截長補短,既然Google的BF16犧牲掉FP32的精度,維持動態範圍不變,那就讓精度和FP16一樣吧,神奇的19位元長度TF32就這樣誕生了。
NVIDIA之所以這樣大費周章創造新格式,根本目的不外乎要降低記憶體頻寬和容量的需求。但這件事的背後,隱隱約約透露了NVIDIA長期領先AMD(ATI)的根本原因。
各位科科請用力回想過往GPU雙雄的效能戰爭,長期一直存在的特殊現象:要達成相同效能水準,AMD的同級產品,往往需要比NVIDIA高出許多的記憶體頻寬。這件事早在2004年的NV40(GeForce 6系列)記憶體控制器內建壓縮傳輸機能,相關技術持續演進並陸續申請專利,就已埋下了種子。
當GPU邁向泛用化並踏入高效能運算和人工智慧,「每個運算可分配到的記憶體頻寬,持續穩定下滑」,更讓提高運算效能這件事,絕非區區增加特化指令與執行單元布局空間,即可迎刃而解,更需搞定頻寬這件事,一旦頻寬不足,就發揮不出完整的效能。
有鑑於此,相較於微枝末節的「執行單元細項(尤其是很多「專業技術編輯」特別喜歡斤斤計較、卻又不自己寫程式去比較的Shader)」,每當GPU世代輪替,不學無術的筆者更寧願多花時間觀察這些廠商是打算怎麼解決頻寬不足的宿疾。
「砍掉重練」的Intel Xe與「終極APU」的AMD EHP能否拉進x86雙雄與NVIDIA的距離,總之還得慢慢觀察(要不然還能怎樣?),但也許NVIDIA耕耘十幾年的CUDA,才是比硬體技術更巨大的無形障礙。科科。
2 則回應