透過封裝結合 CPU 與 GPU 的異構 SoC 為何成為 AMD 、 Intel 與 NVIDIA 競相推出的資料中心與 HPC 關鍵技術

2023.01.24 10:00AM
照片中提到了Next Gen Flexible Architecture、Falcon Shores、XPU,跟抱怨有關,包含了英特爾獵鷹海岸 xpu、中央處理器、英特爾、圖形處理單元、x86

在傳統的資料中心與加速運算架構當中,主要是透過 CPU 結合 PCIe 等通用插槽連接到各式加速器,然而近一兩年以 NVIDIA 為首率先公布 Grace Hopper Superchip , AMD 也公布了 Instinct MI300 APU , Intel 則公布代號 Falcon Shores 的 XPU ,三款處理器的本質都是借助封裝技術將 CPU 與 GPU 晶粒整合在單一晶片上,為何運算業界會有這樣的變化,筆者以對市場需求觀察與效益進行粗略的說明。

▲第 4 代 Xeon Scalable 藉由加入更多加速器減少對外部加速器的依賴,但仍需與 GPU 加速器結合才能滿足當前業界加速運算需求

在 1 月初 Intel 公布第 4 代 Xeon Scalable 的台灣說明活動上, Intel 的發言人被問到 CPU 整合異構加速架構後是否能降低對 GPU 加速的依賴, Intel 代表大方坦承以現在資料中心與 HPC 對 AI 、異構運算的需求, GPU 加速運算具備壓倒性的效能,故 Intel 也藉由 Ponte Vecchio GPU 打造完整的加速產品線, CPU 加入加速器的用意則旨在減少連接各式專用加速卡,進行提升執行效率與能源效率。

▲ Chiplet 架構結合封裝技術使晶片設計更具彈性且有效提升生產良率

雖然這番說法並未凸顯將 CPU 與 GPU 混合封裝在單一 SoC 的優點,不過已經說明以當前的資料中心與 HPC 加速運算的產業需求,短時間無法擺脫 CPU 搭配 GPU 的組合;且縱使 GPU 再強大,也不可能完全擺脫 CPU ,畢竟當前的電腦系統架構, CPU 仍是做為執行系統的號令中樞,沒有了 CPU 系統也無法執行,只是 GPU 加速產業則是設法減少 CPU 與 GPU 之間反覆的傳輸,進而提升整體效率。

▲受到加速運算成趨勢, PCIe 通用介面也才隨之加速規範的制定腳步

那到底把 CPU 與 GPU 混合封裝對加速運算有甚麼優點?最重要的還是提升 CPU 、 GPU 等架構之間的溝通與傳輸效率;因為傳統伺服器系統架構在相當早就遇到 PCIe 通用介面的傳輸瓶頸,只是由於 GPU 加速的效益直至近 10 年才逐步成為主流,最終就是促使 PCIe 通用介面不得不加速規格的制定,然而以現在 GPU 在加速運算的龐大運算量與多 GPU 分散運算,通用介面的規格演進速度仍趕不上 GPU 運算速度的提升。

▲ NVLink 是 NVIDIA 進一步提供晶片對晶片與晶片對晶粒的相互溝通通道技術

也因此,無論是 AMD 的 Infinity Fabric , NVIDIA 的 NVLink / NVLink-C2C 等,都是透過專屬的通道技術使晶片與晶片或是晶粒與晶粒之間進行高速溝通,尤其 NVLink 更是 NVIDIA 當時作為三大廠當中唯一未持有 CPU 技術時降低對 CPU 依賴的關鍵,使多個 GPU 晶片透過高速通道構成一個超大型 GPU ;現在 AMD 、 Intel 與 NVIDIA 也將藉助這些晶粒對晶粒的高速通道結合封裝技術打造異構 SoC 。

▲ AMD Instinct MI300 APU 是 AMD 首度在資料中心與 HPC 產品使用 APU 的名稱

高速晶粒對晶粒溝通結合近年的 Chiplet 小晶片趨勢,也加速這類異構 SoC 的誕生,相較傳統將所有的功能設計在單一晶粒上, Chiplet 最大的優點是能減低單一晶粒的複雜度,同時部分不需要使用最先進製程的架構也能透過次一階製程生產降低成本,或是由多個晶圓廠進行跨製程晶粒的組合,像是 Intel 預計就會透過自身晶圓廠與台積電代工的晶粒進行混合封裝。

▲ Intel 將異構晶片稱為 XPU ,並主打能依據運算權重提供客製化晶粒組合

透過高速通道最大的益處當然就是提升晶粒對晶粒之間的溝通速度,而封裝在同一個晶片上,則進一步能使不同架構的晶粒的溝通路徑大幅縮減,如果深知訊號傳輸特性,應該不難理解傳輸路徑越短越能保有資料的完整性以及傳輸更高的資料量的特性;同時借助使用高速通道與導入統一記憶體架構,更能使 CPU 與 GPU 直接讀取與修改彼此產生的資料數據,不需將資料在各別管理的記憶體之間進行傳輸。

不過這樣的高效能異構 SoC 恐怕仍不會是最主流的型態,畢竟雖然封裝技術能夠混合高效能的 CPU 與 GPU ,但仍需考慮 SoC 封裝的尺寸上限與複雜度,還要考慮屆時單一 SoC 的能耗與發熱問題,像是 NVIDIA 的 Grace Hopper Super Chip 僅將單一 Grace 與 Hopper 進行混合, AMD 的 Instinct MI300 APU 也僅保守使用 24 核 CPU 。若以大規模資料中心架構,目前所提出的高效能異構 SoC 似乎在總核心數難佔優勢。

然而此類的異構 SoC 真正的價值是單一晶片的異構加速運算所具備的高效能與效率,相較使用同樣數量 CPU 與同規格 GPU 的兩個獨立晶片設計,異構 SoC 將大幅簡化晶片所占用的空間且可共用散熱器,對於像是邊際運算運用、 5G 數據交換器、都市安全甚至自動駕駛等,能夠大幅所監系統占用的空間。

▲異構 SoC 將有助邊際運算、自動駕駛等系統進一步縮減尺寸

同時藉由小晶片架構,亦可想像依據運算需求不同進行彈性的客製化設計,這點就是 Intel 的 Falcon Shores 相較 AMD Instinct MI300 APU 與 NVIDIA Grace Hopper Superchip 更強調的特色,利用通用的晶片插槽設計與多個晶粒的組合搭配,屆時 Falcon Shores 能夠依照客戶實際上在 CPU 與 GPU 或其它加速架構算力的權重進行組合,但對系統業者而言亦可使用相同的主機底板設計進行安裝。

筆者認為隨著封裝技術的持續演進,混合式異構 SoC 勢必會成為加速運算領域下一步的重要產品,但短期仍不至於完全取代現行 CPU 與 GPU 各自獨立的架構(不過 CPU 與 GPU 晶片也將邁入 Chiplet 化),畢竟以大規模系統而言, CPU 與 GPU 分離的作法對於一般企業仍更具彈性,但若對於大型服務業者,確實能夠利用客製化方式要求晶片業者規劃 CPU 與 GPU 權重合適的架構。