作為 Intel 異構運算戰略的重量級產品之一,莫過於針對 HPC 所開發的 Ponte Vecchio ,這是 Intel 第一款針對超算領域開發的 GPU 加速器產品,將扮演 Intel 在超算領域能否擊敗 NVIDIA GPU 的重要關鍵; Intel 也喊出 Ponte Vecchio 將比 NVIDIA A100 高出一倍的性能, FP32 將達到驚人的 45TFLOPS 。 Ponte Vecchio 預計 2022 年正式推出,目前已經開始提供小量樣品,同時 Ponte Vecchio 也將成為即將啟用的美國 Aurora 超算系統的基礎
▲ Ponte Vecchio 的 Xe Core 與消費級的 Alchemist 的 Xe Core 構成截然不同
Ponte Vecchio 是一款結合 2D 與 3D 封裝的複雜產品,而構成基礎單位雖同樣稱為 Xe Core ,但由於針對深度學習與推論,基礎構成與 Alchemist 截然不同, Ponte Vecchio 的 Xe Core 由 8 個 512bit 向量與 8 個 4,096bit 矩陣引擎構成,配有 512KB 的 L1 快取。而 Ponte Vecchio 的每個運算單元的晶片塊以 16 個 Xe Core 組成,以每 4 個晶片塊構成一個堆疊 ,在將兩個堆疊構成共 8 個矽晶的組合。
▲ Ponte Vecchio 有著稱為 Xe-Link 的 GPU 連接技術,上限最多為 8 個 GPU 構成一個迴圈
同時也 Ponte Vecchio 也有著類似 NVIDIA NVLink 的 GPU 連接概念, Intel 的版本稱為 Xe-Link ,同樣可連接最多 8 個 GPU ,進行多 GPU 之間運算力與記憶體的合併。
▲ Ponte Vecchio 同時運用 EMIB 2.5D 封裝與 Foveros 3D 封裝
Ponte Vecchio 的晶片結構相當複雜,同時使用 EMIB 2.5D 封裝與 Foveros 3D 封裝技術把多個異構的矽晶合併,一顆 Ponte Vecchio 由高達 47 個矽晶構成,與運算相關的矽晶透過 EMIB 2.5D 封裝組合,而像是 I/O 、 L2 快取、 I/O 控制器則透過 Foveros 3D 封裝組合。
且 Ponte Vecchio 的矽晶也非由單一晶圓廠供應,台積電的 N5 節點( 5nm 製程)負責運算模組,而提供包括連接 PCIe 5 、 HBM2e 等各類高速 IO 的 Base Tile 則由 Intel 的 Intel 7 製程生產,再透過 Intel 的專利封裝技術構成完整的 GPU 。
根據 Intel 的說法, Ponte Vecchio 具備 45TFLOPS 的效能,對比目前市場上效能最高的 HPC 級 GPU 、 NVIDIA A100 的 19.5TFLOPS 高出一倍以上。不過純效能數字是一回事,在目前 HPC 運算領域,最重要的關鍵仍在於是否提供良好的軟體開發環境。
▲ Intel 的 oneAPI 亦可相容其它硬體架構,不僅限 Intel 自身硬體
Intel 的如意算盤也早就打好,Ponte Vecchio 可使用 oneAPI 開發學習與推論的應用程式,且若已經有支援 x86 的 AI 學習與推論程式代碼,可使用 oneAPI 轉換為支援 GPU 加速的程式;同時 Intel 也強調 oneAPI 不僅限 Intel 的硬體,亦可支援 AMD 與 NVIDIA 的 GPU ,甚至可支援 Arm 架構 CPU 甚至華為的 ASIC 晶片,希望藉由開放吸引更多開發者參與的野心也相當明確。目前 Intel 以已經提供 oneAPI 1.1 工具的暫定版本,具備深度學習工作負載加入新圖形介面與光線追蹤函式庫,正式版預計在 2021 年底釋出。