Intel 加速器 GPU 產品 Ponte Vecchio 具備 45TFLOPS 的 FP32 效能,足足比 NVIDIA A100 高出一倍

2021.08.19 11:17PM
照片中提到了Ponte、Vecchio、AO Silicon Current Status,包含了多媒體、產品設計、牌、產品、多媒體

作為 Intel 異構運算戰略的重量級產品之一,莫過於針對 HPC 所開發的 Ponte Vecchio ,這是 Intel 第一款針對超算領域開發的 GPU 加速器產品,將扮演 Intel 在超算領域能否擊敗 NVIDIA GPU 的重要關鍵; Intel 也喊出 Ponte Vecchio 將比 NVIDIA A100 高出一倍的性能, FP32 將達到驚人的 45TFLOPS 。 Ponte Vecchio 預計 2022 年正式推出,目前已經開始提供小量樣品,同時 Ponte Vecchio 也將成為即將啟用的美國 Aurora 超算系統的基礎

照片中提到了Xe.core、Xe-core、Vector,跟Flexera軟件有關,包含了多媒體、產品設計、牌、產品、字形

▲ Ponte Vecchio 的 Xe Core 與消費級的 Alchemist 的 Xe Core 構成截然不同

Ponte Vecchio 是一款結合 2D 與 3D 封裝的複雜產品,而構成基礎單位雖同樣稱為 Xe Core ,但由於針對深度學習與推論,基礎構成與 Alchemist 截然不同, Ponte Vecchio 的 Xe Core 由 8 個 512bit 向量與 8 個 4,096bit 矩陣引擎構成,配有 512KB 的 L1 快取。而 Ponte Vecchio 的每個運算單元的晶片塊以 16 個 Xe Core 組成,以每 4 個晶片塊構成一個堆疊 ,在將兩個堆疊構成共 8 個矽晶的組合。

▲ Ponte Vecchio 有著稱為 Xe-Link 的 GPU 連接技術,上限最多為 8 個 GPU 構成一個迴圈

同時也 Ponte Vecchio 也有著類似 NVIDIA NVLink 的 GPU 連接概念, Intel 的版本稱為 Xe-Link ,同樣可連接最多 8 個 GPU ,進行多 GPU 之間運算力與記憶體的合併。

照片中提到了Compute Tile、Ponte、Vecchio,包含了角度、產品設計、產品、字形、設計

▲ Ponte Vecchio 同時運用 EMIB 2.5D 封裝與 Foveros 3D 封裝

Ponte Vecchio 的晶片結構相當複雜,同時使用 EMIB 2.5D 封裝與 Foveros 3D 封裝技術把多個異構的矽晶合併,一顆 Ponte Vecchio 由高達 47 個矽晶構成,與運算相關的矽晶透過 EMIB 2.5D 封裝組合,而像是 I/O 、 L2 快取、 I/O 控制器則透過 Foveros 3D 封裝組合。

且 Ponte Vecchio 的矽晶也非由單一晶圓廠供應,台積電的 N5 節點( 5nm 製程)負責運算模組,而提供包括連接 PCIe 5 、 HBM2e 等各類高速 IO 的 Base Tile 則由 Intel 的 Intel 7 製程生產,再透過 Intel 的專利封裝技術構成完整的 GPU 。

根據 Intel 的說法, Ponte Vecchio 具備 45TFLOPS 的效能,對比目前市場上效能最高的 HPC 級 GPU 、 NVIDIA A100 的 19.5TFLOPS 高出一倍以上。不過純效能數字是一回事,在目前 HPC 運算領域,最重要的關鍵仍在於是否提供良好的軟體開發環境。

照片中提到了oneAPI Industry Momentum、Cross-Vendor、Evolving Spec,包含了多媒體、產品設計、牌、產品、字形

▲ Intel 的 oneAPI 亦可相容其它硬體架構,不僅限 Intel 自身硬體

Intel 的如意算盤也早就打好,Ponte Vecchio 可使用 oneAPI 開發學習與推論的應用程式,且若已經有支援 x86 的 AI 學習與推論程式代碼,可使用 oneAPI 轉換為支援 GPU 加速的程式;同時 Intel 也強調 oneAPI 不僅限 Intel 的硬體,亦可支援 AMD 與 NVIDIA 的 GPU ,甚至可支援 Arm 架構 CPU 甚至華為的 ASIC 晶片,希望藉由開放吸引更多開發者參與的野心也相當明確。目前 Intel 以已經提供 oneAPI 1.1 工具的暫定版本,具備深度學習工作負載加入新圖形介面與光線追蹤函式庫,正式版預計在 2021 年底釋出。