Intel 加速器 GPU 產品 Ponte Vecchio 具備 45TFLOPS 的 FP32 效能，足足比 NVIDIA A100 高出一倍 (164357)

照片中提到了Ponte、Vecchio、AO Silicon Current Status，包含了多媒體、產品設計、牌、產品、多媒體

作為 Intel 異構運算戰略的重量級產品之一，莫過於針對 HPC 所開發的 Ponte Vecchio ，這是 Intel 第一款針對超算領域開發的 GPU 加速器產品，將扮演 Intel 在超算領域能否擊敗 NVIDIA GPU 的重要關鍵； Intel 也喊出 Ponte Vecchio 將比 NVIDIA A100 高出一倍的性能， FP32 將達到驚人的 45TFLOPS 。 Ponte Vecchio 預計 2022 年正式推出，目前已經開始提供小量樣品，同時 Ponte Vecchio 也將成為即將啟用的美國 Aurora 超算系統的基礎

▲ Ponte Vecchio 的 Xe Core 與消費級的 Alchemist 的 Xe Core 構成截然不同

Ponte Vecchio 是一款結合 2D 與 3D 封裝的複雜產品，而構成基礎單位雖同樣稱為 Xe Core ，但由於針對深度學習與推論，基礎構成與 Alchemist 截然不同， Ponte Vecchio 的 Xe Core 由 8 個 512bit 向量與 8 個 4,096bit 矩陣引擎構成，配有 512KB 的 L1 快取。而 Ponte Vecchio 的每個運算單元的晶片塊以 16 個 Xe Core 組成，以每 4 個晶片塊構成一個堆疊，在將兩個堆疊構成共 8 個矽晶的組合。

▲ Ponte Vecchio 有著稱為 Xe-Link 的 GPU 連接技術，上限最多為 8 個 GPU 構成一個迴圈

同時也 Ponte Vecchio 也有著類似 NVIDIA NVLink 的 GPU 連接概念， Intel 的版本稱為 Xe-Link ，同樣可連接最多 8 個 GPU ，進行多 GPU 之間運算力與記憶體的合併。

▲ Ponte Vecchio 同時運用 EMIB 2.5D 封裝與 Foveros 3D 封裝

Ponte Vecchio 的晶片結構相當複雜，同時使用 EMIB 2.5D 封裝與 Foveros 3D 封裝技術把多個異構的矽晶合併，一顆 Ponte Vecchio 由高達 47 個矽晶構成，與運算相關的矽晶透過 EMIB 2.5D 封裝組合，而像是 I/O 、 L2 快取、 I/O 控制器則透過 Foveros 3D 封裝組合。

且 Ponte Vecchio 的矽晶也非由單一晶圓廠供應，台積電的 N5 節點( 5nm 製程)負責運算模組，而提供包括連接 PCIe 5 、 HBM2e 等各類高速 IO 的 Base Tile 則由 Intel 的 Intel 7 製程生產，再透過 Intel 的專利封裝技術構成完整的 GPU 。

根據 Intel 的說法， Ponte Vecchio 具備 45TFLOPS 的效能，對比目前市場上效能最高的 HPC 級 GPU 、 NVIDIA A100 的 19.5TFLOPS 高出一倍以上。不過純效能數字是一回事，在目前 HPC 運算領域，最重要的關鍵仍在於是否提供良好的軟體開發環境。

▲ Intel 的 oneAPI 亦可相容其它硬體架構，不僅限 Intel 自身硬體

Intel 的如意算盤也早就打好，Ponte Vecchio 可使用 oneAPI 開發學習與推論的應用程式，且若已經有支援 x86 的 AI 學習與推論程式代碼，可使用 oneAPI 轉換為支援 GPU 加速的程式；同時 Intel 也強調 oneAPI 不僅限 Intel 的硬體，亦可支援 AMD 與 NVIDIA 的 GPU ，甚至可支援 Arm 架構 CPU 甚至華為的 ASIC 晶片，希望藉由開放吸引更多開發者參與的野心也相當明確。目前 Intel 以已經提供 oneAPI 1.1 工具的暫定版本，具備深度學習工作負載加入新圖形介面與光線追蹤函式庫，正式版預計在 2021 年底釋出。

Chevelle.fu

猜你喜歡

Chevelle.fu

相關消息