Intel 寄予厚望、代號 Sapphire Rapids 的第 4 代 Xeon Scalable ( Xeon 可擴充處理器)在北美時間 2023 年 1 月 10 日正式公布,同時先前預告過具備 HBM 記憶體的 Sapphire Rapids HBM 版本納入 Xeon CPU Max 系列產品,並與代號 Ponte Vecchio 的 Data Center GPU Max 系列構成完整的 Max 系列加速運算產品線。 Intel 強調第 4 代 Xeon Scalable 不僅是效能的升級,更全面整合新世代加速技術,滿足當前在資料中心、 HPC 與 AI 整合的需求,並輔以新一代通道技術,大舉提升整體表現,且借助加速器架構技術能帶來 2.9 倍每瓦效能,可結合特定技術的特定工作能使每 CPU 省下 70W 能耗,將總擁有成本降低 52% 至 66% 。
▲ Xeon Scalable 由四個晶粒以 EMIB 封裝技術進行連接
第 4 代 Xeon Scalable 採用 Intel 7 製程,在單一封裝具倍 4 個晶粒,並以 Intel EMIB 封裝技術進行連接,率先支援包括 DDR5 、 PCIe 5 、 CXL 1.1 等新通道技術,同時也強調具備最完整的機密運算功能,並為業界首家透過 Intel SGX 位資料中心提供應用程式隔離的晶片供應商,提供頂級的機密運算環境,另外也具備 VM 虛擬機隔離技術 Intel Trust Domain Extensions / TDX ,能將現有應用移植至機密環境。
雖然相較過往,由於運算效能的提升,無論是 CPU 或是 GPU 的最大功耗與熱設計不斷提升,然而 Intel 第 4 代 Xeon Scalable 藉由整合各式新世代加速技術,降低需要額外搭配指定加速卡,使 CPU 本身即具備異構運算與加速能力,提升運算效立,輔以 Optimized Power Mode 能源管理技術,在僅影響不到 5% 效能的前提能省下 20% 處理器插槽能耗,同時處理器的生產是利用水資源回收的再生能源製造,以 90% 或以上的電力進行生產。
▲第四代 Xeon Scalable 具備新世代的加速架構
第 4 代 Xeon Scalable 在設計上引進多項突破性的技術,包括全新的 Intel Advanced Matrix Extension ( Intel AMX )矩陣加速技術,引進能使 AI 推論大幅提升的 BF16 ,理論上可提升 8 倍推論、 16 倍訓練效能,透過 PiTouch 進行推論與訓練的即時實證亦可達到 10 倍的效能提升,而在大型語言模型運算甚至可提升 20 倍效能。此外第 4 代 Xeon Scalable 還具備 Dynamic Load Balancer / DLB 動態負載平衡技術,能使 CPU 負載或延遲降低 96% ,以及可提升 1.7 倍 IOPS 記憶體存取效能的 Data Streaming Accelerator ,此外也延續第 3 代 Xeon Scalable 把 QuickAssist Technology / QAT 技術整合到 CPU ,使 CPU 循環能降低 84% 。雖然並非所有的第 4 代 Xeon Scalable 都預載完整的加速功能,但後續若有需求可透過付費解鎖方式開放指定功能。
▲具備許多新世代的通道技術
同時,第 4 代 Xeon Scalabe 也具備許多新世代通道技術,諸如支援 DDR5 、 HBM 記憶體,以及包括 PCIe 5 、 CXL 1.1 互聯技術,且對於加速運算而言,第四代 Xeon Scalable 由於具備 Intel 獨家的處理器對處理器的 QPI 連接通道技術,能在雙插槽處理器系統提供完整的 80 + 80 條通道,不會如競品須犧牲一半的通道進行 CPU 互聯,尤其對於需要連接大量加速卡、網路卡的系統能獲得更彈性的擴充能力;也由於率先支援 PCIe Gen 5 與更充裕的 PCIe 通道數,亦使友商 NVIDIA 選擇第 4 代 Xeon Scalable 作為 NVIDIA DGX H100 系統的處理器合作夥伴,進一步提升 GPU 加速運算與高頻寬網路互連的性能。
▲ Data Center GPU Max 將與 Xeon CPU Max 構成 Intel 加速方案
同時 Intel 也強調第 4 代 Xeon Scalable 將是一套可擴充的平衡架構,可透過 CPU 與 GPU 透過 oneAPI 開放式軟體生態系整合,同時 Xeon CPU Max 也是全球首款搭載 HBM 技術的 x86 CPU , Sapphire Rapids HBM 藉由封裝技術提供 64GB 的 HBM2e 記憶體,能以更高的頻寬提升 HPC 與 AI 的工作負載量,相較第 3 代 Xeon Scalable 在能源與地球系統建模等實例應用提升 3.7 倍效能。同時同步公布的 Data Center GPU Max 系列加速器將 47 個晶粒封裝,能使吞吐量進一步提升,將 Xeon CPU Max 與 Data Center GPU Max 搭配,能夠在執行 LAMMPS 分子動力模擬器較前一代產品提升 12.8 倍。
▲第四代 Xeon Scalable 將因應不同的使用型態提供達 60 種產品型號
借助第 4 代 Xeon Scalable 的模組化架構, Intel 能夠因應不同的應用案例或應用提供廣泛的處理器產品,自主流通用擴展到雲端、資料庫與分析、網路、儲存至單插槽邊際應用的型號,高達 50 款產品線,同時借助 On Demand 與提供多種核心數量、時脈、加速器組合,提供不同功耗範圍與記憶體吞吐量,滿足客戶實際終端的型態與目標效能。