Arm 在去年 9 月已經公布了針對超算的 Neoverse 產品線藍圖,預告將針對資料中心與超算需求推出 Neoverse V1 與 Neoverse N2 ,在今日解禁的消息公布三項 Neoverse 產品線的重大規劃,除了更多關於 Neoverse V1 與 Neoverse N2 的細節以外,也宣布針對核心互聯的先進網狀網路互連設計 Neoverse CMN-700 ;值得注意的是, Arm 提到 Neoverse N2 將為首款採用 Armv9 指令集的高效能微架構。
▲ AWS 積極導入 Arm 架構
▲印度電子暨通訊技術部超算系統將採用韓國電子通訊研究院基於 Neoverse V1 的的 SiPearl HPC 單晶片
▲採用 Neoverse N1 的 Ampere Altera 取得不錯的成果
自去年公布新世代 Arm Neoverse 產品規劃後,亦有多家合作客戶宣布導入,威邁爾科技宣布將於 2021 年底小量出貨基於 Neoverse N2 架構的 OCTEON 網路解決方案;印度電子暨通訊技術部宣布加入韓國電子通訊研究院的 SiPearl HPC 單晶片行列,位印度國家百萬兆級超算系統使用 Neoverse V1 架構;甲骨文的甲骨文雲端基礎設施也宣布將導入 Ampere Altra CPU 做為未來規劃;同時中國的阿里雲 ECS Arm 實例、騰訊也傳出導入 Neoverse 的效能捷報。
▲ Neoverse V1 與 Neoverse N2 意味著 Arm 在資料中心與超算等應用有更進一步的產品細分
▲著重單核效能的 Neoverse V1 最大支援 96 核,訴求雲與邊際運算的 Neoverse N2 則將達 128 核心
▲ Neoverse N2 著重核心數量與節能
▲ Neoverse V1 核心數量較少,但具備較高的單核心性能
在 Arm 的規畫當中,藉由 Arm Neoverse 自單一 N1 劃分 Neoverse V1 與 Neoverse N2 ,也將兩款架構進行應用領域的細分, Neoverse V1 把重心放在支援更多超算級的廣泛指令等超算、資料中心等領域,最高支援 96 核心,並強調具備的彈性 I/O 配置與多晶片連接的異構支援;而 Neoverse N2 則是以每瓦效能與異構加速等無風扇基礎設施、邊際運算、 5G 應用等規劃,在設計上使單一核心對應單一執行緒,而非傳統使單一核心執行多執行緒,最大達 128 核心。
▲ Neoverse V1 的重心為 HPC 層級所需的單核效能,可支援豐富的 I/O 與高速記憶體
▲ Neoverse V1 為首款具備 SVE 的架構,相較以往的 NEON 提升 1.8 倍向量性能
▲ SVE 為與富士通共同開發 A64FX 的成果
定位在超算應用的 Neoverse V1 是以以打造有史以來容納最多指令的微架構,以單核心最高運算性能為規劃目的,將是 Arm 首款整合與富士通合作之下的 SVE 可擴展向量延伸指令集的產品,能夠為高效能、百萬兆運算提供更強大的效能; Neoverse V1 相較 Neoverse N1 提升 50% 整理效能,在 SVE 加持下相對傳統的 NEON 於向量工作負載提高 1.8 倍,於多前主流的機器學習效能則可提高達 4 倍。
▲ Neoverse N2 將鎖定著重能源效率與異構加速的基礎設施應用,採用單一執行緒對應單核心設計
▲ Neoverse N2 率先導入支援 SVE2 的 Armv9 架構
至於 Neoverse N2 則將成為 Arm 首個基於 Armv9 指令集的新架構平台,相較當前 Neoverse N1 可在保有相同功耗與面積的前提下提升 40% 單執行緒性能,同時受惠 Armv9 指令集特性,在架構整合新一代 SVE2 可擴展向量延伸指令集,進一步提升效能與應用領域,整體來說,在邊際與 5G 應用場景, Neoverse N2 相較 Neoverse N1 在 NGINX 與 DPDK 分別提升 1.3 倍與 1.2 倍。
▲ CMN-700 進一步擴充核心的網狀網路規模、快取與記憶體容量,同時也升級新一代 CCIX 通道技術
不過此次宣布的重點還包括針對高效能運算的 Arm Neoverse CMN-700 網狀互聯網路架構, CMN-700 可說是針對半導體業界當下流行的 Chiplet 與 Multi-Die 設計而來, CMN-700 延續 CMN-600 的基礎,進一步提高核心數、快取記憶體大小、可附接的記憶體、 I/P 裝置的數量,單一 DIE 自 64 核提高到 256 核,單一系統自 128 核提高到 512 核,單一 DIE 的系統級快取亦自 128MB 提高到 512MB ,每個 DIE 的 Node 自 8x8 提高到 12x12 ,對外的記憶體通道自 16 提高到 40 道,每核的 CCIX 通道則自 4 道提升到 32 道,並自 CCIX 1.0 提升到 CCIX 2.0、 CXL 2.0 規格,與新增對動態資源管理的交換器。