微軟Azure公布參考OpenAI意見開發的Maia 100 AI晶片與基於Arm架構的Cobalt 100 CPU,強調涉入晶片設計進一步與軟體相互加乘

2023.11.16 12:37PM

雲端服務三巨頭當中的亞馬遜AWS、Google Cloud皆為了降低成本、提升效益以及與自身的AI演算法最佳化等理由投入自研晶片,微軟Azure也終於在2023年的Microsoft Ignite大會公布兩款客製化晶片,其一是為人工智慧、生成式AI開發的Azure Maia 100 AI加速器,另一款則是基於Arm架構、為Microsoft雲端執行通運算負載的Azure Cobalt 100 CPU;微軟強調透過頭自研晶片,能與自身擅長的軟體相互結合發揮1+1>2的效用。

微軟預計Azure Maia 100 AI加速器與Azure Cobalt 100 CPU將會在2024年初於微軟資料中心服役,先期將率先提供如Microsoft Copilot、Azure OpenAI等自家服務,後續將陸續開放產業夥伴使用。微軟也預告已投入第二世代的Azure Maia與Azure Cobalt。

▲微軟已在華盛頓州架設第一批Cobalt 100 CPU的伺服器(圖片來源:微軟)

微軟投入自研晶片的目的與另外兩家競爭對手大同小異,旨在為微軟Azure與AI工作負載提供量身打造的解決方案,並結合本身在軟體與系統整合的優勢,發揮軟、硬體一條龍的優勢;微軟在2016年以前的硬體與架構都是直接採取市場上既有的設計,陸續自伺服器設計與機架著手投入自主設計,客製化晶片則是最後一塊拼圖,這些客製化晶片將搭載在客製化的伺服器主機版、配置在客製化的機架內,並可輕鬆的配置到既有的微軟資料中心內。

▲微軟Azure Maia 100 AI加速器

▲微軟Azure Cobalt 100 CPU

微軟此次公布的自研晶片中,Azure Maia 100 AI加速器在開發的過程獲得來自OpenAI的意見,微軟也因應OpenAI執行的負載情況作為Azure Maia 100 AI加速器的基礎,建構為執行大型語言模型量身訂製的架構;至於Azure Cobalt 100 CPU則是特別強調基於Arm的節能晶片架構的CPU(沒意外應該是Neoverse),為雲原生應用提供更高的能耗效能表現,選擇Arm技術也是微軟永續發展目標的關鍵要素,為最佳化整個數據中心的每瓦效能提供助力。

▲微軟Maia 100機架除了採用比一般更寬的設計藉此容納電源、纜線外,還在旁邊設有獨特的液冷機構

同時微軟也為了Azure Maia 100 AI加速器的主機板設計開發專用的機架,相較傳統資料中心機架採取更寬的設計,使得內部的電源與纜線有更充裕的空間,可說是呼應AI所需的密集式運算所需;考慮到AI的密集式消耗相當大的電力,傳統風冷已經不堪負荷,故在設計使用液態冷卻設計,但卻又不同於業界採用的大型液態冷卻系統,而是在Maia 100機架旁架設一個散熱輔助架構,類似於汽、機車的引擎水冷系統原理,由冷卻液將熱自晶片帶走並傳導到輔助散熱器之後導出降溫後進行循環。

不過畢竟沒有一家雲端服務商敢在現階段完全轉頭自研晶片,微軟在Ignite大會仍宣布分別攜手NVIDIA、AMD導入新一代AI硬體,包括NVIDIA H100、NVIDIA H200與AMD Instinct MI300X等。