大型語言模型LLM是目前生成式AI發展的關鍵,隨著裝置端AI的需求出現,使得邊際裝置也需具備一定大型語言模型的執行能力,其中由Meta推出的開源大型語言模型LLM由於提供多元參數大小,被廣泛的應用於雲端與裝置端AI;作為提供自行動裝置、PC與伺服器CPU架構的Arm長期與Meta合作,宣布強化Arm CPU執行Llama 3.2 LLM的能力,整合開源創新與Arm於運算平台優勢,使各種基於Arm CPU的裝置都能流暢的執行不同大小的Llama 3.2語言模型推論。
▲透過與Meta緊密的合作,使Arm CPU能夠於執行大型語言模型推論完整發揮效能
Llama 3.2 LLM提供廣泛的參數,其中如Llama 3.2 1B與Llama 3.2 2B可支援基於文本的基礎生成式AI工作負載,適合於行動裝置離線執行,透過Arm CPU最佳化的裝置執行Llama 3.2 3B模型,可使提示詞(Prompt)處理速度提升5倍、詞元(Token)產生速度提升3倍,於生成階段實現每秒19.92個詞元,大幅縮減裝置處理AI負載的延遲,進一步提升使用體驗;且透過於裝置端AI預先處理內容,可減少需傳輸至雲端處理的資料量,進一步降低遠端系統負擔與網路傳輸成本。
Arm也針對Cortex CPU與Neoverse CPU的開發人員提供相關Llama 3.2開發資源;Cortex CPU的開發參考文件,Neoverse CPU的開發參考文件
此外現在許多雲端服務商也紛紛導入基於Arm CPU的雲端虛擬主機,這些系統的性能足以執行更大型參數的LLM,如Llama 3.2 11B與Llama 2 90B,並藉此產生文本與圖像;以亞馬遜AWS基於Arm Neoverse V2的AWS Graviton4執行11B的圖形與文本模型,可在生成階段產生每秒29.3個詞元,遠超出人類每秒約可閱讀5個詞元的速度。
Meta的Llama開源模型也是加速產業創新的關鍵,同時能公開獲取最新版本的LLM有助加速創新發展,藉由Arm與多個開源模型組織之間的合作,開源社群已經可在24小時內於Arm CPU平台布署與執行最新的LLM。
▲Arm與Meta的合作也使得Neoverse CPU具備更快的大型語言推論性能與反應速度
Arm將透過Arm Kleidi進一步支援軟體社群,使AI技術堆疊可充分發揮經過最佳化的CPU的效能;Kleidi可於任何AI框架發揮Arm Cortex CPU與Arm Neoverse CPU的AI性能,應用開發者不須進行額外整合。
▲經過最佳化後使Cortex-X925 CPU的詞元首次回應速度提升190%
此外透過Kleidi與PyTorch的整合以及通動中的ExecuTorch整合,Arm將進一步為基於Arm CPU的開發者提供自雲到端的無縫AI效能;藉由Kleidi與PyTorch整合,於AWS Graviton處理器執行Llama 3.2的詞元首次回應時間加速2.5倍。另外於行動裝置則透過KleidiAI函式庫,使llala.cpp函式庫於新一代Cortex-X925 CPU的詞元首次回應時間相較參考實作提升190%。