Arm持續攜手Meta使Arm CPU加速與擴展最新Llama 3.2大型語言模型推論能力 (225557)

大型語言模型LLM是目前生成式AI發展的關鍵，隨著裝置端AI的需求出現，使得邊際裝置也需具備一定大型語言模型的執行能力，其中由Meta推出的開源大型語言模型LLM由於提供多元參數大小，被廣泛的應用於雲端與裝置端AI；作為提供自行動裝置、PC與伺服器CPU架構的Arm長期與Meta合作，宣布強化Arm CPU執行Llama 3.2 LLM的能力，整合開源創新與Arm於運算平台優勢，使各種基於Arm CPU的裝置都能流暢的執行不同大小的Llama 3.2語言模型推論。

▲透過與Meta緊密的合作，使Arm CPU能夠於執行大型語言模型推論完整發揮效能

Llama 3.2 LLM提供廣泛的參數，其中如Llama 3.2 1B與Llama 3.2 2B可支援基於文本的基礎生成式AI工作負載，適合於行動裝置離線執行，透過Arm CPU最佳化的裝置執行Llama 3.2 3B模型，可使提示詞(Prompt)處理速度提升5倍、詞元(Token)產生速度提升3倍，於生成階段實現每秒19.92個詞元，大幅縮減裝置處理AI負載的延遲，進一步提升使用體驗；且透過於裝置端AI預先處理內容，可減少需傳輸至雲端處理的資料量，進一步降低遠端系統負擔與網路傳輸成本。

Arm也針對Cortex CPU與Neoverse CPU的開發人員提供相關Llama 3.2開發資源；Cortex CPU的開發參考文件，Neoverse CPU的開發參考文件

此外現在許多雲端服務商也紛紛導入基於Arm CPU的雲端虛擬主機，這些系統的性能足以執行更大型參數的LLM，如Llama 3.2 11B與Llama 2 90B，並藉此產生文本與圖像；以亞馬遜AWS基於Arm Neoverse V2的AWS Graviton4執行11B的圖形與文本模型，可在生成階段產生每秒29.3個詞元，遠超出人類每秒約可閱讀5個詞元的速度。

Meta的Llama開源模型也是加速產業創新的關鍵，同時能公開獲取最新版本的LLM有助加速創新發展，藉由Arm與多個開源模型組織之間的合作，開源社群已經可在24小時內於Arm CPU平台布署與執行最新的LLM。

▲Arm與Meta的合作也使得Neoverse CPU具備更快的大型語言推論性能與反應速度

Arm將透過Arm Kleidi進一步支援軟體社群，使AI技術堆疊可充分發揮經過最佳化的CPU的效能；Kleidi可於任何AI框架發揮Arm Cortex CPU與Arm Neoverse CPU的AI性能，應用開發者不須進行額外整合。

▲經過最佳化後使Cortex-X925 CPU的詞元首次回應速度提升190%

此外透過Kleidi與PyTorch的整合以及通動中的ExecuTorch整合，Arm將進一步為基於Arm CPU的開發者提供自雲到端的無縫AI效能；藉由Kleidi與PyTorch整合，於AWS Graviton處理器執行Llama 3.2的詞元首次回應時間加速2.5倍。另外於行動裝置則透過KleidiAI函式庫，使llala.cpp函式庫於新一代Cortex-X925 CPU的詞元首次回應時間相較參考實作提升190%。

Chevelle.fu

猜你喜歡

Chevelle.fu

相關消息