NVIDIA專文介紹TOPS、Token與Batch Size，闡述搭載RTX獨顯 AI PC為何較僅有NPU的AI PC在生成式AI具壓倒性效能 (218099)

歷經微軟在2024年5月宣布的Copilot+ PC計畫，並將其包裝成Windows陣營的進階AI PC，一夕之間整合於CPU的NPU的AI TOPS似乎成為衡量AI PC的戰力單位，套電影「賭神」的經典台詞：任何CPU只要有40 TOPS以上的NPU都可以稱為Copilot+ PC，不過一套性能強大的AI PC真的只要NPU夠強就行嗎？關於這點AI關鍵硬體龍頭NVIDIA肯定不會苟同，故在最新的「解碼AI」系列官方部落格專文，特別針對AI運算單位的TOPS、Token還有Batch Size與AI之間的關係進行解釋。

AI性能基礎計算單位：TOPS

如同遊戲使用FPS作為評量性能的單位一樣，在評估AI性能的基準使用的是TOPS/每秒兆次運算，當然TOPS數字越高也表示執行AI的性能越強大；NVIDIA指出以微軟Copilot+ PC應用當中的裝置端輕度聊天機器人應用，40 TOPS的運算性能已經算是充裕；然而當AI任務以產生更複雜內容與圖像的生成式AI任務時，40 TOPS就僅是杯水車薪；NVIDIA以當前消費級最頂級的顯示卡GeForce RTX 4090為例，GeForce RTX 4090的算力達到1,300TOPS，足以在裝置端處理AI輔助數位內容、遊戲內的AI超解析與畫格生成，自文字或視訊產生影像，以及查詢本機端大型語言模型。

反應大型語言模型運算表現的Token

TOPS是用於廣泛反應AI性能的基本計算單位，不過作為目前最熱門的生成式AI大型語言模型LLM還有更具象徵性的衡量單位，稱為Token；Token譯為詞元，是大型語言模型所產生的結果，Token可以代表句子中的一個字，或式標點符號或空格等較小片段，故執行LLM每秒能產生的Token就成了代表系統執行生成式AI的衡量指標。

Batch Size在生成式AI推論至關重要

▲Batch Size決定一次推論可同步處理的輸入數量

Batch Size為批次大小，是一次AI推論過程同步處理的輸入數量，在大型語言模型成為現代諸多AI系統的核心的當下，能夠處理多個輸入的能力(如來自單一應用程式或跨多程式輸入)將為區分大型語言模型差異的重要因素，Batch Size的容量將決定能同步處理輸入內容表現，同時也需要更大的記憶體，越大的模型需要的記憶體也就更多。

相較於Copilot+ PC的應用是使用主機系統記憶體，在執行大型語言模型需與作業系統、底層應用程式共享記憶體，導致即便配有16GB系統記憶體，也不能全部挪用於執行大型語言模型的Batch Size的記憶體；其中消費級的GeForce RTX顯示卡可提供24GB VRAM、用於工作站的專業繪圖RTX GPU則進一步達到最高48GB VRAM，在不與系統底層共用之下能做為更大容量的Batch Size，並甫以還有為大型語言模型最佳化TensorRT-LLM軟體進一步發揮效能。

GPU執行文字轉影像的生成式AI具壓倒性的表現

Stable Diffusion不僅是當前熱門的文字轉圖像生成式AI，也經常作為生成式AI的效能評估，在這類複雜且具混合性的AI應用，GPU具備比CPU、NPU更高的效能，且若將TensorRT擴充項目與Automatic1111介面，還能進一步提高性能，利用RTX GPU使用SDXL Base檢查點根據提式產生影像的速度提高2倍；而另一項熱門Stable Diffusuion使用者介面ComfyUI甫在6月上旬加入TensorRT加速功能，使圖像生成速度提高60%、搭配Stable Video Diffusion與TensorRT可將影像轉式迅速度提高70%。

透過UL Benchmark的UL Procyon AI圖像測試基準以GeForce RTX 4080 SUPER進行測試，相對速度最快的非TensorRT執行的執行速度提高50%，顯見除了GPU本身的算力，若能再啟用TensorRT還可進一步解放性能。且Stability AI新一代文字轉語音模型Stable Diffusion 3也將能活用TensorRT進行加速，不僅能使效能提高50%，搭配TensorRT-Model Optimizer還能再使效能攀升，相較未使用Tensor-RT性能高出70%，且記憶體用量減少50%。

不過在這類文字轉語音任務最大的挑戰是基於原始提是的反覆運算，即是在產生初步結果後追加描述的再次運算，對比搭配M3 Max處理器的MacBook Pro需花費數分鐘才能進行反覆運算，RTX GPU則可在幾秒內完成反覆運算；雖然這一類任務透過雲端服務能夠獲得更出色的成效，然而牽涉到個人隱私或企業使用，於搭載RTX GPU的高效能PC或工作站離線直行，有助確保資料安全與隱私。

公布結果與開源的公開透明

▲jan.ai比較啟用TensorRT前後的結果，發現性能有30%-70%的提升

開源Jan.ai模型的AI研究人員與工作團隊已在日前將TensorRT-LLM納入本機端聊天機器人應用程式，同時也測試這些項目公布結果；研究人員在社群反覆搭配各種GPU與CPU測試，針對開源的Llama.cpp推論引擎測試TensorRT-LLM執行情況，發現在相同硬體導入TensorRT比起Llama.cpp高出30%-70%效能，且在連續處理執行還有更佳的效率，團隊也公布自己的方式邀請其它人員進行生成式AI的效能評估。

AI性能基礎計算單位：TOPS

反應大型語言模型運算表現的Token

Batch Size在生成式AI推論至關重要

GPU執行文字轉影像的生成式AI具壓倒性的表現

公布結果與開源的公開透明

猜你喜歡

Chevelle.fu

相關消息