TensorRT-LLM 將提供 Windows 平台版本,助力生成式 AI 於 PC 提升 4 倍效能並支援 Llama 2 與 Code Llama 等新式 LLM

2023.10.18 12:26PM
照片中提到了C++、PHP、CSS,包含了戴爾螺旋計劃、英偉達、戴爾電腦、戴爾EMC、英偉達

NVIDIA 宣布原本供資料中心使用的 TensorRT-LLM 將登陸 Windows 平台,使生成式 AI 於具備 RTX 硬體的 PC 提升 4 倍的效能, TensorRT 能為如 Llama 2 、 Code Llama 等新一代代行語言模型加速推論效能; NVIDIA 也同步推出協助開發者加速 LLM 執行的工具,包括使自訂模型可相容 TensorRT-LLM 的腳本、 TensorRT 最佳化的開源模型與展示 LLM 反應速度與品質的開發人員參考專案。此外, TensorRT 加速技術可用於 Automic 1111 發布的熱門 Web UI 的 Stable Diffusion ,相較先前最快的執行速度可加速達 2 倍。

TensorRT-LLM 將於 NVIDIA 開發者網站開放下載,利用 TensorRT 最佳化開源模型與使用 GeForce 新聞訓練的檢索增強生成 RAG 演示案例可透過 ngc.nvidia.comGitHub.com/NVIDIA 取得。

LLM 大型語言模型是現在許多 AI 應用的基礎,也能做為提高生產力、彙整內容、參與聊天、激盪創意的輔助工具;借助 NVIDIA 將原本用於資料中心的 TensorRT-LLM 提供至 Windows 平台,能使具備 RTX 硬體的 Windows PC 執行 LLM 達 4 倍,能夠加快處理效能、提高品質,有助於處理批量較大的複雜 LLM ,例如用於寫作與編碼同時輸出多種結果。

▲利用 RAG 導入向量庫或向量資料庫,能夠針對特定資料集產生回應

此外結合 LLM 與其它技術時, Tensor-RT-LLM 加速也能發揮作用,如運用在檢索增強生成 RAG 時, LLM 搭配向量庫或向量資料庫使用, RAG 使 LLM 能針對特定資料集產生回應;以實際案例舉證,當透過 LLaMa 2 基礎模型詢問 Alan Wake 2 心靈殺手 2 這款遊戲使用那些 NVIDIA 技術時,得到的答案是遊戲尚未推出;然而若透過 RAG 載入向量庫中的 GeForce 新聞報導並串接到同一個 Llama 2 模型,就能正確回答出使用 NVIDIA DLSS 3.5 、 NVIDIA Reflex 與全光線追蹤,且透過 TensorRT-LLM 使答案在更快的速度完成。

另外, Stable Diffusion 一類的擴散模型被廣泛應用於想像與創造各式藝術作品,影像生成需經過反覆調整運算,可能須歷經數百次調整才能完成理想的輸出結果,若效能不足將大幅延長內容的產生速度;透過 TensorRT ,可透過層融合、精確校準、核心自動調整與其它功能加速人工智慧,使推論速度與效率提高,現在 TensorRT 又能提升一倍 Stable Diffusion 速度; Stable Diffusion with TensorRT 加速技術相容 Automic111 所推出的 WebUI 圖形化介面,於 GeForce RTX 4090 執行,相較搭載 Apple M2 Ultra 的 Mac 電腦高出七倍,當前此擴充功能已開放下載。Stable Diffusion 執行管道的 TensorRT 展示內容