NVIDIA 宣布新一代的 AI 軟體套件 TensorRT 8 ,強調能夠使語言推論時間縮減一半,對於應用在搜尋引擎、廣告推薦、聊天機器人等帶來顯著的效益。TensorRT 8 針對語言相關應用進行最佳化,可在 1.2ms 執行龐大的 BERT-Large ,不須屈就性能縮減模型規模導致準確率下降。
▲藉由 Ampere 的結構化稀疏技術、量化感知訓練使 TensorRT 8 具更高的推論性能
TensorRT 8 得以大幅提升推論性能,除了軟體持續精進以外,更重要的是發揮 Ampere 架構兩項關鍵技術,其一是藉由結構化稀疏減少運算操作並提高效率,另一項關鍵是能夠以 INT8 精度執行卻不會縮減精度的量化感知訓練技術,在兩者相互結合之下使 TensorRT 8 推論性能再次提高。
▲ TensorRT8 搭配 NVIDIA A100 ,相較 TensorRT 7 搭配 NVIDIA V100 在 BERT 快了 2.5 倍
TensorRT 8 應用在當前 AI 語言認知的 BERT 能夠相益得張,不僅搭配 NVIDIA A100 執行 BERT 快了 2.5 倍,並可在 1.2ms 執行 BERT-Large 的推論,這也意味著各類語意認知應用如推薦系統、聊天機器人等能夠在極短的時間以比過往大 2 到 3 倍的模型作為基礎進行 AI 推論,能大幅提升語言認知的準確性並提高判斷的正確性。
▲各領域廣泛應用 TensorRT 開發 AI 應用,自大型數據中心到嵌入式產品皆有
TensorRT 自推出 5 年來廣泛被業界所採用,不僅只是 TensorRT 推出的早,能貫串 NVIDIA 自加速器、運算產品到嵌入式產品的 GPU 的統一開發平台、可移植性以及不斷提升效率等特色,使得 TensorRT 當前已被 27,500 家企業、達 35 萬開發者下載近 250 萬次,從資料中心到嵌入式、車載系統皆可看到 TensorRT 的應用。
▲許多串流影音服務、線上購物、社群、數位廣告使用的推薦系統是基於 TensorRT 為基礎
此次 NVIDIA 也與合作夥伴 Hugging Face 與 GE Health 公布部分應用成果, Hugging Face 藉由 NVIDIA GPU 、 TensorRT 8 執行 Hugging Face Accelerated Inference API ,達到 100 倍的加速效果,並達成僅 1ms 左右的 BERT 推論時間;至於 GE Health 將 TensorRT 應用於超音波醫療影像的機器視覺,藉由 Vivid E95 掃描儀拍攝的自動心臟圖結合基於 TensorRT 的機器視覺分析,實現近乎即時的心臟壁運動影像挑選與分析。