NVIDIA 發表能縮減一半語言推論時間的 TensorRT 8 AI 套件，能提升對話式 AI 、推薦系統效益 (163272)

NVIDIA 宣布新一代的 AI 軟體套件 TensorRT 8 ，強調能夠使語言推論時間縮減一半，對於應用在搜尋引擎、廣告推薦、聊天機器人等帶來顯著的效益。TensorRT 8 針對語言相關應用進行最佳化，可在 1.2ms 執行龐大的 BERT-Large ，不須屈就性能縮減模型規模導致準確率下降。

▲藉由 Ampere 的結構化稀疏技術、量化感知訓練使 TensorRT 8 具更高的推論性能

TensorRT 8 得以大幅提升推論性能，除了軟體持續精進以外，更重要的是發揮 Ampere 架構兩項關鍵技術，其一是藉由結構化稀疏減少運算操作並提高效率，另一項關鍵是能夠以 INT8 精度執行卻不會縮減精度的量化感知訓練技術，在兩者相互結合之下使 TensorRT 8 推論性能再次提高。

▲ TensorRT8 搭配 NVIDIA A100 ，相較 TensorRT 7 搭配 NVIDIA V100 在 BERT 快了 2.5 倍

TensorRT 8 應用在當前 AI 語言認知的 BERT 能夠相益得張，不僅搭配 NVIDIA A100 執行 BERT 快了 2.5 倍，並可在 1.2ms 執行 BERT-Large 的推論，這也意味著各類語意認知應用如推薦系統、聊天機器人等能夠在極短的時間以比過往大 2 到 3 倍的模型作為基礎進行 AI 推論，能大幅提升語言認知的準確性並提高判斷的正確性。

▲各領域廣泛應用 TensorRT 開發 AI 應用，自大型數據中心到嵌入式產品皆有

TensorRT 自推出 5 年來廣泛被業界所採用，不僅只是 TensorRT 推出的早，能貫串 NVIDIA 自加速器、運算產品到嵌入式產品的 GPU 的統一開發平台、可移植性以及不斷提升效率等特色，使得 TensorRT 當前已被 27,500 家企業、達 35 萬開發者下載近 250 萬次，從資料中心到嵌入式、車載系統皆可看到 TensorRT 的應用。

▲許多串流影音服務、線上購物、社群、數位廣告使用的推薦系統是基於 TensorRT 為基礎

此次 NVIDIA 也與合作夥伴 Hugging Face 與 GE Health 公布部分應用成果， Hugging Face 藉由 NVIDIA GPU 、 TensorRT 8 執行 Hugging Face Accelerated Inference API ，達到 100 倍的加速效果，並達成僅 1ms 左右的 BERT 推論時間；至於 GE Health 將 TensorRT 應用於超音波醫療影像的機器視覺，藉由 Vivid E95 掃描儀拍攝的自動心臟圖結合基於 TensorRT 的機器視覺分析，實現近乎即時的心臟壁運動影像挑選與分析。

Chevelle.fu

猜你喜歡

Chevelle.fu

相關消息