NVIDIA 發表能縮減一半語言推論時間的 TensorRT 8 AI 套件,能提升對話式 AI 、推薦系統效益

2021.07.20 09:00PM
照片中包含了建築、產品設計、牌、產品、圖形

NVIDIA 宣布新一代的 AI 軟體套件 TensorRT 8 ,強調能夠使語言推論時間縮減一半,對於應用在搜尋引擎、廣告推薦、聊天機器人等帶來顯著的效益。TensorRT 8 針對語言相關應用進行最佳化,可在 1.2ms 執行龐大的 BERT-Large ,不須屈就性能縮減模型規模導致準確率下降。

照片中提到了ANNOUNCING TensorRT 8.0、World-Leading Performance & Accuracy on NVIDIA Ampere Archi tec ture GPUS、2x,跟名人遊輪有關,包含了圖、業務流程、數據、計算機和信息技術、組織

▲藉由 Ampere 的結構化稀疏技術、量化感知訓練使 TensorRT 8 具更高的推論性能

TensorRT 8 得以大幅提升推論性能,除了軟體持續精進以外,更重要的是發揮 Ampere 架構兩項關鍵技術,其一是藉由結構化稀疏減少運算操作並提高效率,另一項關鍵是能夠以 INT8 精度執行卻不會縮減精度的量化感知訓練技術,在兩者相互結合之下使 TensorRT 8 推論性能再次提高。

照片中提到了TensorRT 8 SLASHES BERT INFERENCE、Brings a New Wave of Real-Time Conversational Al Applic ations、1.2 ms,跟磨砂爸爸有關,包含了圖、商標、牌、產品設計、字形

 

▲ TensorRT8 搭配 NVIDIA A100 ,相較 TensorRT 7 搭配 NVIDIA V100 在 BERT 快了 2.5 倍

TensorRT 8 應用在當前 AI 語言認知的 BERT 能夠相益得張,不僅搭配 NVIDIA A100 執行 BERT 快了 2.5 倍,並可在 1.2ms 執行 BERT-Large 的推論,這也意味著各類語意認知應用如推薦系統、聊天機器人等能夠在極短的時間以比過往大 2 到 3 倍的模型作為基礎進行 AI 推論,能大幅提升語言認知的準確性並提高判斷的正確性。

照片中提到了NVIDIA TensorRT ADOPTED EVERYWHERE、The World's Most Advanced Inference SDK、2.5M,跟LG G5、SK電訊有關,包含了軟件、產品設計、多媒體、牌、產品

▲各領域廣泛應用 TensorRT 開發 AI 應用,自大型數據中心到嵌入式產品皆有

TensorRT 自推出 5 年來廣泛被業界所採用,不僅只是 TensorRT 推出的早,能貫串 NVIDIA 自加速器、運算產品到嵌入式產品的 GPU 的統一開發平台、可移植性以及不斷提升效率等特色,使得 TensorRT 當前已被 27,500 家企業、達 35 萬開發者下載近 250 萬次,從資料中心到嵌入式、車載系統皆可看到 TensorRT 的應用。

照片中提到了RECOMMENDERS、THE PERSONALIZATION ENGINE OF THE INTERNET、DIGITAL CONTENT,包含了多媒體、數碼展示廣告、產品、牌、字形

▲許多串流影音服務、線上購物、社群、數位廣告使用的推薦系統是基於 TensorRT 為基礎

此次 NVIDIA 也與合作夥伴 Hugging Face 與 GE Health 公布部分應用成果, Hugging Face 藉由 NVIDIA GPU 、 TensorRT 8 執行 Hugging Face Accelerated Inference API ,達到 100 倍的加速效果,並達成僅 1ms 左右的 BERT 推論時間;至於 GE Health 將 TensorRT 應用於超音波醫療影像的機器視覺,藉由 Vivid E95 掃描儀拍攝的自動心臟圖結合基於 TensorRT 的機器視覺分析,實現近乎即時的心臟壁運動影像挑選與分析。