NVIDIA 的 Tesla V100 加速器的 Volta 架構憑藉 CUDA Core 與 RT Core ,在科學運算、超級運算與大規模 AI 推論引發革命,以更少的體積、更少的能耗發揮更強的運算力,而新一代的 Turing 圖靈 GPU 架構也延續 Volta 整合 RT Core 的特性,為新一代的 GPU 挹注 AI 能力,在接連推出針對繪圖的 Quadro RTX 以及消費娛樂的 GeForce RTX 20 GPU 後, NVIDIA 也基於 Turing 圖靈 GPU 架構發表 Tesla T4 加速器,鎖定服務業對於包括語音、影像與圖像等領域對 AI 的迫切需求,搭配全新的 TensorRT 軟體,使業界更容易取得新一代的 AI 技術,並較純 CPU 環境提升 40 倍的處理速度。包括微軟的 Bing 與 Google 雲端平台等,都將陸續導入 Tesla T4 GPU 。
Tesla T4 具備 2,560 個 CUDA Core 與 320 個 Turing Tensor Core ,且受惠於 Turing 圖靈架構特性,對於 FP32 、 FP16 、 INT8 與 INT4 具備多精度與高度彈性的特色,在 FP16 可達 65TFLOPS 、 INT8 達 130TFLOPS 、 INT4 更具 260TFLOPS 的性能,而這樣的高性能 GPU 功耗僅 75W ;同時透過推論優化器與運轉時間引擎 TensorRT 5 對於 Tensor Core 的支援,能針對多精度作業附加擴充一套神經網路的最佳化。此外開發者可利用 NVIDIA TensorRT 容器化微伺服器在伺服器環境產生各種 AI 模型,開發者僅需註冊 NVIDIA GPU 雲容器即可下載 NVIDIA TensorRT 容器化微伺服器軟體,除支援熱門 AI 模型與框架外,藉此發揮資料中心吞吐量的最大化與 GPU 使用率。