Tesla 自有超算系統 AUTOMOTIVE 搭載達 5,760 個 NVIDIA A100 GPU 與具 1.8 exaflops 算力,專為自動駕駛訓練而生

2021.06.29 01:32PM
照片中提到了In-house supercomputer、akarpathy、Our latest cluster (1 of 3):,跟放大有關,包含了特斯拉公司、麝香、特斯拉公司、電動車、汽車

NVIDIA 曾為 Tesla 初期自動駕駛系統核心的供應者,不過隨著 Tesla 自行開案設計專為自動駕駛推論的晶片後與 NVIDIA 的關係變得微妙,然而無論如何為了建構良好的自動駕駛 AI 模型,還是需要有一套高效率的 AI 超算系統,於是 Tesla 又再度使用 NVIDIA 的硬體架構作為自動駕駛技術與輔助駕駛技術之深度神經網路模型訓練的超級電腦 AUTOMOTIVE 的關鍵元件。

Tesla 的 AUTOMOTIVE 共具備 720 個節點、每個節點具備 8 張 NVIDIA A100 Tensor Core GPU ,共計有 5,760 個 GPU ,並提供達 1.8 exaflops 的算力,以每秒浮點運算性能可達到全球超級電腦榜單的第 5 位。

照片中提到了NVIDIA.、---,跟英偉達有關,包含了NVIDIA A100、NVIDIA 900-21001-0000-000 NVIDIA VCX A100 40GB CoWoS HBM2 PCIe 4.0、戴爾 NVIDIA Ampere A100 PCIE 250W 490-BGFV、圖形處理單元、安培

▲ Tesla 的 AUTOMOTIVE 共動用 5,760 個 Tesla A100 GPU

而 Tesla 在車輛開發技術使用銘為 Shadow Mode 的方式執行深度神經網路,此模式不會實際控制車輛,僅在行駛過程進行感知與預測,同時系統會記錄預測錯誤或誤判的情況, Tesla 的工程師在利用這些數據建構一個複雜且多場景的訓練資料級,作為其神經網路模型的訓練樣本。

Tesla 共收集約百萬個以 36fps 的十秒畫面,總資料量累計達 1.5PB ,同時再把這些資料送到神經網路訓練平台,直到系統未出現錯誤為止,而後完成訓練的模型再度送回車輛並重複 Shadow Mode 的執行流程。

除了自動駕駛模型訓練外, AUTOMOTIVE 當前的神經網路架構還容許使 20 個工程師同時在單一網路工作,並可區隔不同功能進行同步開發。