Google這間公司最可怕之處,在於其恐怖的前瞻執行力,每當眾人還在清談「技術趨勢」之際,就突然石破天驚的昭示天下:我們早就應用在實際的產品。其諸多豐功偉業中的最知名案例,莫過於在2013年底,Google爆炸性的公開其「規劃佈署已達3年」的B4資料中心廣域網路,開大規模商業化軟體定義網路(SDN)之先河。
近年來Google投入人工智慧市場,自行打造的TPU更是值得大書特書的經典,專注於推論的第一代TPU早在2015年就投入應用,2016年Google I/O公佈其全貌,而隔年用於深度學習的TPU v2就登場了,2018年Google I/O更跑出性能暴漲「8倍」的第三代,就算第四代早就默默的上線服役,也不是太讓人感到意外的結果。
但不知道是否寧願集中精神在推進嶄新雲端服務,或著基於其他不可告人的理由,Google發表第三代TPU的腳步,也彷彿學到了Intel IBM的「擠牙膏」精隨,2019年的HotChips 31也只是在教程議題中「偷渡」了TPU v3的部份細節(所以某些只看議程標題的人,就不會察覺到這件大事),到了2020年才算真相大白。
Google's Training Chips Revealed: TPUv2 and TPUv3
如果各位科科很懶得去理會TPU v2和TPU v3之間的細節差異,只要參考Google官方線上說明文件的這張比較圖就夠了。
至於核心層面的差異性,除了仍舊著重提昇記憶體頻寬,有一點倒是值得一提,TPU v3執行的指令,是1個332位元長的超長指令集(VLIW),VLIW指令包內總計有2個純量指令、4個向量指令(其中2個是記憶體載入/回存)、2個矩陣指令、6個立即值、與1個雜項應用。
眼尖的科科或許會注意到TPU v3跑出了「運算元置換(Transpose / Permute)」功能單元,只要記得下面這張圖,就了解這在幹什麼好事了。
強化多晶片連結匯流排,打造更大規模的「人工智慧超級電腦」,更是TPU v3的重頭戲。
同樣1片系統主機板裝4顆TPU,TPU v3組成的人工智慧超級電腦,擁有前代8倍以上的效能、8倍的記憶體容量、4倍的晶片數量、與4倍的最大裝置設定數(可切割成256個獨立運算平台)。
爬文至此,各位科科想必也不難理解,近來人工智慧晶片熱潮逐漸消退、「AI晶片」新創公司併購案此起彼落(尤其得感謝生氣亂買公司的Intel)的主因,因為這票新創公司做出來的東西,不見得真的符合開發者的需求,更罔論擠身隨手可得的雲端服務。擁有龐大雲端服務基本盤的Google,和靠著GPU市佔率的結實地基而穩紮穩打的NVIDIA,就讓AI晶片變成了棘手的生意,像中國的DEEPHi(深鑑科技)可以被FPGA巨頭Xilinx收購,已經算是很棒的結局了。
18 則回應
怎麼像是寫給自己看的文章.
還有一堆 自以為是的「幽默」, 實在很無聊.
但是還是先按讚假掰一下