台灣作為 NVIDIA GTC 國際巡迴第一站,再度由執行長黃仁勳親自進行主題演講,開場仍強調 GPU 運算是當前使摩爾定律持續延續的關鍵,他更大膽預測,接下來十年,超算效能將有百倍的增長,也使得科技、技術有全新的突破。
黃仁勳認為,考慮到能源效率、成本考量,接下來的超級電腦在務實面的考量,勢必要透過 GPU 加速大幅提升效能, NVIDIA 在十年內以 GPU 搭配 CUDA ,在超級運算領域提供達 550 種可藉由 GPU 加速的應用,從分子建模,量子、力學,氣象、物理、能源,資料科學與 AI ,且影響
為模擬與機器學習兩造需求重塑 TensorCore GPU
為了模擬與機器學習等當前超級運算應用, NVIDIA 也重新審視並再造 GPU ,開發出 TensorCore ,將 FP64 、 FP32 、 FP16 與 Int8 以及單週期 4x4 矩陣乘法累加等多種運算所需的精度加以結構化,並融入 GPU 架構中,而第一款產品,亦是 NVIDIA 最新一代的運算級 GPU 架構 Volta ,融合達 125 個 TensorCore 。
但這樣還不夠,超級運算不僅需要運算力,亦需要大量的記憶體, NVIDIA 已經開發了 NVLink 技術使最多 8 顆 GPU 共享運算力與記憶體,可視為一顆大型的虛擬 GPU ,但這樣還不夠, NVIDIA 藉由基於台積電 12nm 製程的 NVSwitch ,藉由雙向高速通道串接兩組 NVLink 模組,將 16 顆 GPU 化為更驚人的虛擬化 GPU ,並具備高達 256GB 的記憶體。
同時 NVIDIA 也藉此打造了新一代超級電腦 DGX-2 ,雖然單價達到 39.9 萬美金,卻能以單一台超級電腦挑戰價格高出 8 倍的傳統大型伺服器群,同時僅需 1/60 的體積與 1/18 的功耗,更不用說省卻了多伺服器連接的複雜纜線與熱管理。
引領 AI 與超算產業的 HGX-2 雲伺服器平台
同時, NVIDIA 也首度在台灣發表新一代雲伺服器平台 HGX-2 , HGX-2 實質上就是用於 NVIDIA 新一代超級電腦 DGX-2 當中的模組,具備達 2PFLOPS 的效能;在 DGX-2 內就包含兩張透過 NVSwitch 連接的 HGX-2 模組,而藉由發表 HGX-2 伺服器模組,使得全球的伺服器與超級電腦業者可在新伺服器中搭載此模組,建構針對科學與運算之 FP64 、 FP32 高精度運算,以及適用於 AI 訓練與推論的 FP16 與 Int8 格式,因應當前同時兼具超級運算與 AI 的市場需求。
目前包括聯想、雲達、美超微以及緯穎等 OEM 廠商已經預計在今年內推出搭載 HGX-2 所設計的系統,而台灣的富士康、英業達、廣達以及緯創也同樣預計在今年內推出搭載 HGX-2 的系統,同時這些系統也將被用在全球的大規模雲端資料中心。
深度學習的驚人成長與廣泛應用
在五年前,多倫多大學的 Alex Krizhevsky 藉由兩張 NVIDIA GTX 580 搭配 CUDA ,在 6 天內進行 AlexNet 培訓,一舉突破當時影像辨識精確度的極限,也掀起一股影像辨識戰爭;在今日,藉由一台 DGX-2 ,僅需 18 分鐘即可達到當年 Alex Krizhevsky 的訓練成果,效能成長了 500 倍。
而這樣的爆炸性效能成長,也催生各種應用,在 GTC Taiwan ,就以基於深度學習的影像處理作為示範,此項模型是藉由反覆的照片與被破壞處理後的照片交叉進行培訓,使此影像處理模型能夠自然的進行照片中的物件移除,並進行自然的修復,或是將人物的法令紋消除,加以年輕化等。
同時, NVIDIA 亦宣布幾項台灣的 AI 在地化應用,包括富士康集團旗下鴻騰科技集團利用人工智慧做為產線檢測的應用,中國醫藥大學藉由 AI 作為醫生用於研判患者癌症腫瘤轉移,台灣大學的鼻咽癌病危器官預測,還有台灣人工智慧實驗室透過無人機與 AI 作為台南橋梁監測以及防災應用,桃園市更預計在 2020 年將 Level 3 的自動駕駛公車用於 30% 的固定行駛路線上,展現台灣積極導入 AI 的一面。
不僅只是硬體, NVIDIA TensorRT 助超大規模推論持續進化
雖然 NVIDIA 對多數人的印象還停留在硬體晶片公司,然而 NVIDIA 為了推廣 GPU 加速技術,也積極的投入軟體領域,畢竟光是空有一身高性能硬體,卻無親切的開發介面,是難以吸引開發者使用;為了達到超大規模推論,需要具備可編程、低延遲、高精度、大規模、高運算量以及高能源效率等條件,這幾大項可縮寫為 PLUSTER 。
為達 PLUSTER 之所需, NVIDIA 的武器就是持續的更新 TensorRT , TensorRT 4 目前已經能夠支援影像與語音辨識、自然語言處理與個人化建議,且目前 TensorRT 已經廣泛的被業界所採納,包括 Google 已經將原生 TensorRT 4 整合到 TensorFlow 中,廣受歡迎的語音辨識框架 Kaldi 也經過最佳化,同時也為支援 PyTorch 與 MXNET 開發架構的 ONNX 提升速度,並可支援微軟的 WinML 等。
同時 NVIDIA GPU 亦與 kubernetes 深度整合, kubernetes 是目前為數眾多的超大規模資料中心伺服器中的擴充與編排 AI 容器,且當前除了能夠識別 GPU 外,亦可藉由虛擬化的方式提供彈性的 GPU 調配,甚至可跨服務進行 GPU 資源並用,如同時使用來自 NVIDIA GPU 伺服器與亞馬遜 AWS 所提供的 GPU 資源,將兩方的 GPU 算力用於 AI 培訓與推論。
另外, NVIDIA 的 GPU Cloud 亦是 NVIDIA 為 AI 所投注的資源,藉由 NVIDIA GPU Cloud 雲端容器登入服務,能將 AI 簡化,只要透過登入、下載與運作,即可完成操作, NVIDIA GPU Cloud 的加速堆疊容器可用於包括深度學習、 HPC 、 HPC Viz 與分析領域,同時產生的最佳化堆疊可用於包括 AWS 、 Google 雲端平台、 AliCloud 與 Oracle Cloud 等平台。
由更強的運算力與 AI 交織的市場新機會
因為運算力的提升與 AI 技術的突破,也帶來市場的新機會,黃仁勳就列舉了幾項他看好的領域,首先就是用於娛樂與商業設計的影像渲染技術;過往影像的光影處理都需要經過長時間的渲染與處理,即便只是電影中幾秒鐘的畫面,背後需要龐大且高效能的運算伺服器以極大的電力耗費數時才能處理完成,萬一處理程序中間出現疏失,又得從頭開始。
然而 NVIDIA 今年提出了全新的 RTX 技術,透過 AI 技術與 DGX Station ,實現即時的全局光照模擬,且利用 AI 技術將物體的反光、陰影效果與表面質感處理的更逼真,更重要的是不需要長時間的後製處理,就可即時看到效果,此項技術也已經獲得電影產業的青睞,包括 Sony 、二十世紀福斯、夢工廠、 PIXAR 、華納兄弟等,都宣布將利用 RTX 技術作為電影後製處理。畢竟不僅伺服器成本低於過往 Render Farm 的渲染系統,同時縮減的處理時間更帶來驚人的效益。
此外在醫療影像方面, NVIDIA 也提出 CLARA 醫學影像超級電腦計畫,藉由深度學習與 3D 即時處理,能將傳統的斷層掃描轉化為彩色 3D 模型,有助於判斷患部以及更容易發現患部。
至於在城市安全, NVIDIA 也提出大型視訊串流分析與關鍵應用方案 NVIDIA Metropolis ,藉由即時處理多路攝影機的影像訊號,實現都會安全、智慧交通分配等應用。
最後一項就是 NVIDIA 近期的重點, NVIDIA DRIVE 端對端平台,藉由位於雲的 NVIDIA GPU ,搭配同樣具備 CUUA 架構的嵌入式超級電腦,使得人工智慧培訓與部屬變的更容易,同時利用 NVIDIA 的圖形技術,更可打造虛擬的駕駛培訓環境,讓自動駕駛系統在未正式進行道路駕駛前,即可在虛擬環境中進行反覆的訓練與驗證,且亦能在虛擬環境中反覆測試自動駕駛模型在惡劣氣候的可靠性,這也是在真實環境中難以重複驗證的。
同時, NVIDIA 在先前聖荷西的 GTC 已經介紹過透過遠端控制技術結合 Holodeck 的 Project Wakanda ,打造出宛若漫威電影"黑豹"當中瓦甘達的遠端駕駛,在台灣場次,由於法規、技術與場地等限制,雖未能如聖荷西進行實際的車輛遠端控制,不過仍利用迷你遙控車搭配 Holodeck 示範遠端駕駛的應用。
除了進行遠端駕駛以外,這項技術亦有相當多元的應用可能性,例如機具操作的培訓,駕駛技術訓練,遠端的無人機具控制、危險環境的工程機具控制、災區的機具駕駛等等,都可能藉由這項技術進行活用。
黃仁勳在活動的最後,強調 NVIDIA 提供了完整的端到端硬體與軟體,供有志投入超級運算、人工智慧領域的開發者以及新創公司作為利器,同時也因為 AI 技術的突破,有許多新的市場商機有待挖掘,他個人也看好基於自動化技術的無人車與機器人領域發展。
更多NVIDIA GTC的精彩技術呈現,癮科技站長吳顯二直接帶你直擊→