雖然在目前數位化的時代,資料科學的整理、研究與分析早已成為一項顯學,但隨著數據量激增,從海量數據找出真正有用的資料並加以分析也變的日益困
難, NVIDIA 也為了解決資料分析領域的困藉,在 2020 年底的 GTC 大會宣布 Cloudera 其中一家結合 NVIDIA EGX 平台實現邊際 AI 的軟體基礎架構供應商; NVIDIA 近日就公布了一項美國國稅局資料科學家 Deborah Tylor 的實例,由她講述如何活用基於 NVIDIA GPU 加速的 Spark 3.0 結合 Cloudera Data Platform ( CDP )達成以往被視為不可能的任務。▲ Cloudera 是在 2020 年當中宣布支援 NVIDIA EGX 邊際 AI 解決方案的關鍵軟體供應商之一
Deborah Tylor 是任職美國國稅局的資料科學家,她的任務即是自美國國稅局超過 300TB 以上的資料庫挖掘能夠協助發現身分盜用與其它詐,但原本使用 CPU 伺服器進行徹夜的整理工作,的整理工作,仍無法從中找出有效的數據行為。
▲在不更動程式碼的情況即可提升 5 倍效益
而在 Deborah Tylor 陷入泥沼之際,負責支援國稅局資料分析師技術支援團隊的 Cloudera 解決方案工程師 Nasheb Ismaily 恰好拜訪 Tyler 的主管 Rahul Tilekar ,並詢問美國國稅局的資料科學研究團隊是否嘗試過以 GPU 加速的 Apache Spark 3.0 結合 CDP 發揮進一步的效益。原本美國國稅局的獨立伺服器即有安裝 NVIDIA 的 GPU ,Rahul Tilekar 也在分散式叢集以 Spark 執行這些 GPU 有段時間,於是就接受 Cloudera 的建議。
▲在 NVIDIA 資料工程師的協助下,把原本透過 CPU 執行但結構特別差的任務插入 Spark 的 RAPID 開源函式庫
即便未更動程式碼,光是將原本的工作流轉移到以 GPU 加速的 Spark 3.0 與 CDP ,就使許多工作速率提升 5 倍,但仍有些地方遭遇延遲的問題;為了解決這些問題,Ismaily 找來 NVIDIA 的資料科學家協助檢查代碼,並找出一部分仍在 CPU 執行但資料結構特別差的任務,同時重新調整程式碼將其插入 Spark 的 RAPIDS 開源函式庫軟體介面。
▲藉由能活用 GPU 加速的 Sprk 3.0 ,得以透過數倍的速度處理大量資料數據
藉由調整程式碼後,所有的資料能夠完全進入分散式的 Spark 叢集的 GPU ,使個效率完全提升,能以四個節點的叢及執行整個分析程式。美國國稅局藉由結合 Cloudera 與 NVIDIA 的軟硬整合,在資料工程與資料科學工作流程速提升 10 倍,但成本僅需原本的一半,其中的關鍵即是 Spark 3.0 開始支援 GPU 加速。