以 NVIDIA GPU 加速的 Sprak 3.0 結合 Cloudera Data Platform 數據平台,完成以往數據科學研究不可能的任務

2021.08.06 08:43PM
照片中提到了眉-個-0、NVIDIA、CLOUDERA,跟英偉達有關,包含了英偉達cuda、商標、產品設計、牌、字形

雖然在目前數位化的時代,資料科學的整理、研究與分析早已成為一項顯學,但隨著數據量激增,從海量數據找出真正有用的資料並加以分析也變的日益困 難, NVIDIA 也為了解決資料分析領域的困藉,在 2020 年底的 GTC 大會宣布 Cloudera 其中一家結合 NVIDIA EGX 平台實現邊際 AI 的軟體基礎架構供應商; NVIDIA 近日就公布了一項美國國稅局資料科學家 Deborah  Tylor 的實例,由她講述如何活用基於 NVIDIA GPU 加速的 Spark 3.0 結合 Cloudera Data Platform ( CDP )達成以往被視為不可能的任務。

照片中提到了Democratizing Enterprise Al & Data Science、Cloudera Data Platform powered by NVIDIA Computing、DATA MANAGEMENT,包含了圖、產品設計、牌、產品、組織

▲ Cloudera 是在 2020 年當中宣布支援 NVIDIA EGX 邊際 AI 解決方案的關鍵軟體供應商之一

Deborah Tylor 是任職美國國稅局的資料科學家,她的任務即是自美國國稅局超過 300TB 以上的資料庫挖掘能夠協助發現身分盜用與其它詐,但原本使用 CPU 伺服器進行徹夜的整理工作,的整理工作,仍無法從中找出有效的數據行為。 

照片中提到了Optimized Solution for Modern Enterprises、Accelerated data science workflows without code changes、Improve Model Accuracy and,跟帕森斯至尊高爾夫有關,包含了角度、MLSM 學院 Sundernagar、產品設計、牌、產品

▲在不更動程式碼的情況即可提升 5 倍效益

而在 Deborah Tylor 陷入泥沼之際,負責支援國稅局資料分析師技術支援團隊的 Cloudera 解決方案工程師 Nasheb Ismaily 恰好拜訪 Tyler 的主管 Rahul Tilekar ,並詢問美國國稅局的資料科學研究團隊是否嘗試過以 GPU 加速的 Apache Spark 3.0 結合 CDP 發揮進一步的效益。原本美國國稅局的獨立伺服器即有安裝 NVIDIA 的 GPU ,Rahul Tilekar 也在分散式叢集以 Spark 執行這些 GPU 有段時間,於是就接受 Cloudera 的建議。

照片中提到了Teaming Up to Speed Enterprise Data Science、Cloudera Data Platform powered by NVIDIA now available for、customers using CDP,包含了圖、產品設計、產品、組織、網頁

▲在 NVIDIA 資料工程師的協助下,把原本透過 CPU 執行但結構特別差的任務插入 Spark 的 RAPID 開源函式庫

即便未更動程式碼,光是將原本的工作流轉移到以 GPU 加速的 Spark 3.0 與 CDP ,就使許多工作速率提升 5 倍,但仍有些地方遭遇延遲的問題;為了解決這些問題,Ismaily 找來 NVIDIA 的資料科學家協助檢查代碼,並找出一部分仍在 CPU 執行但資料結構特別差的任務,同時重新調整程式碼將其插入 Spark 的 RAPIDS 開源函式庫軟體介面。

照片中提到了Exabytes of Enterprise Data Ready to Power AI、CLOUDERA、CLOUDERA DATA PLATFORM POWERED BY NVIDIA,包含了火星谷或死亡谷、死亡之谷、多媒體、谷、軟件

▲藉由能活用 GPU 加速的 Sprk 3.0 ,得以透過數倍的速度處理大量資料數據

藉由調整程式碼後,所有的資料能夠完全進入分散式的 Spark 叢集的 GPU ,使個效率完全提升,能以四個節點的叢及執行整個分析程式。美國國稅局藉由結合 Cloudera 與 NVIDIA 的軟硬整合,在資料工程與資料科學工作流程速提升 10 倍,但成本僅需原本的一半,其中的關鍵即是 Spark 3.0 開始支援 GPU 加速。