NVIDIA 在 GTC 宣布與多家雲服務供應商合作,推出 NVIDIA DGX Cloud ,使得企業不需採購與擁有伺服器,即可透過雲服務供應商合作託管的 DGX Cloud 基礎設施,透過瀏覽器取得超算電腦級的 AI 運算效能。
NVIDIA DGX Cloud 將透過多個雲端服務供應商提供,微軟 Azure 預計於下一季起託管 DGX Cloud 服務,包括 Google Cloud 等業者也將陸續開始供應服務, DGX Cloud 執行個體價格為每個執行個體每月 36,999 美金起。每個 DGX Cloud 執行個體皆有 8 個 NVIDIA H100 或 NVIDIA A100 80GB Tensor GPU ,單一節點具備 640GB 的 GPU 記憶體,並透過 NVIDIA Networking 技術提供高效能、低延遲網路,使多個執行個體等同一個超大型 GPU 。
DGX Cloud 將 NVIDIA DGX 強大的運算效能搬到雲端平台,提供專用的 NVIDIA DGX AI 超算叢集,並同樣可使用持續進化的 NVIDIA AI 軟體;企業能夠透過網路瀏覽器即可享有 AI 超級電腦的運算力,省卻購置、部屬與管理的複雜性。 DGX Cloud 包括 NVIDIA AI 平台軟體層 NVIDIA AI Enterprise 提供端到端的 AI 框架與預訓練模型,同時在此次的 GTC 大會也公布全新的 NVIDIA AI Enterprise 3.1 版本,帶來全新預訓練模型、最佳化的框架與加速資料科學軟體庫。
▲ OCI 將成首個 NVIDIA DGX Cloud
NVIDIA 藉由與各大雲端服務供應商合作託管 DGX Cloud 基礎設施,由 Oracle Cloud Infrastucture ( OCI )開始,並由 OCI 的 OCI RDMA Supercluster 提供專門打造的 RDMA 網路、裸機運算與高效能本地和塊儲存( Block Storage ),可擴展到超過 32,000 個 GPU 的電腦叢集。
包括生計龍頭之一的 Amgen 安進,保險科技領導業者 CCC Intelligent Solutions ( CCC )與數位業務平台服務供應商 ServiceNow 都是首批利用 DGX Cloud 的先行者。 Amgen 將其結合 NVIDIA BioNeMo 加速藥物研發,並利用 NVIDIA AI Enterprise 軟體的 NVIDIA RAPIDS 資料科學加速涵式庫; CCC 則活用 DGX Cloud 加快開發與訓練人工智慧模型速度與擴大模型規模,用於支援創新汽車理賠方案,協助推動產業導入智慧自動化; ServiceNow 則透過 DGX Cloud 與企業持有的 NVIDIA DGX 系統進行混合雲端 AI 超算作業,用於大型語言模型 LLM 、程式碼生成與休閒分析等 AI 研究,並共同管理利用 Megatron-LM 框架訓練的開放科學生成式人工智慧 BigCode 計畫。