現在生成式 AI 是當紅的議題,透過幾串文字敘述產生符合敘述的圖像,能加速內容創作與激發創作者的想像; Intel 實驗室宣布與 Blockade Labs 合作,推出名為 Latent Diffusion Model for 3D ( LDM3D )的擴散式模型生成式 AI ,不同於當前多數生成式 AI 僅限產生 2D 與平面圖像, LDM3D 可利用文字提示創作可 360 度觀看的內容,進一步為包括娛樂、遊戲、建築到設計等應用,具備為內容創作、元宇宙應用與數位體驗帶來變革的潛力。
為了呼應 Intel 的 AI 民主化, Intel 當前正透過 HuggingFace 進行 LDM3D 開源工作,使 AI 研究人員與從業者能進一步改善並客製化。 LDM3D ( HuggingFace )
LDM3D 最大的特色是能夠產生具備影像與深度圖的 3D 內容,借助具備深度資訊,可進一步將內容提升至可 360 度觀看,同時相較標準深度估測後處理法,能為每個像素提供更精確的相對深度,且使用的參數數量幾乎與當前僅能產生 2D RGB 平面圖像的潛在擴散模型相同,這也使得 LDM3D 可透過文字敘述建構精密的 360 度全景圖,產生具沉浸感的數位內容,並可用於包括 VR 等各式 3D 內容相關的應用。
▲ LDM3D 由於將 RGB 圖像與相對深度在單一程序建立,相較先創建內容後轉 3D 能節省記憶體與縮減延遲
LDM3D 由 LAION-400M 資料庫的 1 萬個樣本進行訓練,包含超過 4 億個影像與文字標註,藉由 Intel 實驗室開發的 Dense Prediction Transformer DPT 大型深度估測模型隊訓練與料庫進行標註,能為影像中每個像速提供高精度的相對深度,使訓練後的模型與流程可結合 RGB 影像與深度圖,產生的內容可藉此產生 360 度視角,同時由於 RGB 影像與深度圖在單一流程建立,也能夠節省記憶體用量與減少延遲; LDM3D 是透過搭載 Intel Xeon 處理器與 Intel Habana Gaudi AI 加速器的 AI 系統進行訓練。
同時 Intel 實驗室與 Blockade Labs 開發利用標準 2D RGB 照片與深度圖創造沉浸式、可互動的 360 度視角體驗的 DepthFusion 應用程式; DepthFusion 使用以節點為基礎的 TouchDesigner 可視化語言模型,能將文字提示轉換為可互動與沉浸的數位體驗。