NVIDIA Research 探索 AI 與影像的未來, GauGAN 詮釋 AI 如何將影像分析反推為塗鴉成畫

2019.10.07 10:11PM

隨著 AI 技術崛起, NVIDIA Research 展出許多結合 GPU 與 AI 的視覺應用,其中今年發表的 GauGAN 透過取自真實風景照為藍本,操作者只需透過象徵各類景物的畫筆描繪幾筆,就可產生栩栩如生的風景照,在今年 GTC 大會宣布開放使用之後,不僅吸引喜歡科技技術的玩家聚精會神創作風景照,更有專業視覺創作者透過 GauGAN 產生電影概念視覺的背景,或是藉其產生的風景畫作為藍本,進而作為作品的參考藍本。

GauGAN 目前免費放在 NVIDIA Research 的網頁上,只要透過瀏覽器即可操作,運算則由雲伺服器進行,有興趣的使用者可打開 GauGAN 網頁體驗塗鴉成風景的樂趣: GauGAN

▲ NVIDIA 首席研究科學家劉洺堉

而 GauGAN 的重要推手,是出自台灣的 NVIDIA Reasearch NVIDIA 首席研究科學家劉洺堉,劉洺堉也在稍早分享了 NVIDIA Research 到底在做甚麼,以及從各類研究到 GauGAN 等計畫的分享,還有一些未來的展望。

▲ Deep Imagination Research 透過機器學習與機器視覺實現三大目標

劉洺堉所屬的團隊為 NVIDIA Deep Imagination Research,其宗旨是藉由深度學習與機器視覺的結合,實現機械創造、即時圖像與內容創作三大目標,而 GauGAN 可說是這一路走來其中的一項重大成果。

在公布 GauGAN 之前, NVIDIA Deep Imagination Research 也發表許多的研究成果,這些研究成果的積累之下,成就現在看到的 GauGAN 。

在 2017 年, NVIDIA Deep Imagination Research 發表了 UNSUPERVISED ,是可將影片中的背景置換成不同季節、氣候,當時的目標是為了可創作自駕車訓練用的行車環境素材,不過當時僅是一對一的對應變化。

以此為契機,而後在隔年推出的新研究則訴求以單一素材輸入、輸出多元結果,當時以將狗的短片輸入系統,而後變化成多種有著一樣神情的貓的短片。

不過說到啟發 GauGAN 計畫的前身,則可追溯到 PIX2PIXHD 研究項目,這是一項可把輸入的影像套用各種名畫的風格,讓原本的風景畫宛若大師畫作的筆觸。而後也將這項技術應用在名為 VID2VID 研究上,可以把一段人物短片的動作套用到另一個人物上,且由原本需要費時 15 分鐘捕捉自動產生動作的人物的時間,在後續以 ADAPTIVE VID2VID ,實現以單張正面靜態照,就可將影片中的人物套用到靜態照的人物上。

上面的無論哪一項研究,都會牽涉到影像分析的領域,要識別影像當中的元素, AI 才能套用到其它元素產生結果,劉洺堉也想到能不能把這樣的過程顛倒過來,讓構成圖像的元素反過來產生完整的影像,於是就有了 GauGAN 雛形的 SPADE 技術,而最後命名為 GauGAN 除了使用到 GAN 對抗生成網路外,也有做為紀念畫家高更的意念。

▲ GAN 對抗生成網路就是一組負責產生內容的 Generator 與負責檢視內容是否屬實的 Discriminator 相互抗衡

▲ GauGAN 利用對抗生成網路訓練 AI 將影像元素還原成風景畫

GauGAN 利用對抗生成網路做為 AI 基礎,以負責產生內容的 Generator 與負責判別內容是否與預期目標相符的 Disvriminator 相互抗衡,而 GauGAN 透過學習百萬張以上的真實風景照做為基礎,並讓 Generator 透過描繪的元素試圖產生畫作,而 Discriminator 再去檢視結果是否像是一張合格的風景畫。

最初 NVIDIA Research 透過一套搭載 8 張 Tesla V100 的 DGX-1 ,耗時約 3 周完成訓練,不過最近 NVIDIA 開始導入可應用 Tensor Core 的 AMP 技術,將訓練流程縮減到兩周內,這也顯示 NVIDIA 持續透過軟體創新使硬體性能得以持續突破。

▲只要把 GauGAN 的 AI 訓練其它類型的影像,亦可產生不同類型的照片內容

值得注意的是,由於 AI 學習來自真實世界的風景照,力在元素上只繪製天空、山與水, GauGAN 仍會依循真實風景畫的風格,自動在水的區塊產生山與天空的倒影。藉由 GauGAN 的技術基礎,除了風景畫以外也可用在許多領域,例如建築、室內環境、動物等等,只要將學習的藍本替換就能變化出不同的塗鴉成畫應用。

劉洺堉表示,目前 NVIDIA Research 也進一步提升 GauGAN 的機能,像是針對專業內容工作者將推出可在單機上執行的版本,其使用介面會比起當前網頁版更豐富;另外 GauGAN 也將繼續挑戰更多的目標,當前有兩大方向,其一是將提供更高解析度的影像,其二是希望能達到產生風景短片。

更高解析度照片的需求來自專業內容創作者的呼聲,不過挑戰在於當前 GauGAN 產生的風景照在細節放大後仍會有破綻,故也無法使用 AI 技術進行影像升頻,畢竟 AI 升頻也需要建立在接近真實的影像,目前也正逐步設法解決;而風景短片的挑戰則在於當前 GauGAN 在產生連續變化的影像時會產生不確定性,導致影像難以連貫,然而相較風景照片,風景短片的藍本的取得與訓練更為複雜。另外 GauGAN 還有一項暫時難解的巨大挑戰,就是太陽,因為太陽不光只有顏色、形狀,還會對周遭的景物產生光影變化,這仍是 AI 短時間難以克服的獨特物件。

▲ PetSwap 可把圈選的寵物表情套用到不同的動物上

劉洺堉也藉這次的分享活動介紹即將在近期正式發表的新研究:Petswap ,這項技術也是 GauGAN 結果的應用,只要上傳一張寵物照片,圈選做為寵物臉孔的部分, Petswap 就會把寵物臉部的表情利用 AI 套用到各種寵物上。

想把家裡的貓狗的逗趣表情套用到其它動物上,不彷玩玩看 PetSwap 的效果: PetSwap