NVIDIA 在兩年前發表了基於 Pascal 架構的 GeForce GTX 10 GPU ,以強悍的性能與功耗效能比,為久未有突破的 GPU 帶來性能層面的革新,而事隔兩年, NVIDIA 推出全新世代的 Turing 圖靈 GPU 架構,並將使用已久的 GTX 改為 RTX ,作為 NVIDIA 執行長黃仁勳口中自 GPU 誕生以來最大的革命性架構突破的象徵。
此次也由 NVIDIA 提供做為 RTX 20 家族先鋒的 GeForce RTX 2080 、 RTX 2080 Ti Founder Edition 進行測試,並搭配當前唯二同時具備 4K 、 144Hz 、 HDR 1000 與 G-Sync 之一的 acer Predator X27 螢幕使用。
關於此次 RTX 20 系列所採用的 Turing 圖靈架構特色可見先前完整文章介紹;而 NVIDIA 執行長黃仁勳之所以稱 Turing 圖靈架構是自 GPU 誕生之後最突破性的架構設計的原因,乃是 Turing 圖靈除了具備 CUDA 核心以外,也加入針對 AI 的 Tensor Core ,以及革命性、將光線追蹤技術化為可即時呈現的 RT Core 。
至於 RTX 2080 與 RTX 2080 Ti 的核心則是各別基於 TU104 與 TU102 核心, RTX 2080 的 TU104 為 64 個 Turing SM ,包括 2,944 個 CUDA Core , 46 個 RT Core 與 368 個 Tensor Core ,並具備 8 GigaRay 的光線追蹤性能,配有 8GB 256bit 的 GDDR5 ;至於 RTX 2080 Ti 的 TU102 核心包括 68 個 Turing SM , 68 個 RT Core 與 544 個 Tensor Core ,具備 10 GigaRay 光線追蹤性能,以及 11GB 384bit GDDR5 。
Turing 圖靈架構介紹:性能之外帶來全新的即時 Ray Tracing 光影體驗, NVIDIA Turing 圖靈架構特色解析
全新風貌的 RTX 20 Founder Edition
這次進行測試的兩張 RTX 20 顯示卡都是來自 NVIDIA 的 Founder Edition 版本,由於銷售策略的關係,目前暫無機會在台看到正式引進的 Founder Edition 零售版本,台灣一般通路能夠買到的都是板卡品牌的自製卡。(反正也一堆人嫌 Founder Edition 醜...)
不同於 GTX 10 的 Founder Edition 採用鼓風散熱設計搭配有著複雜稜角的散熱器遮罩, RTX 20 的 Founder Edition 採用雙下吹式風扇搭配線條相對單純的散熱器遮罩,雖然材質用料仍相當扎實,但視覺上不免有一種像是瓦斯爐般的設計感;不過就結果論, RTX 20 Founder Edition 的散熱效果遠優於 GTX 10 Founder Edition 系列。
主要的原因是 GTX 10 鼓風扇結構僅依賴單風扇吸氣並以單一風道散熱,而 RTX 20 的雙下吹風扇則是有效率的直接將熱風從鰭片的四面八方吹出,更不用說更豪華的散熱片結構設計也有助於導熱;當然下吹與鼓風扇設計以風道而言各有優缺點,不過以發燒玩家多半會更偏好下吹風扇,同時也是市場比較主流的設計。
Founder Edition 預設超頻與搭配寧靜、高效率的雙風扇
也由於使用更高效率的下吹風扇設計,一部分發燒玩家質疑是不是此次 Turing 圖靈架構比起 Pascal 架構更為耗電而不得不出此策,光看 TDP 確實會有這樣的感覺,不過若有關注專業 GPU 市場的用戶應該會留意到,較 GeForce RTX 20 更早發表的 Quadro RTX 也仍維持單風扇設計,意味著單風扇仍是能維持足夠的散熱效果的。
此次 RTX 20 Founder Edition 改用雙下吹風扇的真正原因,還是回到消費者需求上;上一代的 GTX 10 Founder Edition 雖然散熱器質感極佳,不過僅採用預設時脈運作,加上單風扇在高熱的噪音問題,是不少發燒玩家詬病的地方;為了讓願意購買 Founder Edition 的玩家更有一種不光只是買信仰的尊榮感,也要在性能表現不遜於相近定價的自製卡。
從公布的規格可看到,此次 RTX 2080 Founderedition 與 RTX 2080 Ti Founder Edition 都是預設超頻,也使得 RTX 2080 使用 8+6 Pin 電源,而 RTX 2080 Ti 使用 8+8 Pin 電源,並搭配達 13 相 iMON DrMOS 供電,以基於毫秒等級的電源管理,使 RTX 2080 、 RTX 2080 Ti 無論在怎樣的時脈與負載都盡可能維持最好的轉換效率。
雙風扇搭配高效率的散熱鰭片,除有助於散熱外,更能減少高度負載時的風扇噪音,在與先前測試過 GTX 1080 同樣的機箱與 CPU 搭配下,顯然 RTX 2080 與 RTX 2080 Ti 的風扇運轉聲也更小。同時,雖然 RTX 2080 與 RTX 2080 Ti Founder Edition 已經預設超頻,不過玩家若有心還是可再進一步進行微幅超頻。
符合當前所需與未來展望的影像輸出介面規劃
Founder Edition 版本的 RTX 2080 與 RTX 2080 Ti 的輸出介面是相同的,僅提供一個 HDMI ,搭配三個 DisplayPort 與一個基於 USB Type-C 的 VirturalLink 介面,其中提供可支援 8K60 HDR 的 DisplayPort 1.4a Ready 介面,做為滿足當前與 8K 與 VR 趨勢的規劃。
雖然 VirturalLink 的介面是透過 USB Type-C ,且 VirtualLink 規範中具備 27W 供電與 USB 3.1 Gen2 ( SuperSpeed USb 10Gbps )的能力,但這個介面仍不具標準 USB Type-C I/O 的能力,僅能在連接 VirtualLink 裝置時才能提供完整功能,若接上行動硬碟等外接儲存裝置不具任何功能,但可做為 USB PD 輸出幫手機充電,只是不太建議這樣做就是...
單卡暢玩 4K 遊戲不再是遙不可及的夢想
在 GTX 10 世代,要能在 4K 解析度下開啟大量特效又要維持 30fps 以上的 Frame 數是有難度的,除了購買如 GTX 1080 Ti 或是 Titan Xp 等旗艦卡,否則就是需要搭配 SLI ,然而高階卡昂貴, SLI 除了昂貴以外也會有遊戲不一定支援或是未有最佳化的情形;不過在基礎性能獲得提升的 RTX 20 系列,靠單張 GPU 也是能暢玩 4K AAA 作品的。
此次所使用的平台與先前測試 AMD Ryzen 1800X 的平台一樣,仍為 AMD Ryzen 1800X 搭配華碩 ROG Strix X370 ,美光 8GB DDR4 RAM X2 ,以及 WD 的第一代 Black PCIe SSD ,當時搭配的正好是 NVIDIA 的 GTX 1080 ,也剛好可以做世代對照。
RTX 2080 Ti
RTX 2080
以 GTA V 來說,在 4K 解析度搭配多數特效開啟、反鋸齒開啟, RTX 2080 最低的場景也都在 40 fps 以上,平均也落在近 60 fps 以上,至於 2080 Ti 最低則是在近 50 fps 、平均 65 fps 以上;至於 Full HD 在相同條件下僅測試了 RTX 2080 ,基本上都有超過 70 張左右,多少有點殺雞焉用牛刀的有刃有餘感。
RTX 2080 Ti
基本測試項目則是以 3D Mark 進行測試,不過要提到的是這樣的組合會受限於 AMD 第一世代 Ryzen 在時脈上的表現較差,反而限制部分 GPU 性能,若是以第二世代的 Ryzen 表現會更理想些。
以同樣隸屬 80 系列的 GTX 1080 與 RTX 2080 ,在基礎性能的差異有相當顯著的落差,畢竟 RTX 2080 在基礎架構設計也經過相當大幅度的調整,不過光是定價也與 GTX 1080 Ti 甫上市的建議售價雷同,單就價格考量 GTX 1080 與 RTX 2080 並不是站在對等的位置,然而相同級距定位的產品定價一代高過一代似乎是常態,無論是消費電子到汽車產也都無一倖免。
效能之外的未來性才是重點
雖然說在上一世代的 Pascal 架構,就已經有大量的電晶體,不過融合 Tensor Core 與 RT Core 的 RTX 20 的電晶體數量更大幅激增;或許會有玩家認為,在 GPU 的電晶體不就是要盡可能用在能提升效能的領域,但 Turing 圖靈架構卻用於與遊戲娛樂看似不太相干的 AI 與即時光線追蹤上到底意義在哪?
從現在遊戲產業發展的情況,要開發一款大型作品的成本相當高,同時也會牽涉遊戲引擎的資源分配問題,尤其不少遊戲作品有大量的物件加上複雜的物理效果,已經比不少舊電影特效更為複雜,加上 4K 雖還未完全普及,但也慢慢成為趨勢,也加重對硬體的基本要求,即便將性能擺在優先規劃硬體,恐怕也不及遊戲開發商一開始採用的引擎就不佳來的嚴重。
例如近期大受歡迎的絕地求生 PRBG ,即便畫面的特效與物理水準以當今的遊戲來說不到頂尖,卻因為引擎的資源分配導致對硬體有特定的需求(例如 GPU 的 RAM 要夠大),或如同暗黑破壞神 3 初期在硬體最佳化砸鍋,即便用了當時高階的多核處理器與旗艦 GPU ,甚至流暢度有可能不及使用高時脈但核心較少的 CPU 與一般 GPU 。
說到這裡有些扯遠了,不過以事實來看,遊戲最終還是要回到使用者對於視覺的效果與流暢度,基本的 GPU 性能固然需要提升,但 NVIDIA 這次在 Turing 圖靈架構也設法藉由新的方式提升使用者體驗,而 AI 與即時光線追蹤是被視為提升體驗與視覺效果的兩種手段。
透過 AI 方式兼顧影像品質與順暢性的 DLAA
先從 AI 談起, AI 技術與遊戲的直覺聯想應該會是遊戲中 NPC 的邏輯,不過在 Turing 圖靈架構中的 Tensor Core 並不是拿來做為遊戲 NPC 的邏輯使用,是藉由基於深度學習的 AI 技術以提升畫面流暢度、細節的重要方式。 NVIDIA 最近也展示許多基於 AI 的圖像增強應用,包括超解析度、修復照片、幫黑白照片上色、使一般影片變成流暢的超級慢動作等。
而在遊戲應用層面,則是以 NVIDIA 的 DLAA 技術做為最重要的應用,這項技術是藉由 AI 方式進行遊戲中的畫面強化,旨在透過學習經過高倍取樣的遊戲畫面,以較低的資源設法使畫面達到媲美高倍取樣的影像水準,這也是此次 NVIDIA 在介紹 Turing 圖靈時,強調在 DLAA 下能夠達到 GTX1080 兩倍 Frame 數的關鍵。
雖在目前許多的深度學習系統是基於 NVIDIA 的 Cuda 核心進行加速,不過在遊戲體驗上, Cuda 本身主要的工作還是在遊戲內容的渲染,加上 AAA 等級遊戲多半需要相當高的渲染資源,如果要將有限的資源挪用於深度學習恐怕會顧此失彼,故才會加入專為 AI 推論的 RT Core 。
RT Core 的功能是在於使用基於來自 NVIDIA 超級電腦 DGX Titan V 訓練出的 DLAA 模型,透過硬體加速的方式去告知 Cuda 在接下來的場景如何有效應用運算資源進行影像細節的補強,也由於學習藍本是以不考慮流暢度為前提的高倍取樣, DLAA 可允許以更低的資源得到更好的理論畫質。
在 NVIDIA 所提供的測試,也包括基於 Unreal Engine 4 的 Infiltrator 以及 Final Fantacy XV 在 TAA 與 DLSS 兩項影像強化技術的對照;要注意的是雖然 Square Enix 有提供 Final Fantacy XV 的測試軟體,但此次的版本則是支援 DLSS 的版本,一般管道暫時無法取得。
TAA ( RTX 2080 Ti )
DLSS ( RTX 2080 Ti )
從 Infiltrator 測試項目,在 TAA 反鋸齒功能的測試,能顯著感受到 RTX 2080 與 RTX 2080 Ti 的性能落差,在整個測試前半段, RTX 2080 顯然比起 RTX 2080 Ti 少了近 5-10 frame ,而兩者在開啟 DLAA 後,幾乎都可在多半情境逼近這項測試限制的 60fps 。
光學迷彩的特效在 TAA 下會導致效能下降, DLSS 受到的影響較小
要留意的是在 Infiltrator 開頭不久,當發現主角透過光學迷彩隱藏蹤跡的片段,若是搭配 TAA ,則無論是 RTX 2080 或是 RTX 2080 Ti , Frame 都會大幅滑落,甚至最低只剩下 20 fps 左右,但 DLAA 則可維持在 40fps 以上;至於走出基地到測試結束的整體 Frame ,則受到畫面中物件過多,瓶頸反而在 CPU 上, TAA 與 DLAA 的差距因此縮減。
RTX 2080 Ti
RTX 2080
至於 Final Fantacy XV 在 4K 之下原本就相當吃硬體資源,即便如 RTX 2080 Ti 也僅能在此測試項取得 Standard 的評分,不過藉由 DLAA ,兩張 GPU 的順暢度皆獲得大幅提升,達到極致流暢體驗的等級。
更值得一提的是,在相近畫面的截圖,可比較 TAA 與 DLAA 在細節的差異,顯然更流暢的 DLAA 透過深度學習進行補強的畫面,比起 TAA 精細許多,這也拜 DLAA 原本的學習藍本是高倍取樣的畫面所賜。理論上,透過 NVIDIA 持續訓練 DLAA 模型,可使 DLAA 的畫面補強效果持續提升。
也許會有發燒玩家表示,透過 DLAA 方式以低資源進行細節強化似乎有點作弊感,並不完全代表 RTX 20 的 Turing 圖靈架構比起 GTX 10 的 Pascal 有革命性進展,但以筆者的角度,這不就是當年影像的軟解與硬解之分嗎?當初影片格式硬解剛推出時,有不少人指出軟解才是優良的解碼方式,但最終硬解憑藉不斷進化與低資源使用,最終還是成為主流。
DLAA 可說是在影像強化技術相當新穎的概念與 AI 應用,不過這也是由於 Turing 圖靈架構導入 AI 核心 Tensor Core ,才得以實現這樣基於 AI 的應用方式;同時 DLAA 的門檻也不算高,內容開發商甚至不需要自行培訓模型,僅需加入 NVIDIA 的 RTX 計畫, NVIDIA 就會透過他們總部的超級電腦持續培訓對應的 DLAA 模型。
即時光線追蹤還待陸續導入
至於在視覺上的提升,則在於與微軟合作的 RTX 即時光線追蹤技術,這項應用已經多次進行展示,不過當前礙於微軟才剛將 DirectX 當中的 DXR 功能導入 Windows 10 October Update (版號 1809 ),而內容開發者也還未正式把 RTX 導入正是遊戲內容,還待遊戲開發商透過 Patch 啟用 DXR ,當前即時光線就變成有點未來式的狀況。
當然光線追蹤並非新技術,在電影產業、遊戲、廣告、 CG 照片、商品宣傳的特效,也早已廣泛的使用光線追蹤技術營造光影,不過如在靜態照片、影片的光線追蹤並非即時完成,而是透過高效能的伺服器運算、並進行輸出的結果,主要的原因是要能實現複雜的即時光線追蹤,需要繁雜的物理運算以及材質特性模擬。
當前能夠實現即時光線追蹤的關鍵,除了硬體性能提升之外,還拜 MDL 統一材質語言的成熟,以及 Turing 圖靈架構新增的 RT Core 與 Tensor Core ,還有微軟與 NVIDIA 以及多家廠商共同提倡的 DXR ,使得在影片製作與遊戲中即時光線追蹤化為真實。
雖說當前的遊戲已經有光影的概念,不過由於考慮到即時光線追蹤在先前硬體會造成大量的負擔,多半以全局光罩的方式搭配部分假光源製作光線與陰影,但由於在當前的光影並非以光線照射在不同物質產生,只有相當死版的假陰影,不能呈現如真實環境的軟陰影或是陰影在不同物質折射與顯像的質感。
基於 MDL 統一材質語言,虛擬的光線得以在這些表面呈現的效果,霧面就像霧面、金屬就像金屬,而光線透過照映在這些材質、進一步反射到不同的材質上,都宛若真實世界中的效果,同時於動態的環境即時的方式呈現這些效果。
這也意味著在搭配 DXR 即時光影以及 RTX 20 系列 GPU ,能夠在動態的遊戲當中進行複雜的即時光線追蹤,若是一個靜態空間則可更進一步加入更多的光線來源,像是此次在支援 RTX 即時光線追蹤的遊戲開啟 Ansel ,可較在遊戲中有更精緻、複雜的光影效果。
邁向圖像技術下一階段的入場券
比拚硬體規格與基礎性能固然是每一次 GPU 改潮換代的重點,然而當前 PC 遊戲產業進入 4K 與 HDR ,除了畫面越來越精緻以外,也需要能使遊戲的效果更貼近真實,而即時光線追蹤可說是使遊戲畫面更逼真的其中一項重點,另外,如何降低硬體的負擔但同時又能達到更好的影像品質,也是另一項重點。
所以 NVIDIA 在規劃 Turing 圖靈架構時,將 AI 與即時光線追蹤架構加入整個核心之中,藉由 AI 技術的導入,使得遊戲中的硬體資源能夠更有效率的被應用,而非浪費在與體驗無關的區域的渲染,同時藉由基於 AI 與深度學習的 DLAA 技術,以更低的系統資源但能呈現更炫麗、流暢的遊戲影像。
雖然 AI 是趨勢,不過要在遊戲影像實現 AI 應用需要龐大的資源支撐,這也是積極發展 AI 相關技術的 NVIDIA 的優勢,藉由其研究團隊的成果,以及架設在 NVIDIA 總部的超級電腦 DGX Saturn V 進行 AI 模型培訓,同時在新世代架構加入 Tensor Core ,才能為遊戲體驗導入 AI 技術。
單純就價格性能比, RTX 20 家族比起當前因為挖礦略有退燒的 GTX 10 比較下還是貴了不少,不過這也是一般 GPU 架構改朝換代必定發生的情況,然而不同於過去幾代的架構僅有單純的效能提升, RTX 20 所帶來的 AI 技術與 RTX 即時光線追蹤則是先前世代所沒有的新技術,同時在影像介面也為 8K 與新一代 VR 預先做好準備,可說是通往未來視覺技術的入場券。
1 則回應