NVIDIA 在發表基於 Ampere 架構的 GeForce RTX 30 家族產品時,在旗艦產品 RTX 3080 之上,還推出一款被 NVIDIA 執行長黃仁勳冠上" BFGPU ( Big Ferocious GPU )"的超旗艦產品 RTX 3090 ,雖然隸屬 GeForce 家族,也不斷在介紹時強調其為 8K 遊戲娛樂預備的效能,然而就其特質,卻是更接近過往推出的 Titan 準專業顯示卡。
▲ RTX 3090 的盒裝相當大,下為 GTX 1060 Founder Edition 盒裝
此次也向 NVIDIA 借得俗稱信仰版的 GeForce RTX 3090 Founder Edition 創始版,用以介紹這款非比尋常的特殊產品。
Ampere 架構結合第二代 RT Core 與第三代 Tensor Core
▲ Ampere 架構較 Turing 再度提升整體性能
在介紹 RTX 3090 前,先簡單介紹 Ampere 架構的特色; Ampere 架構是做為第二世代同時整合 RT Core ( Gen.2 )與 Tensor Core ( Gen.3 )的架構,產品線不同於 NVIDIA A100 委由台積電以 7nm 生產, RTX 30 系列由三星以 8nm 製程生產;雖然本質上是 10nm 改良版,不過相較 RTX 20 本質是 16nm 改良版的 12nm 製程仍有相當的提升,具高達 280 億個電晶體。
▲ RTX 3090 具高達 10,496 個 CUDA Core
RTX 30 系列也大幅更改架構設計,相較前一世代同級產品, CUDA Core 的數量提升超過一倍,此次的主角 RTX 3090 更有高達 10,496 個 CUDA Core ,比起 RTX 2080 Ti 的 4,352 個 CUDA Core 提升許多;同時,全新的 SM 、 RT Core 與 Tensor Core 也在性能與設計理念有所強化。
▲三大架構皆全面進化(圖示性能為 RTX 3080 )
雖然兩年前第一代整合光線追蹤與 AI 加速的 RTX 20 推出之際,外界質疑為何要再寶貴的晶圓空間放入前景不明的架構,加上當時光線追蹤技術剛起步、第一版 DLSS 由於需要針對每款遊戲訓練獨立的模型,在 RTX 20 推出的第一年光線追蹤與 AI 技術並未獲得太大迴響。
不過隨著 AAA 遊戲逐步加入光線追蹤效果,採用單一 AI 模型即可相容所有支援 DLSS 技術遊戲的 DLSS 2.0 出現,也證實光線追蹤與 AI 的結合確實能為遊戲體驗帶來提升;而 RTX 30 也承襲 RTX 20 系列的理念,持續在架構中整合新一代的 Tensor Core 與 RT Core 。
Ampere 的 SM 單元使 FP32 較 Turing 提高一倍,並且將 L1 快取加大一倍,同時搭配性能皆較上一世代提升一倍的 RT Core 、 Tensor Core ,帶來更高的整體性能,而第三代 Tensor Core 除了同樣支援 TF32 以外,還支援 FP64 ,使其 AI 加速能支援更多元的形式。
▲支援結構化疏稀深度學習
▲單一 SM 的 Tensor Core 較 Turing 少一半,但基礎性能相同,透過結構化稀疏則高出一倍
不過從帳面數據來看,由於單一個 Tensor Core 加入 FP64 後使得單一核心架構面積增加,再取捨下, Ampere 每個 SM 當中所搭配的 Tensor Core 數量較 Turing 減少一半,然而第三代 Tensor Core 整體性能有所提升,除了以一半數量的 SM 單元達到相同的 FP16 性能 ,同時可進一步以第三代 Tensor Core 支援的結構化稀疏深度學習技術,使其 FP16 性能再提高一倍。
雖然本質上 RTX 3090 與 RTX 3080 採用同樣的核心晶片,但定位較高的 RTX 3090 的核心數量並未如兩者價差激增一倍, RTX 3090 的重點在於具備更大容量的 VRAM ;搭載 24GB 的 GDDR6X ,比起 RTX 3080 的 8GB GDDR6X 多了兩倍以上,也隱約提示 RTX 3090 的產品定位實際上並非單純定位在遊戲娛樂。
獨特而創新的 RTX 30 Founder Edition 散熱概念
▲ 左為 RTX 2080 Ti Founder Edition ,右為 RTX 3090 Founder Edition
▲可看到 RTX 3090 把兩個風扇的風道封閉成單一通道,與下吹到 PCB 後往側面排氣的 RTX 20 系列不同
在上一代的 RTX 20 Founder Edition 的散熱設計,是使用典型的下吹式設計,透過風扇朝著下方的散熱片,把熱風吹到 PCB 之後,再自散熱器的四周把熱風排出,另外有一部分的熱風則是沿著 I/O 開口排出;若在開放裸測時,這樣的散熱似乎相當合理,畢竟可以快速地把熱吹出散熱片以外,不過若進行裝機,一旦內部風道不良,就會造成熱風在內部持續循環。
▲相當獨特的散熱器造型,鰭片直接顯露在正面
▲ RTX 3090 支援 NVLink
此次 NVIDIA RTX 30 系列的 Founder Edition 雖採用 RTX 20 Founder Edition 的雙風扇設計,不過大膽使用顛覆式的風道配置與供電插針設計,這些設計在第三方板卡廠的產品暫時是看不到的,畢竟此次 Founder Edition 的散熱設計牽涉獨特的風道, PCB 設計也配合新風道概念大膽地進行切割。
▲ X 框上有細小的文字刻印
RTX 3090 的外觀,可看到相當工整的對稱造型設計,同時以中心點構成一個大型的無限符號,仔細看中間的邊框亦有 NVIDIA 與 RTX 3090 的刻字;同時散熱片直接裸露在正面,手指摸上去還可感受到鰭片的彈性,與傳統散熱器有著大型飾板蓋住散熱片的作法不同,且值得注意的是 Founder Edition 的外框還把兩個風扇獨立在兩區,這也表示熱風不會自側邊排出。
▲ RTX 30 Founder Edition 的 PCB 相較 RTX 20 緊湊許多
▲全新的 12Pin 連接器
▲部分模組化電源廠商已經提供申請原生連接線
▲盒裝轉換器透過兩個 8Pin PCIe 轉換
RTX 3090 採用一正、一反的風扇設計,仔細一看, I/O 反側的風扇的鰭片下是沒有 PCB 的,官方公布的 PCB 圖亦可看到後方的特殊開口造型,這也象徵巨大的 RTX 3090 內, PCB 僅有約卡的 2/3 左右的長度,也因此, PCIe 供電的位置是在偏中央的位置,且為傾斜配置,由於全新的小型 12 Pin 供電較特殊,盒裝內也提供轉換線供傳統雙 8Pin PCIe 轉接線。
▲創新的獨立二路風道概念
此次 RTX 30 的 Founder Edition 散熱器採用獨立雙風道的概念,靠近 I/O 端的風扇類似傳統鼓風扇的作法,直接將風壓下吹,而後導到 PCB ,沿著後方 I/O 口把熱氣排出,不過比起 GTX 10 世代的鼓風扇結構,拜風扇直接離排風口更近,能夠更有效率將熱風帶走;後方的風扇則是把透過鰭片傳遞過來的熱氣,以抽風的方式由下而上把另一部份的熱風帶出。
▲可看到 RTX 3090 的寬度較一般旗艦卡更寬
值得注意的是, RTX 3080 與 RTX 3090 Founder Edition 相較一般高階顯示卡更寬,這是由於此次 Founder Edition 使用比一般更大型的 12 公分等級雙風扇,大風扇的優點就是能以更低的轉速產生更大的風量與風壓,有助減少系統噪音與提升散熱效率。
▲在 RTX 3090 前的 RTX 2080 Ti 顯得小一號
▲大直徑低轉速風扇帶來更好的散熱效率與寧靜度
另外值得一提的是,雖然 RTX 3090 在滿載的功耗高達 350W 左右,遠比 RTX 2080 Ti 的 270W 左右高出許多,但除了同樣在裸測環境的最高溫低了 5-6 度以上,拜 RTX 3090 Founder Edition 採用大型低轉風扇,比起使用較小尺寸、轉速較高的 RTX 2080 Ti Founder Edition 運作噪音也更低。
4K 遊戲游刃有餘但並未與 RTX 2080 有決定差異
▲中間的 X 透出淡淡白光
由於筆者手邊連 4K 顯示器都沒有,更遑論 8K 顯示器,只能以 1440P 或是特定支援 DSR 等功能的測試項目進行 4K 測試,相較上一世代的王者 RTX 2080 Ti , RTX 3090 也呈現壓倒性的性能差,不過縱使式在 4K 環境測試,也未用到 8GB 的 VRAM 容量,或許這也是此次作為遊戲娛樂旗艦的 RTX 3080 並未如 RTX 2080 Ti 搭載達 11GB RAM 的原因。
▲此次採用裸測
此次使用的平台是 Intel Core i9-10900 ,搭配華碩 ROG Strix Z490-A Gaming 主機板, HyperX Predator DDR4-3200 8G * 4 ,美光 Crucial P5 SSD 1TB ,搭配 Fractal Design Celsius + S28 Dynamic 水冷 ,以及 Fractal Design Ion+ 白金 860W 模組化電源。
▲後方散熱片底下由於無 PCB ,透出記憶體的 RGB 光
▲背板的 RTX 3090 裝機後會朝著外側
▲ PCIe 4.0 的價值要待微軟釋出 Direct Storage 才會顯現
雖然 RTX 3090 支援 PCIe 4.0 ,但目前搭配 PCIe 3.0 與 PCIe 4.0 介面的差異不大,主因是真正能發揮 PCIe 4.0 優勢的 Direct Storage 與 RTX IO 要到 2021 年才會正式推出,屆時 GPU 才能透過 PCIe 4.0 直接存取 SSD 內容,目前此新技術還未推出前的性能差異微乎其微。
▲ DLSS 透過 AI 提升遊戲順暢
不過值得關注的是 DLSS 2 技術帶來的效益更為顯著,在 PCMark 的測試項,能夠看到啟用 DLSS 2 之後大幅的改善具備光線追蹤場景的體驗,尤其當切換到 8K 解析度測試時,原本完全無法執行的 RTX 2080 Ti 也勉強會動,至於 RTX 3090 則是從極度不流暢變成超過 30fps 的表現。
▲ RTX 2080 Ti 的 DLSS 測試
▲ RTX 3090 DLSS 測試
當然,市場上也有本格派的玩家認為由 DLSS 得來的效能並非原生效能表現,確實 DLSS 的原理是結合包括影像升頻、後處理等方式,以較低的原生解析度產生更高解析度的影像,然而從結果來說, DLSS 2.0 帶來的影像品質並不遜於原生解析度的表現;筆者認為, DLSS 技術有點像是當時影片軟體解碼與硬體解碼之爭,最終效率較高的硬體解碼終究還是成為主流。
▲ RTX 2080 Ti 測試成績
▲ RTX 3090 測試
▲死亡擱淺沒有內建 Benchmark ,不過 RTX 3090 的幀數比起 RTX 2080 Ti 高出許多
▲控制同樣也沒有內建測試功能,但把光線追蹤效果開到最高 RTX 3090 比起 RTX 2080 Ti 的幀數也高出許多
不過從現況而言,縱使 RTX 3090 能在特定條件以 DLSS 2.0 執行特定 8K 遊戲,然而對多數消費者來說, 8K 顯示器仍非市場主流,現在談 8K 遊戲,也猶如十年前談 4K 遊戲一樣對伊般人意義不大,但若回到 4K 遊戲,基本上 RTX 3080 的表現已經相當出色,價格高出一倍的 RTX 3090 並帶來一倍的效能提升。
對 8K 、 3D 影像等內容創作者絕佳的投資報酬率
但是 RTX 3090 卻對於專業內容創作者是相當值得投資的產品,現在已經有許多小型工作室選擇使用 GeForce 顯示卡作為內容創作的主力,加上 NVIDIA 體認到這是不可避免的趨勢後,亦提供 Creator Ready 版本的驅動程式,畢竟 RTX 3090 有著與 Quadro RTX 6000 繪圖卡相同的 24GB VRAM ,同時整體性能亦遠超 Quadro RTX 6000 ,如果沒有對於 Quadro 繪圖卡特殊機能的要求,當前 RTX 3090 所帶來的效益是相當可觀的。
尤其對於有 8K 影像處理需求、 3D 建模、 3D 動畫特效製作等應用,除了 RTX 3090 本身的基礎性能有助加速處理程序,現在越來越多的專業軟體已經導入 GPU 加速技術,更強大的效能有助處理速度以外,部分軟體需要使用 GPU 的 VRAM ,而對專業影像製作者, RTX 3090 高達 24GB 的 VRAM 就能派上用場。
此次也由具備 11GB 的 RTX 2080 Ti 作為對照組,以 Ototoy 推出的專業 3D 場景製作軟體 OctaneRender ,專業 8K RAW 影片處理軟體 Blackmagic Design DaVinci Resolve ,以及開源 3D 場景創作軟體 Blender 進行測試。此次提供給這三款專業軟體用的編修檔案都是屬於大量需要記憶體的示範檔,也是刻意用以比較 VRAM 容量對高解析專業製作的差異。
▲留意使用 2080 Ti 右下角橘色的 OOC ,指的是 GPU 記憶體不夠時動用系統記憶體的情況
像是 OctaneRender 雖然可藉由分配部分系統記憶體作為存放場景與紋理資料( out-of-core rendering ),畢竟系統記憶體的傳輸性能與傳輸途徑相對 GPU 來的慢,可看到已經需要動用系統記憶體的 RTX 2080 Ti 整體處理時間拉長許多,處理時間一口氣慢了一倍以上,而使用 RTX 2080 Ti 約暫用額外 6GB ,因為近乎一半的緩衝存放在系統記憶體,導致開啟速度慢了近 10 倍時間。
Blackmagic Design DaVinci Resolve 則是專業 8K 編修軟體,此版本可藉由 CUDA 加速使工作流程更快,這次是作為處理 8K REDCODE RAW 的展示,利用添加動態模糊,結果會由於在龐大的 8K 影像啟用此項特效,除了畫面相當停頓以外,導致軟體直接因記憶體不足而出現錯誤,至於 RTX 3090 在加入特效除了不會出現錯誤以外,處理中的畫面也還稱得上正常。
▲ RTX 2080 Ti 需要花非常長的時間才能輸出最終畫面,且不太穩定
至於 Blender 的測試項是針對還未添加效果的 3D 動畫場景進行渲染,此版本可支援 NVIDIA OptiXaccelerated rendering ,能夠完成即時的渲染、照明與陰影處理,並進行 AI 降噪處理,而 RTX 3090 幾乎是在瞬間就完成最終的效果處理,且能夠直接在預覽中檢視完成的內容,結果 RTX 2080 Ti 除了花費更長的時間以外,也由於超出緩衝記憶體而使渲染輸出失敗。
RTX 3090 真價值是專業內容創作、科學研究者的平民神卡
從上面的測試,筆者認為以當前的遊戲娛樂需求, RTX 3080 已經能擔當絕多數情況的 4K 遊戲執行需求,單純從投資報酬率來看, RTX 3090 的價格已經足以配出一套搭載 RTX 3080 的高階遊戲系統,對普遍消費者在目前的情況購買 RTX 3090 實質意義不大。
▲比起 RTX Titan 效能、記憶體更高但卻便宜了 1,000 美金
然而若是對於專業內容、科學家與 AI 研究者, RTX 3090 卻是不可多得的優質產品,除了 Ampere 架構帶來實質的性能提升,更重要的是 RTX 3090 高達 24GB 的 VRAM 亦遠勝原本的準專業卡 RTX Titan ,能夠進行更複雜的場景運算、剪接高解析度影像,或是訓練更複雜的 AI 模型,且更重要的是比起 RTX Titan 更物美價廉。
▲ RTX 3090 的滿載發熱較 RTX 2080 Ti 更低
但為了安裝 RTX 3090 ,也更需要注意整套系統的搭配,畢竟 RTX 3090 的最大瞬間功耗比起 RTX 2080 Ti 高出許多,官方建議至少搭配 750W 的高品質電源供應器,但那是在並未搭配過多周邊的情況下,如果是工作站性質,使用更高耗電的處理器(例如 Intel Core X 、 AMD Threadripper )還有安裝額外介面卡、大量硬碟等,則建議直接選擇 1000W 以上電源。
▲裝機風道對 RTX 30 Founder Edition 相當重要
不過也由於 RTX 30 獨特的風道設計,對於裝機時也須要考慮整體的散熱風道配置,尤其是特別需要重視機頂與靠近 CPU 後方的排氣風道;以 RTX 3090 Founder Edition 為例,主要的熱量會直接自後方 I/O 導出,反側的熱風則會向上(若採用直立安裝則是向內側主機板)傳遞,若後方與頂部的排氣不足,也會導致廢熱聚集在頂部,間接影響主機板與 CPU 的穩定。
▲ RTX 3090 是一款顛覆性的偽裝成消費級的準專業級產品
且筆者此次是在開放環境測試才能使運作溫度低於 70 度,考慮到專業創作者可能會持續處在高附載情況,也需要選擇空間充裕、風道規劃完善的機殼,要盡可能使進排氣風道維持通暢,有充裕的冷空氣、也要能快速帶走機殼內的廢熱,同時,若想將顯示卡垂直安裝,也要考慮風扇是否過於貼近側板、與側板與 GPU 風扇之間是否留有可吸氣的間隙。