NVIDIA 稍早正式解禁新一代 Pascal 架構消費級旗艦顯示卡 GTX 1080 的細部資訊,這也是一張超越前一代頂級準專業卡、效能逼近 10TFLOPS 的娛樂級顯示卡。
雖然先前在發表時已經針對 Pascal 的多項架構做了基本說明,不過既然是正式解禁,也有更多關於 Pascal 核心設計以及專屬於 Pascal 的新機能,其中雖然已知在純運算效能已經超越 GTX TITAN X ,但應該有不少人更好奇的是 GTX 1080 是如何在 VR 應用領先 GTX TITAN 近兩倍效能,這也是與 Pascal 架構的特色有關。
首先還是先解釋一下 Founder Edition 與一般零售顯示卡的不同,所謂的 Founder Edition 指的是標準的官方公版卡,品牌合作商皆可販售這張 GPU ,但包括 PCB 、元件、時脈設定乃至散熱器(這次公版散熱器的風罩有大量金屬材質而非錯去塑膠風罩!)、配色等等,皆須採用官方的標準設計,散熱器也不允許更動配色,有點類似先前 TITAN X 的模式,但不同於 TITAN X , GTX 1080 與 GTX 1070 仍允許非公版設計,只是一但變動就不能稱為 Founder Edition 。
非 Founder Edition 則依照品牌商的客製化程度,可預期的是時脈肯定會超過 Founder Edition ,同時也可能提供更進階的散熱器,或是採用不同設計的 PCB 、電源供應模式等,故也不一定會出現低於 Founder Edition 的價格,也是有可能價格更高。
首先從 GTX 1080 的基本架構開始介紹起, GTX 1080 與 GTX 1070 採用的核心代號為 GP104 ,採用台積電 16nm FinFET 製程,含有高達 72 億個電晶體,完整架構的 GTX 1080 具備四個邏輯群組,共擁 20 個 SM 單元(每個 SM 單元內有 128 個 CUDA 核心)、 20 個幾何單元、 160 個渲染單元以及 64 個 ROP 單元,並具備 2MB L2 緩衝,總共具備 2,560 個 CUDA 核心,而 1070 雖同為 GP104 ,但僅有 3 個邏輯群組,加上記憶體採用 GDDR5 ,故效能僅有 1080 3/4 弱。
GTX 1080 能夠擁有如此高的效能,除了全新規劃的 Pascal 架構外, GDDR5X 的導入也是相當重要的,雖然 GDDR5X 擁有比起 GDDR5 更高的效能,不過也是經過在包括 GPU 內部以及 PCB 版傳導線路重新設計後減少傳輸過程的干擾才解放其效能,從原本未最佳化前的 7Gbps 頻寬提升到 10Gbps 。
此外,針對超頻玩家, GTX 1080 搭載全新的 GPU Boost 3.0 ,不同於 GPU Boost 2.0 的電壓與時脈呈現線性調整, GPU Boost 3.0 允許玩家隨著時脈波形進行同步調整,不過這已經屬於進階玩家功能,一般玩家仍可透過自動設定進行簡單的 GPU 超頻。
另一個提升效能的祕訣則是記憶體的材質壓縮模式,畢竟在解析度日趨提升的遊戲中,如何降低遊戲場景內的材質占用的記憶體空間,得藉由進行材質壓縮,而除了原本的未壓縮以及 2:1 模式外, Pascal 架構還支援全新的 4:1 以及 8:1 模式,更進一步節省頻寬。
藉由記憶體提升的頻寬,以及材質的壓縮,還有記憶體效率等等因素進行加總, GTX 1080 相較前一代同等級的 GTX 980 最高可省下高達 1.7 倍的頻寬(當天解說時有一個計算公式但筆者看不是很明白...)。
介紹完架構,接著就是 Pascal 的幾項新技術與機能,其中對 VR 與多顯示同步輸出影響相當明顯的就是兩項基於同步多重投影技術,藉由可將兩個 SM 單元並用的 TPC 單元,可讓 GTX 1080 最高在同一個演算後的場景具有 32 個 ViewPort 、 VR 下單一眼有 16 個 ViewPort 。以傳統的模式,每次演算場景後實際上僅會擷取玩家角度所看到的畫面,但多個畫面輸出時,往往需要針對不同畫面所看到的場景進行再次的運算後擷取玩家所看到的視野,導致多畫面輸出時效能大幅耗損, VR 亦然。
甚麼是 ViewPort ?如果把遊戲的場景視為風景,人則站在一面有著多個窗戶的房子內,每一個窗戶雖然都在看相同的風景,卻受到窗戶位置的不同而有些微的視角與視野差異,而 ViewPort 就宛如不同的窗戶所看到的影像,等同每個 ViewPort 也可視為一個顯示輸出。
這意味著 GTX 1080 僅需運算一次遊戲場景,就能藉由不同的 ViewPort 提供不同視野的影像內容,就像透過眼睛看出多個窗戶看所見的風景,這也意味著 GPU 不用針對多個畫面輸出重複運算,能夠降低多畫面輸出的負擔。
NVIDIA 將這項技術用於兩種應用,其中一項稱為 Single Pass Stereo ,這是用於多螢幕輸出與 VR 輸出的應用,等同在進行三螢幕輸出或是 VR 時,僅需一次的場景運算,就能透過 ViewPort 擷取多個畫面中所看到的遊戲場景,藉此減少效能的折損。
除了 VR 以外,也可用於 Surround 多顯示輸出與曲面顯示的變形管理,後續 NVIDIA 也會針對 SURROUND 結合 Single Pass Stereo 提供螢幕擺放角度的建議。
另一項延伸運用則是針對 VR 輸出的 Lens Matched Shading ;先前為了減少影線傳輸占用的頻寬,是透過模擬裁切的方式把 VR 所見的影像裁切出類似透鏡的形狀,並藉由模擬演算呈現透鏡的彎曲變形,同時降低視野以外的材質使用,但缺點是由於減少了視野外的精細度,故偶而會發生場景乍看下不精緻的問題,同時透過演算校正影像變形也會再次消耗系統資源。
既然 GTX 1080 可模擬單眼最多 16 個 ViewPort ,故 Lens Matched Shading 是利用這 16 個 ViewPort 立體交錯與重疊,得到類似透鏡形狀的影像後再次輸出,不僅不需犧牲影像細節,同時也不用額外的效能進行透鏡演算;結合上述兩項技術,以 Oculus 為例,將解析度從 4.2MP 降低到約 2.8MP ,同時僅需一次畫面演算,這也是在 VR 下效能能提升一倍的關鍵。
此外, GPU 加速運算這幾年越來越受到重視,不少遊戲都會藉由 GPU 進行像是物理模擬等,而 Pascal 也更進一步的提升平行運算與影像繪製交錯執行的效率;這項技術稱為 ASYNC COMPUTE BROAD APPLICATION ,包括影像與運算兩種層級,在影像運算過程中,可在像素級進行繪層的攔截中斷,並執行像是平行運算後再回到圖像繪製;而搭配 DX12 API ,也可達到在指令階層進行截斷後先演算圖像;這兩種情況的攔截中斷後切換少於 100 微秒。
至於 ASYNC CHRONOUS TIME WARP 技術則可在影像 Render 輸出後快速地取得 VR 設備提供的玩家位置資訊,並快速地進行新畫面的 Render ,使延遲更為縮短;這兩項技術在 VR 中尤其重要,因為 VR 遊戲中相當重視身體動作與畫面、聲音的同步校正,藉由此低延遲的中斷程序快速切換影像與運算功能,可讓 GPU 在 VR 體驗中帶來更好的視覺與特效,同時提升 VR 應用的效能。
先前 NVIDIA 透過硬體的方式提供 G-Sync 技術,藉由顯示器內的晶片與 GPU 同步,使遊戲畫面的更新率可與顯示器同步,確實降低遊戲畫面的撕裂與同步率問題;不過 GTX 1080 效能再次翻倍,而不少 FPS 類型的畫面更新率又相當高,仍有不少遊戲玩家屈就於延遲,在進行高 Frame 遊戲寧可選擇關閉垂直同步,但依舊受因更新率超過顯示器輸出的畫面撕裂困擾。
為了解決超高 Frame 造成的撕裂問題, GTX 1080 搭載一項全新的FAST SYNC 技術 ,藉由畫面再由 GPU 輸出到顯示器前,透過三重緩衝機制,使最終輸出的畫面與顯示器的更新率能夠同步、確保輸出的畫面完整性,解決畫面撕裂的問題。
另外, Pascal 架構也從善如流的支援 HDR ,不僅是遊戲中的 HDR ,也包括影像解碼、編碼以及串流的 HDR ,且全部都可達到 4K @ 60 等級,即便編碼也可支援 10bit HEVC 先進格式,同時也支援包括 DP1.4 、 HDMI 2.0b 等輸出介面。
除了 GPU 本身解碼與編碼的 HDR 以外,亦可透過 GameStream HDR 技術,將 PC 端演算的 HDR 遊戲或是影片內容串流到 SHIELD 上,再輸出給 SHIELD 所連接的電視,進行串流遊戲或是串流影片的播放。
另外,為了滿足高解析度與 VR 遊戲所需的多 GPU SLI 串接頻寬, NVIDIA 也宣布了全新的 SLI-HB 橋接器,這項傳接器將占用 GTX1080 側面的三個金手指,且僅能進行雙卡 SLI 提升效能(雖可三張 GTX1080 串接使用但屬於特殊應用,會變成兩張用於顯示輸出、一張用於物理加速),而 SLI-HB 橋接器高達 650MHz ,是專為高頻寬相互溝通所設計。
你或許會喜歡