以GeForce 6800 Ultra做為開路先鋒的NV40家族,堪稱NVIDIA「脫下褲子跟ATI拼了」的代表作,從3D API支援性、架構創新、到運算單元規模,均毫無妥協。NV40和R420相比,帳面上的理論規格與效能,看似輸人一截,但「架構性的效率」卻天差地遠,更罔論NV40還支援了DirectX 9.0c的Shader Model 3.0,讓R420變成相對規格落伍的產品。
NV40有幾個值得注意的重點,當中還包括了一般媒體和電腦達人不會留意到的地方。
- 在IBM 130nm製程的加持下,雖然NV40電晶體超過2億,是前代NV38的1.7倍之譜,但發熱量卻非常的出色,讓NVIDIA高階顯卡重回只佔用1個卡槽的美好時光,這也間接證明,之前NV36從台積電轉向IBM,應該是為了「試水溫」。
- 大家都知道Shader Model 3.0擁有更長的程式碼長度與動態分支控制流程,可大幅提昇可程式化能力和撰寫程式碼的彈性(否則勞師動眾大改版就沒意義了),但最實際的好處還是在於「總算結束Shader Model 2.0同時有NVIDIA(2.0a)和ATI(2.0b)延伸版本」的亂象,這也加快了DirectX 9.0c的普及速度。
- NV35 2倍的6組Vertex Shader,有助於Volume Shadow之類的特殊視覺效果,除了符合DirectX 9.0c規格(4個Vertex Texture和Displacement Mapping),實做了MIMD化的執行單元,每個時脈週期可同時發出2個Shader指令(1個純量1個向量),亦可直接從L2材質快取記憶體擷取Vertex Texture。這還不打緊,真正精彩的在後面。
- 4倍於NV3x的16條像素管線,每個時脈週期輸出16個像素/貼圖元素,或是32個Z/Stencil值,讓NV40的材質像素填充率,超過NV35的3倍,巨大的Z/Stencil填充率也是新一代陰影表現技術UltraShadow的基礎。
原本NV3x世代的”Pixel Pipeline”,皆為「虛擬8條管線,實際4條管線」的配置,一般視為4 x 2(4管線 x 2材質貼圖單元)或8 x 0(處理Z-Stencil像素),未能真正匹敵「貨真價實8條管線(8 x 1)」的ATI R3x0。
換言之,NV40就是16 x 1、32 x 0的架構,執行單元成長了2到4倍。過去大概基於行銷訴求和面子問題,NVIDIA從未正面承認外界認定的4 x 2說法,導致眾多網民們傻傻分不清楚,但在NV40的發布過程,為了突顯「跳躍性進步」,間接證實了這觀點的確所言不虛。
「否定過去自己,彰顯現在很行」的戲碼,也曾發生在Creative在2005年發表X-Fi。
- NV40的Pixel Shader採用超純量管線架構(Superscalar) 。傳統的架構如下圖,由1個材質處理單元搭配1個Shader執行單元。
但NV40卻增加了1個Shader執行單元,允許2組Shader指令同時執行(Dual-Issue),處理不同工作。
而且2組指令處理的像素元件,不必被限定相同的格式(如RGB + A或RG + BA),如此一來,Pixel Shader效能倍增,讓NV40的同時脈理論效能變成R420的2倍,即使帳面上的Pixel Shader數量是相同的,至於實體”Pixel Pipeline”只有NV40四分之一的NV3x就更不用提了,這麼簡單的算術請各位科科自己算。
NV40的Pixel Shader設計,是由前3dfx的架構副總裁Emmett Kilgariff所操刀,算是多少挽回3dfx昔日的榮光和聲譽吧。
- 除了透過硬體加速影片播放、提高輸出品質的Pure Video(只是NV40、NV45、NV48缺乏WMV9硬體加速),NV40還讓「復活」了3dfx的SLI多卡並聯技術(但技術完全不同),只不過SLI在Ampere世代的RTX3000系列就默默的消失了。
- 隱藏在琳瑯滿目技術行銷名詞之後,少人重視的細節:記憶體控制器內建傳輸壓縮,這是日後十幾年來,NVIDIA逐漸壓制ATI與AMD的關鍵因素。
講了這麼多,筆者還特別挖出當年的測試數據,結論就是3DMark03首度出現「破萬」的效能表現,幾乎是NV38和R360的「2倍」,這在當時引起轟動,畢竟很久沒見到「前代2倍效能」的好戲了。但其實過沒多久,在伺服器CPU市場,也隨即上演了類似的戲碼:IBM Power5。
那麼,在架構層面換湯不換藥、像素管線的運算浮點精度依舊死守FP24的ATI R420,表現究竟如何呢?就有勞各位科科自行跪求Google大神了。科科科科科。