
NVIDIA 16 日宣佈推出第二代 Unified 架構繪圖產品,核心代號為 D10U , 並命名為 GeForce GTX 200 家族,除核心提升至 240 個 Streaming Processors ,且大幅改良微架構設計外,更首次加入 Parallel Compute 模式,進一步強化平行運算能力。究竟 NVIDIA 能否憑藉 D10U 核心再創高峰, HKEPC 編輯部找來 MSI GeForce GTX 280 繪圖卡,進行效能測試並深入分析優劣勢所在。
D10U ︰改良 Dual Issue 設計
NVIDIA G80 、 G92 的 Stream Processor 能在同一週期處理一次整數指令、 Floating Point 運算或函數運算,因此 G80 擁有 128 個 Stream Processor ,理論上在同一週期內最多能完成 128 筆資料及指令,另外, G80 加入了 Dual Issue 設計,當進行 MADD(Multiply-ADD) 運算時,則可同時多運算一組 MUL(Multiply) 運算。
而新一代 D10U 進一步改良 Dual Issue 設計,當 SP 的 MAD Unit 在處理 MUL 與 ADD 的同時, SFU Unit 可以用相同的時脈處理另一組 MUL ,執行效率較上代 G80 、 G92 大幅提升,最高可達 93 ~ 94% 。
為令 Dual Issue 設計充分發揮, D10U 也更改微架構設計,包括 Register Allocation 、 Instruction Scheduling 及 Instruction Issue ,這些改變令 SP 與 SFU 在 Dual Issue 處理上盡情揮灑。
D10U ︰ 80 個 Texturing Unit 、 32 個 ROP
擁有 8 個 TPC 的 G80 ,內建 64 個 Texture Filtering Unit 及 32 個 Texture Addressing Unit ,因此,每次可處理 64 個 Pixels 的 Texture Filtering 、 32 個 Pixels 的 Texture Addressing 、 32 個 Pixels 的 Anisotropic bilinear Filtering , 或 32 個 8 Bit integer 、 16 Bit Floating Point 的 bilinear-Filtered Pixels 。
G92 也有明顯改良,其增至 64 個 Texture Addressing Unit ,令 Texture Addressing 及 8 Bit integer 的 bilinear-Filtered Pixels 處理能力提升至 64 個。
而 D10U 更進一步提升至 80 個 Texture Filtering Unit 及 Texture Addressing Unit ,每次可處理 80 個 Pixels 的 Texture Filtering 、 80 個 Pixels 的 Texture Addressing 、 80 個 8 Bit Integer Bilinear-Filtered Pixels 、 40 個 Pixels 的 Anisotropic Bilinear Filtering 或 40 個 16 Bit Floating Point 的 bilinear-Filtered Pixels 。
此外, D10U 採用更高效率的 Scheduler 排序器,減少不必要的 Latency ,讓晶片的實際執行盡量貼近理論峰值,據 NVIDIA 表示,相較上代 G92 ,新一代 D10U 的 Texture Unit ,效率顯著提升約 22% 。
| G92 | D10U |
Heretical | 33,600 | 51,840 |
Measured Rate | 25,600 | 48,266 |
Real Performances | 76.2% | 93.1% |
Source : NVIDIA , Complied by HKEPC Hardware , June 2008 | ||
ROP 數目方面, D10U 由上代的 G80 的 24 個提升至 32 個,令 D10U 的於高解像度及反鋸齒能力上更上一層樓, D10U 可處理每筆 32 個 Pixels (4 pixel per POR Partition x 8 Partition) ,每個 ROP Partition 於 8x MSAA 模式最高支援 32 個 color 及 Z sample ,每個 ROP 內建 2 組 Z/Stencil 運算單元,因此單一週期可處理高達 64 個 Stencil Shadow 運算。
此外, D10U 改變了 Z-Culling 效能,尤其是在高解像度方面,由 ZROP Unit 數目增加,令 Early-Z 機制的效率有效拉升, D10U 的最高 ZROP cull rate 可達 256 Sample/clock 或 32 pixels/clock 。
D10 vs. G80
| GeForce | GeForce GTX 280 | Increase% |
Core | 128 | 240 | 87.5% |
TEX | 64t/clk | 80t/clk | 25% |
ROP Blend | 12p/clk | 32p/clk | 167% |
GFLOPs | 518 | 933 | 80% |
Memory Bandwidth | 86GB | 142GB | 65% |
Texture Fill | 37 GT/s | 48 GT/s | 29.7% |
ROP Blend | 7GBL/s | 19 GBL/s | 171% |
Source: NVIDIA, Complied by HKEPC Hardware, June 2008 | |||