
NVIDIA 16 日宣佈推出第二代 Unified 架構繪圖產品,核心代號為 D10U , 並命名為 GeForce GTX 200 家族,除核心提升至 240 個 Streaming Processors ,且大幅改良微架構設計外,更首次加入 Parallel Compute 模式,進一步強化平行運算能力。究竟 NVIDIA 能否憑藉 D10U 核心再創高峰, HKEPC 編輯部找來 MSI GeForce GTX 280 繪圖卡,進行效能測試並深入分析優劣勢所在。
D10U ︰ 240 個 Streaming Processors

NVIDIA 指出,全新 GeForce GTX 200 家族為第二代 Unified 架構,其效能約為上代 GeForce 8 及 GeForce 9 高階產品的 1.5x ,核心代號為 D10U ,採用 65nm 制程,由台積電 (TSMC) 代工,內建 14 億個電晶體,是現時內建電晶體最多、效能最高且最複雜的繪圖晶片。
D10U 繪圖核心與上代 G80 、 G92 相同,均採用 Scalale Processor Array (SPA) 架構,即核心內建若干數目的 Texture Processing Clusters (TPC) ,每個 TPC 內擁有若干若數目的 Streaming Multiprocessors (SM) ,而每個 SM 則擁有 8 個 Streaming Processor (SP) 。
事實上,欲提升繪圖核心的運算能力,最直接的方法就是增加運算處理單元, D10U 擁有 10 個 TPC ,相比 G80 、 G92 多出兩個,每個 TPC 內建的 SM 數目亦由 2 組變成 3 組,每組 SM 內建的 SP 數目保持為 8 個,因此, D10U 合計擁有 240 個運算處理單元,較 G80 、 G92 高出 1.88x ,運算能力高達 933 GFLOPS 。
雖然號稱為第二代 Unified 架構,但 D10U 仍然不支援 DirectX 10.1 及 Shader 4.1 ,據 NVIDIA 回應指,現時支援 DirectX 10.1 及 Shader 4.1 的遊戲絕無僅有,因此 NVIDIA 無意在現階段支援 DirectX 10.1 及 Shader 4.1 ,直至市場開始對這項規格有一定需求,而且更不排除跳過 DirectX 10.1 及 Shader 4.1 ,直接研發下一個版本規格。
| G80 , G92 | D10U |
TPCs | 8 | 10 |
SMs per TPC | 2 | 3 |
SPs per SM | 8 | 8 |
Total SPs | 128 | 240 |
D10U ︰ 512Bit 、 1GB Framebuffer
D10U 的記憶體介面由 G80 的 384Bit ,提升至 512Bit ,由 8 組 64Bit 寬度組成,據 NVIDIA 表示,提升記憶體介面寬度主因在於, D10U 核心架構擴大後需要再更新平衡記憶體頻寬,以支援現有及未來的負載,而 512Bit 是 D10U 最有效率的規格設定。
不單是記憶體介面提升至 512Bit , D10U 的 Memory Crossbar 亦進一步優化,以往執行 Indexed Primitive Fetches 時, Front End 與 Data Assembler 會爭奪 Memory Crossbar 控制,導致不必要的 Latency ,但新一代 D10U 的 Memory Crossbar 將不會出現此情況。
此外, NVIDIA 高階繪圖卡產品的 Framebuffer 將會提升至 1GB 容量,現今的 3D 遊戲為提升真實度,已使用大量不同的 Textures ,包括採用 Normal maps 以提升物件表面的質感、 Cubemaps 提升反射、倒影效果及高像度 Perspective Shadow 作 Soft Shadows 應用,意味著 3D 遊戲將使用更多 Framebuffer ,因此提升容量是必然的,尤其是在啟動反鋸齒技術時更為顯著。
| G80 | G92 | D10U |
Memory Interface | 384 | 256 | 512 |
Default | 768MB | 512MB | 1024MB |
D10U ︰擴大內部 Buffer 容量
以往 GPU 面對較長的 Shaders 指令,會導致 Local Register 容量耗盡,需要採用外部記憶體作暫存,進而導致大幅度的 Latency 。為令 D10U 在執行複雜且較長的 Shader 之際,能有更佳的執行效率, D10U 核心內建的 Local Register 大小是上代 G80 、 G92 的一倍。
據 NVIDIA 表示,增加 Local Register 容量僅會小幅增加 D10U 的 Die Size ,但卻能有效提升 Shader 的執行效率。圖下為 NVIDIA 提供的 1x 及 2x Local Register 容量比較,在 3D Mark Vantage 進行測試,可以看到明顯的效能增長。
另一方面, D10U 亦增加 Internal Output Buffer ,容量是上代 G80 、 G92 的 6x ,令 D10U 擁有更高的 Geometry Shadering 及 Stream Out 效率。同時, D10U 提升了 Post-Transform Cache 容量,此項改變有效減少 Geometry 與 Vertex Stage 之間的 Latency 。
