2008-06-16
NVIDIA D10U繪圖核心
GeForce GTX 280正式登場
文: Kopo Ko / 評測中心


NVIDIA 16 日宣佈推出第二代 Unified 架構繪圖產品,核心代號為 D10U , 並命名為 GeForce GTX 200 家族,除核心提升至 240 個 Streaming Processors ,且大幅改良微架構設計外,更首次加入 Parallel Compute 模式,進一步強化平行運算能力。究竟 NVIDIA 能否憑藉 D10U 核心再創高峰, HKEPC 編輯部找來 MSI GeForce GTX 280 繪圖卡,進行效能測試並深入分析優劣勢所在。



D10U ︰ 240 個 Streaming Processors

GeForce GTX 280 Graphics Processing Architecture

NVIDIA 指出,全新 GeForce GTX 200 家族為第二代 Unified 架構,其效能約為上代 GeForce 8 及 GeForce 9 高階產品的 1.5x ,核心代號為 D10U ,採用 65nm 制程,由台積電 (TSMC) 代工,內建 14 億個電晶體,是現時內建電晶體最多、效能最高且最複雜的繪圖晶片。

 

D10U 繪圖核心與上代 G80 、 G92 相同,均採用 Scalale Processor Array (SPA) 架構,即核心內建若干數目的 Texture Processing Clusters (TPC) ,每個 TPC 內擁有若干若數目的 Streaming Multiprocessors (SM) ,而每個 SM 則擁有 8 個 Streaming Processor (SP) 。

 

事實上,欲提升繪圖核心的運算能力,最直接的方法就是增加運算處理單元, D10U 擁有 10 個 TPC ,相比 G80 、 G92 多出兩個,每個 TPC 內建的 SM 數目亦由 2 組變成 3 組,每組 SM 內建的 SP 數目保持為 8 個,因此, D10U 合計擁有 240 個運算處理單元,較 G80 、 G92 高出 1.88x ,運算能力高達 933 GFLOPS 。

 

雖然號稱為第二代 Unified 架構,但 D10U 仍然不支援 DirectX 10.1 及 Shader 4.1 ,據 NVIDIA 回應指,現時支援 DirectX 10.1 及 Shader 4.1 的遊戲絕無僅有,因此 NVIDIA 無意在現階段支援 DirectX 10.1 及 Shader 4.1 ,直至市場開始對這項規格有一定需求,而且更不排除跳過 DirectX 10.1 及 Shader 4.1 ,直接研發下一個版本規格。

 

 

G80 , G92

D10U

TPCs

8

10

SMs per TPC

2

3

SPs per SM

8

8

Total SPs

128

240

 

 

D10U ︰ 512Bit 、 1GB Framebuffer

 

D10U 的記憶體介面由 G80 的 384Bit ,提升至 512Bit ,由 8 組 64Bit 寬度組成,據 NVIDIA 表示,提升記憶體介面寬度主因在於, D10U 核心架構擴大後需要再更新平衡記憶體頻寬,以支援現有及未來的負載,而 512Bit 是 D10U 最有效率的規格設定。

 

不單是記憶體介面提升至 512Bit , D10U 的 Memory Crossbar 亦進一步優化,以往執行 Indexed Primitive Fetches 時, Front End 與 Data Assembler 會爭奪 Memory Crossbar 控制,導致不必要的 Latency ,但新一代 D10U 的 Memory Crossbar 將不會出現此情況。

 

此外, NVIDIA 高階繪圖卡產品的 Framebuffer 將會提升至 1GB 容量,現今的 3D 遊戲為提升真實度,已使用大量不同的 Textures ,包括採用 Normal maps 以提升物件表面的質感、 Cubemaps 提升反射、倒影效果及高像度 Perspective Shadow 作 Soft Shadows 應用,意味著 3D 遊戲將使用更多 Framebuffer ,因此提升容量是必然的,尤其是在啟動反鋸齒技術時更為顯著。

 

 

 

G80

G92

D10U

Memory Interface

384

256

512

Default
Framebuffer

768MB

512MB

1024MB

 

D10U ︰擴大內部 Buffer 容量

 

以往 GPU 面對較長的 Shaders 指令,會導致 Local Register 容量耗盡,需要採用外部記憶體作暫存,進而導致大幅度的 Latency 。為令 D10U 在執行複雜且較長的 Shader 之際,能有更佳的執行效率, D10U 核心內建的 Local Register 大小是上代 G80 、 G92 的一倍。

 

據 NVIDIA 表示,增加 Local Register 容量僅會小幅增加 D10U 的 Die Size ,但卻能有效提升 Shader 的執行效率。圖下為 NVIDIA 提供的 1x 及 2x Local Register 容量比較,在 3D Mark Vantage 進行測試,可以看到明顯的效能增長。

 

 

另一方面, D10U 亦增加 Internal Output Buffer ,容量是上代 G80 、 G92 的 6x ,令 D10U 擁有更高的 Geometry Shadering 及 Stream Out 效率。同時, D10U 提升了 Post-Transform Cache 容量,此項改變有效減少 Geometry 與 Vertex Stage 之間的 Latency 。

2x vs 1x Register File Size