
NVIDIA 16 日宣佈推出第二代 Unified 架構繪圖產品,核心代號為 D10U , 並命名為 GeForce GTX 200 家族,除核心提升至 240 個 Streaming Processors ,且大幅改良微架構設計外,更首次加入 Parallel Compute 模式,進一步強化平行運算能力。究竟 NVIDIA 能否憑藉 D10U 核心再創高峰, HKEPC 編輯部找來 MSI GeForce GTX 280 繪圖卡,進行效能測試並深入分析優劣勢所在。
D10U ︰可同時處理 30,720 Threads
據悉, NVIDIA Unified Shader 架構支援兩種不同的運算方式,其中針對整個 TPCs 下達執行指令,稱為 Multiple instruction, multiple data (MIMD) 模式,另一種則是全新的 Single instruction, multiple thread (SIMT) 模式,直接向每個 SM 下達執行指令。
SIMT 運算模式大幅改善純 SIMD(Single instruction, multiple data) 模式的執行效率,並且更易編程。值得注意的是, SIMT 不需像傳統 SIMD 模式需要設定 vector 寬度,令核心可以全速執行而不需要理會 vector 的大小。
此外,傳統 SIMD 模式入的資料如果小於 MIMD 及 SIMD 寬度時,會減低執行容積,而 SIMT 模式則可以在任何情況下保持最大執行效率。
每個 SIMT 多線程指令最高可擁有 32 個平行線程,稱為一個「 warp 」, D10U 每組 SM 支援 32 個 warps ,即 1024 個 Threads ,相比上代 G80 、 G92 每組 SM 僅支援 24 個 waprs ,即 768 個 Threads 。
如果把整顆 D10U 核心與上代 G80 、 G92 比較, D10U 最高可同時處理高達 30,720 個 Threads (1024 x 3 x 10) ,相比上代 G80 、 G92 僅 12,280(768 x 2 x 8) ,吞吐量高出 2.5x 。
| G80 , G92 | D10U |
TPCs | 8 | 10 |
SMs per TPC | 2 | 3 |
Threads per SM | 768 | 1024 |
Total Threads execute | 12,288 | 30,720 |
D10U ︰支援 Double Precision
D10U 其中一個重要改良是加入了 Double Precision 雙精算及 64-Bit Floating Point 運算支援,鎖定高階科學、工程、財經運算軟件、以及需要高精確度的數學運算。
D10U 的每組 SM 包含了一個 Double Precision 64Bit Floating Unit ,而整顆核心則擁有 30 個。
這 30 個 Duoble Precision 64Bit Floating Unit 如同接上了保險絲的 MAD Unit ,能精確完成 MAD 指令,並完全符合 IEEE 754R floating Point 規定,而 D10U 的 Double Precision 效能等同於一顆 8 核心的 Xeon 處理器,高達 90 Gigaflops 。
D10U 與上代繪圖核心規格比較︰

| G80 | G92 | D10U |
Fabrication Process | 90nm | 65nm | 65nm |
Number of Transistors | 681 Million | 754 Million | 1.4 Billion |
Processor Core | 128 | 128 | 240 |
Memory Interface | 384 | 256 | 512 |
Texture Filtering Unit | 64 | 64 | 80 |
Texture Addressing Unit | 32 | 64 | 80 |
ROPs | 24 | 16 | 32 |
Source: NVIDIA, Complied by HKEPC Hardware, June 2008 | |||