
NVIDIA 與 AMD 卡王之戰再度重燃。數月前 NVIDIA 成功以 GeForce GTX 680 奪去 Radeon HD 7970 效能王者寶座後, AMD 總結教訓痛定思痛,推出改良版 Tahiti XT2 核心,時脈緊貼競爭對手,新推出的 Radeon HD 7970 GHz Edition 以高時脈面世,又否重奪失落的核心效能王者寶座呢 !?
「 Tahiti XT2 」 的獨有優勢更勝「 GK104 」 !?
GCN 比 Kepler 在更多 MSAA 時提供壓縮比率
撇除時脈的因素不說, Radeon HD 7970 其核心設計上必須具一定的水平,否則再高的時脈也無法拉近與 GeForce GTX 680 的差距。事實上,從兩款核心作比較,可看到其實 Radeon HD 7970 在個別項目比對手 GeForce GTX 680 更為優勝。
「 Tahiti XT 」 比較 「 GK104 」最主要的優勢是擁有更多的電晶體,雖然功耗更高但卻可整合更多的功能,因此「 Tahiti XT 」 擁有 384bit GDDR5 記憶體介面,比 NVDIA 「 GK104 」的 256bit GDDR5 記憶體介面提供多 50% 的記憶體頻寬。在規格上,「 Tahiti XT 」是以旗艦晶片的規格來設計的,所以 FP64 雙精度浮點運算性能是 FP32 單精度浮點性能的 1/4 ,以 Radeon HD 7970 為例, FP32 時效能為 3.79TFLOPs ,在 FP64 時也有 947GFLOPs 。
若果換了是 Radeon HD 7970 GHz Edition , FP32 為 4.3TFLOPs , FP64 更達到破紀錄的 1.01TFLOPs 。相比之下,「 GK104 」 因為設計定位為效能級繪圖核心, FP64 效能只是 FP32 的 1/24 , 3.09TFLOPs 的 FP32 性能換了是 FP64 便只有 129GFLOPs ,性能遠遠不如 「 Tahiti XT 」,更遑論是 「 Tahiti XT2 」。
GPU 浮點性能的優劣,對於高階 GPGPU 運算的性能十分重要,現時高階遊戲繪圖卡其中一個應用是作 GPGPU 計算,因為專業卡售價是遊戲卡的好幾倍,所以有些客戶會選擇購買高階遊戲卡作專業應用,尤其是大陸市場,這方面 「 Tahiti XT 」是比「 GK104 」 更佳的選擇。然而這並不代表 「 Kepler 」架構不如「 GCN 」,反而是 GPU 定位問題影響到表現。
事實上在「 Kepler 」中最高階的 「 GK110 」中,其 FP64 性能是 FP32 性能的 1/2 ,比「 Tahiti XT 」還要高,因此亦可一讚 NVIDIA 只推出「 GK104 」核心便能痛擊對手,逼使 AMD 推出「 Tahiti XT2 」還擊。
除了高階 GPGPU 運算方面, 「 Tahiti XT 」的優勢還在於 MSAA + Tessellation 的表現, Multi-Sample Anti-Aliasing 多重採樣抗鋸齒可以提供較高的畫質但缺點是耗用繪圖卡的資源較對,現在不論是「 GCN 」或「 Kepler 」 架構均採用壓縮技術去提升效能,它們會偵測多邊形邊緣的像素並選擇這部份作多重採樣,而其他部份則採用單點採樣。然而遇上畫面有很多小形多邊形,尤其是使用 Tessellation 特效,造成大量邊緣時,將會大大降低壓縮的優勢。
對於這個問題,「 GCN 」採用更先進的方法去提升壓縮比率。下圖是 「 GCN 」 及 「 Kepler 」 在 4x MSAA 時的比較,此時「 GCN 」 仍然能夠維持 2.67.:1 的壓縮比例,而 「 Kepler 」已變成 1:1 的無壓縮比例了。
Radeon HD 7970 (Tahiti XT) | Radeon HD 7970 GHz Edition (Tahiti XT2) | Radeon HD 7950 (Tahiti Pro) | GeForce GTX 680 2GB (GK104) | GeForce GTX 670 (GK104) | |
Architecture | GCN | GCN | GCN | Kepler | Kepler |
Process | 28nm | 28nm | 28nm | 28nm | 28nm |
Transistors | 4.31 billion | 4.31 billion | 4.31 billion | 3.54 billion | 3.54 billion |
Die Size | 365mm2 | 365mm2 | 365mm2 | 294mm2 | 294mm2 |
Engine Clock (Boost Clock) | 925MHz | 1GHz (1.05GHz) | 800MHz | 1006MHz (1058MHz) | 915MHz (980MHz) |
Shader Units | 2048 | 2048 | 1792 | 1536 | 1344 |
Texture Units | 128 | 128 | 112 | 128 | 112 |
ROPs | 32 | 32 | 32 | 32 | 32 |
Fillrate (GPixel/s) | 29.6 | 32/33.6(Boost) | 25.6 | 32.2/33.9(Boost) | 29.3 |
Fillrate (GTexel/s) | 118.4 | 128/134.4(Boost) | 89.6 | 128.8/135.4(Boost) | 102.5 |
Compute Performance (Single Precision) | 3.79TFLOPs | 4.3TFLOPs | 2.87TFLOPs | 3.09TFLOPs | 2.46TLOPs |
Compute Performance (Double Precision) | 947GFLOPs | 1.01TFLOPs | 717GFLOPs | 129GFLOPs | 103GFLOPs |
Memory Type | 384bit GDDR5 | 384bit GDDR5 | 384bit GDDR5 | 256bit GDDR5 | 256bit GDDR5 |
Memory Size | 3GB | 3GB | 3GB | 2GB | 2GB |
Memory Date Rate | 5.5Gbps | 6Gbps | 5Gbps | 6008MHz | 6008MHz |
Memory Bandwidth | 264GB/s | 288GB/s | 240GB/s | 192.2GB/s | 192.2GB/s |
PCI-Express | 3.0 | 3.0 | 3.0 | 3.0 | 3.0 |
Maximum Wattage | 250W | 250W+ | 200W | 195W | 170W |
Power Connectors | 8pin + 6pin | 8pin + 6pin | 2 x 6pin | 2 x 6pin | 2 x 6pin |
DirectX | 11.1 | 11.1 | 11.1 | 11.1 | 11.1 |
OpenGL | 4.2 | 4.2 | 4.2 | 4.2 | 4.2 |
GPGPU | OpenCL 1.2 | OpenCL 1.2 | OpenCL 1.2 | CUDA, OpenCL | CUDA, OpenCL |
Maximum Monitors Output | 4(6 w/MST) | 4(6 w/MST) | 4(6 w/MST) | 4 | 4 |