
N 卡殺手 !! AMD 正式發布 Radeon RX 9070 XT 顯示卡,今代 AMD 完全放棄高階市場全力做好中階產品,該卡採用了全新 RDNA 4 GPU 微架構,搭載第 3 代 Ray Accelerators 光線追蹤引擎,定價 US$599 性能卻可媲美定價 US$749 的 GeForce RTX 5070 Ti,被全球媒體評為「良心之作」。究竟這張新卡能否為 NVIDIA 帶來威脅?HKEPC 編輯部找來 SAPPHIRE Pure Radeon RX 9070 XT 與 GeForce RTX 5070 Ti 進行對比測試。
N 卡殺手 !! 專心做好中階
每一代都號稱 N 卡殺手,但每一代都恨鐵不成鋼!AMD 明白要在高階市場追上 NVIDIA 的難度不低,因此 RDNA 4 GPU 微架構改變策略,直接跳過高階型號,推出代號為 Navi 48 的 Radeon RX 9070 系列。根據 AMD 官方調查,約 85% 的遊戲玩家僅會購買 US$700 美元或以下的顯示卡,並且玩家更希望沿用 PCIe 8-Pin 供電接口,因此 AMD 目標非常明確,就是要在中階或以下提供比 NVIDIA 價格更低、效能更強的產品,對 GeForce RTX 5070 系列進行全方位壓制。
定位方面,AMD 在 5 日正式發布 Radeon RX 9070 與 Radeon RX 9070 XT 兩款型號,其中 Radeon RX 9070 擁有 56 個 CU、3,584 個 Stream Processors、56 個 RT 加速運算單元、112 個 AI 加速運算單元,擁有 256-bit 記憶體介面、16GB GDDR6 記憶體,最高 TBP 220W,官方定價為 US$549,與 GeForce RTX 5070 一樣。
Radeon RX 9070 XT 則擁有完整的 64 個 CU、4,096 個 Stream Processors、64 個 RT 加速運算單元、128 個 AI 加速運算單元,擁有 256-bit 記憶體介面、16GB GDDR6 記憶體,最高 TBP 304W,官方定價為 US$599,對手將會是 GeForce RTX 5070 Ti 但價格便宜多了。
AMD Radeon RX 9070 / RX 9070 XT Specs
Feature | RX 9070 | RX 9070 XT |
Architecture | RDNA™ 4 | RDNA™ 4 |
Manufacturing Process | TSMC N4P | TSMC N4P |
Transistor Count | 53.9 billion | 53.9 billion |
Die Size | 357 mm² | 357 mm² |
Compute Units | 56 | 64 |
Ray Accelerators | 56 | 64 |
AI Accelerators | 112 | 128 |
Stream Processors | 3584 | 4096 |
Game GPU Clock | 2070 MHz | 2400 MHz |
Boost GPU Clock | Up to 2520 MHz | Up to 2970 MHz |
Peak Single Precision Throughput | Up to 36.1 TFLOPS | Up to 48.7 TFLOPS |
Peak Half Precision Throughput | Up to 72.3 TFLOPS | Up to 97.3 TFLOPS |
Peak INT8 AI TOPS | Up to 578 TOPS w/ Sparsity | Up to 779 TOPS w/ Sparsity |
Peak INT4 AI TOPS | Up to 1156 TOPS w/ Sparsity | Up to 1557 TOPS w/ Sparsity |
Peak Texture Fill-Rate | Up to 564.5 GT/s | Up to 760.3 GT/s |
ROP | 128 | 128 |
Peak Pixel Fill-Rate | Up to 322.6 GP/s | Up to 380.2 GP/s |
AMD Infinity Cache™ | 64 MB (3rd Gen.) | 64 MB (3rd Gen.) |
Memory | 16GB GDDR6 | 16GB GDDR6 |
Memory Speed | 20 Gbps | 20 Gbps |
Memory Bus Interface | 256-bit | 256-bit |
PCIe® Interface | PCIe 5.0 x16 | PCIe 5.0 x16 |
Total Board Power | 220 W | 304 W |
◾Power and clock specifications may be higher on some board models.
經改良的 RDNA 4 GPU 架構
AMD 新一代 RDNA 4 GPU 微架構的設計方向非常明確,放棄與 NVIDIA 爭奪高階 GPU 市場,將所有資源集中於中階 GPU 型號,全力提升遊戲性能與功耗效率,以滿足時下 3A 遊戲大作的高負載需求。經改良的 CU 運算單元、升級全新的 RT 光線追蹤功能,針對 AI 運算及路徑追蹤運算進行了全面強化。
與 RDNA 2 相比,RDNA 4 GPU 在光柵化方面幾乎提升了 2 倍,在光線追蹤方面接近提升 2.5 倍,而在機器學習(FP16 密集矩陣)工作負載方面更提升了 3.5 倍。接下來,我們會分析 RDNA 4 的主要改良之處。
全新 RDNA 4 GPU 微架構針對 Compute Unit 作出大幅度改良。作為中階 GPU 的 Navi 48 繪圖核心,採用 TSMC 4nm (N4P) 制程,晶片尺寸為 356.5mm²,電晶體數目為 539 億個。它擁有 4 個 Shader Engine,每個 Shader Engine 包含 2 個 Graphics Array 運算群,而每個 Graphics Array 內含 4 個 Dual Compute Unit (DCU),並共享該 Shader Engine 內的 L1 Cache、Rasterizer、RB+、Prim Unit 等單元。因此,完整的 Navi 48 繪圖核心總共擁有 64 個 CU。
RDNA 4 微架構針對 Cache 系統作出了重大改良。Navi 48 配備 64 個 CU,合共有 2MB L0 Cache、2MB L1 Cache,而 L2 Cache 容量則提升至 8MB,並升級至第 3 代 Infinity Cache 技術。今代不再採用 Chiplet 架構,而是回歸單一晶片設計,這使得 Infinity Cache 與記憶體控制器的延遲降低了 25%。
受惠於增強的記憶體子系統、改進的標量單元及動態寄存器分配,RDNA 4 每個 CU 的運算效率大幅提高。再加上 TSMC 4nm 制程的優勢令時脈進一步提升,雖然 CU 總數較少,但 Radeon RX 9070 系列的性能可望超越前代 RX 7900 系列。
RDNA 4 的 Compute Engine 相較於前幾代作出了多項重要改良,從 SIMD 計算單元到光線加速器均有強化,包括雙 SIMD32 向量單元 (Dual SIMD32 Vector Unit)、增強的矩陣運算 (Enhanced Matrix Operations)、經改良的標量單元 (Scalar Unit)、新一代光線加速器 (Ray Accelerator)、以及強化的調度器 (Scheduler)。
今代 RDNA 4 的其中一項性能提升來自雙 SIMD32 向量單元設計,每個 CU 單元包含 2 組 SIMD32 向量單元,進一步提升平行計算能力,支援更高效的運算密集型工作負載。每組 SIMD32 單元擁有獨立的 192 KB 向量通用暫存器(Vector GPR),為處理更複雜的數據運算提供充足的暫存器空間。
此外,RDNA 4 的 CU 單元大大提升了矩陣運算能力,支援 2×16b 和 4×8b 的稠密矩陣速率,提供更快的矩陣運算速度。4:2 結構化稀疏性功能透過稀疏性特徵提高運算效率,減少不必要的計算。新增的 8 位浮點數據類型 (8b Float Data Types) 及矩陣加載與轉置支援,進一步提升矩陣處理能力,增加數據訪問與運算的靈活性。經改良的標量單元新增了 Float32 運算支援,並加入 16KB Scalar Cache,進一步提升 RDNA 4 架構的標量運算能力。
RDNA 4 的 RT 性能翻倍
過去 AMD 的光線追蹤性能表現不盡人意,因此 RDNA 4 微架構特別針對 RT 性能作出了提升。第三代 Ray Accelerator 單元的光線遍歷能力是上代 RDNA 3 的兩倍。這些升級包括增加第二個光線交集引擎,以及智能優化以減少執行光線追蹤計算所需的開銷。
光線追蹤工作負載的一個關鍵組成部分是構建邊界體積層次結構(BVH)數據結構,該結構定義了圖像的幾何數據屬性。在 RDNA 4 的 Ray Accelerator 單元中,處理 BVH 的創新方法是值得關注的改進之一。此方法有效減少了 BVH 數據的大小和複雜性,使得光線在幾何體中的遍歷更加高效,同時大幅降低記憶體使用量與頻寬需求。
在 RDNA 4 的 Ray Accelerator 單元中,新增多一個交集引擎,讓 Ray/Box 和 Ray/Triangle 性能翻倍,單一週期可處理 8 個 Ray/Box 和 2 個 Ray/Triangle 單元。同時,還新增了一個專用的光線變換區塊,大幅提升 RT 硬體性能,能更高效地處理 BVH 樹的較低層級遍歷。
此外,RDNA 4 新增了著色處理加速技術 (Accelerated Shading),支援動態向量通用暫存器 (VGPR) 管理,動態分配向量暫存器資源,提高光線處理的佔用率。同時,支援亂序內存返回 (Out-of-Order Memory Returns),以減少等待時間,降低光線追蹤任務對內存的依賴性。這些改良進一步減少延遲,大幅提升 RT 性能。