AMD 正式發佈 Radeon RX 7900 XTX 顯示卡,全新 RDNA 3 GPU 微架構、採用 Chiplet 技術由 1 顆 GCD 與 6 顆 MCD 晶片組成,相較上代在相同功耗下性能大幅提升 54%,第 2 代 96MB Infinity Cache 配合 24GB GDDR6 記憶體,升級第 2 代 Ray Accelerators 光線追蹤引擎,新增 AI 加速運算單元,究竟新卡能否為 NVIDIA 帶來威脅,HKEPC 編輯部找來 PowerColor Radeon RX 7900 XTX 與 GeForce RTX 4080 作對比測試。
577 億個電晶體、AMD Navi 31 正式登場 !!
代號 Navi 31、全新 RDNA 3 GPU 微架構,AMD 全新高階 Radeon RX 7900 XTX 顯示卡正式登場,是市場首個採用 Chiplet 多晶片組成的遊戲用 GPU 產品,由 1 顆 5nm GCD 與 6 顆 6nm MCD 晶片組成,經改良的 Shader Engine 設計,第 2 代 96MB Infinity Cache 配合 24GB GDDR6 記憶體,升級第 2 代 Ray Accelerators 光線追蹤引擎,相較上代在相同功耗下性能大幅提升 +54%,而且相較對手 GeForce RTX 4080 擁有更佳的性價比。
定位方面,AMD 將會在 12 月 13 日推出 Radeon RX 7900 XT 與 RX 7900 XTX 兩款型號,RX 7900 XT 擁有 84 個 CU、5,376 個 Stream Processors、84 個 RT 加速運算單元、168 個 AI 加速運算單元,擁有 320-bit 記憶體介面、20GB GDDR6 記憶體,官方定價為 US$899。
RX 7900 XTX 擁有完整 96 個 CU、6,144 個 Stream Processors、96 個 RT 加速運算單元、192 個 AI 加速運算單元,擁有 384-bit 記憶體介面、24GB GDDR6 記憶體,官方定價為 US$999。
AMD Radeon RX 7900 Family Full Specifications
AMD Radeon RX 7900 XT | AMD Radeon RX 7900 XTX | |
GPU Architecture | RDNA3 | RDNA3 |
Transistor Count | 57.7 billion | 57.7 billion |
Die Size | 300 + 220 mm² | 300 + 220 mm² |
Compute Unit | 84 | 96 |
Ray Accelerators | 84 | 96 |
AI Accelerators | 168 | 192 |
Stream Processors | 5,376 | 6,144 |
Game GPU Clock | 2,000 | 2,300 |
Boost GPU Clock | 2,400 | 2,500 |
Peak Single Precision | 52 TFLOPS | 61 TFLOPS |
Peak Half Precision | 103 TFLOPS | 123 TFLOPS |
Peak Texture Fill-Rate | 810 GT/s | 960 GT/s |
ROPs | 192 | 192 |
Peak Pixel Fill-Rate | 460 GP/s | 480 GP/s |
Infinity Cache | 80 MB | 96 MB |
Effective Memory Bandwidth | 2,900GB/s | 3,500GB/s |
Memory Bus Interface | 320-bit | 384-bit |
PCIe Interface | PCIe 4.0 x16 | PCIe 4.0 x16 |
Board Power | 315W | 355W |
首個採用 Chiplet 架構的 Gaming GPU
RDNA 3 GPU 微架構其中一個重大改良是採用了 Chiplet 設計,由過去單一晶片改為 1 顆 5nm GCD 晶片配搭 6 顆 6nm MCD 晶片,要知道 TSMC 5nm 與 6nm 成本提高了 70%,但 5nm 與 6nm SRAM 晶片面積與性能其實相差無幾,再加上GDDR6 記憶體控制器 PHY 是模擬電路,本身需要消耗較大的物理面積,所以 AMD 將 Infinity Cache 與 記憶體控制器分割成 MCD 晶片,並使用成本較便宜 6nm 制程,然後將需要更高時脈、更高密度的 Graphics Engine 則轉用更先進的 5nm 制程,令 RDNA 3 GPU 同時具備了高密度、高良率及低成本的特性。
為了實現 RDNA 3 GPU 的 Chiplet 架構,AMD 採用全新的 Infinity Link 及 Die-to-Die Fanout Rounting 連接技術,6 顆 MCD 採用 1mm 超短距佈線實現了 5.3TB/s 總頻寬,甚至延遲方面相較上代 RDNA 2 降低了 10%。 據 AMD 表示,RDNA 3 受惠於 Chiplet 架構,將 Infinity Cache 與 記憶控制器分離後,GCD 晶片能運作於更高時脈,Radeon RX 7900 XTX Game Clock 預設為 2.3GHz、Boost Clock 為 2.5GHz,相較上代大約提升了約 10%,更具備風冷超頻至 3GHz 水平也完全沒有問題。
經改良的 RDNA 3 GPU 微架構
全新 RDNA 3 GPU 微架構針對 Compute Unit 作出大幅度改良,Navi 31 繪圖核心的 Shader Engine 由 4 個增至 6 個,每個 Shader 引擎擁有 2 個 Graphics Array 運算群,每個 Graphics Array 運算群內含的 Dual Compute Unit (DCU) 數目則由 5 個減至 4 個,因此每個 Shader Engine 內的 Dual Compute Unit 的數目由 10 個減至 8 個,並共享,調整後 Shader Engine 設計能更有效共 L1 Cache、Rasterizer、RB+、Prim Unit 等資源,總計整顆晶片合共有 96 個 CU 單元數目增加了 20%。
RDNA 架構每一代均針對 CU 設計作出改良,Vector Cache (L0) 容量由 16KB 增加至 32KB、Vector GPR 寄存器數目增加了 50%,同時加入經改良的 64 Way 多精度、多功能的 SIMD 設計,SIMD32 數量由 2 個翻倍 4 個,每個 Vector Unit 單一週期能執行 1 個 Wave64 FMA 指令或 2 個 Wave32 ( 1 Int + 1 Float / 2 Float) 指令,這些改動讓 RDNA 3 的 IPC 性能相較上代提升約 17.4%。
此外,RDNA 3 針對 Scheduler 調度單元改良了線程管理表現,這一改動令 RDNA 3 微架構可以運作於更高時脈,加上受惠於 TSMC 5nm 制程進步,令 Navi 31 成為首個在常溫下超越 3GHz 工作時脈的 GPU。
此外, RDNA 3 的 CU 新增 AI 加速運算單元 , Vector Unit 可以用作 Matrix 矩陣運算,每個週期可以處理 64 個 Dot 2 指令 及 64 個 Dot 4 指令,並且新增 BFloat16 指令支援,與上代 RDNA2 相比矩陣乘法性能提升了 2.7X,更新增 WMMA 矩陣乘法,通過發出一條指令連續執行 32 個週期達成 2048 Dot2 指令運算。
RDNA 3 GPU 還針對 Geometry Shader 及 Pixel Shader 運算作出改進,首次加入 Multi-Draw-Indirect (MDIA) 加速器,當執行 MultiDrawIndirect 及 MultiDrawIndexIndirect 指令時,性能相較上代提升了 130%,並且大幅減低了 CPU 所需負載。
新增 12 個專門的 Primitive Culling 硬體運算單元,令 GPU 最高每個週期可以在網格中處理 24 個 Vertices,相較上代速度提升了 50%。Geometry Shader 運理能力亦大幅提升,每個週期能處理 6 個 Primtive尸 及 192 個 Pixel 光柵化處理器,同樣較上代提升 50%。