AMD 正式發佈旗艦級「Radeon RX 6900 XT」顯示卡,採用完整的「Navi 21 XTX」繪圖核心,擁有高達 80 CU、5,120 Stream Prcessors,創新 Infinity Cache 技術配合 16GB 大容量 GDDR6 記憶體、追加 Ray Accelerators 光線追蹤引擎,官方定價 US$999 美元, 究竟新卡能否為 NVIDIA 帶來威脅,HKEPC 編輯部找來 AMD Radeon RX 6900 XT 與 GeForce RTX 3090 作對比測試。
完壁 80 CU、Radeon RX 6900 XT 登場
代號 Big Navi、全新 RDNA 2 GPU 微架構, AMD 全新 Radeon RX 6800 / 6900 系列正式登場,採用全新「Navi 21」繪圖核心在性能表現或功能規格均有著驚人突破,是 AMD 近年來首次追接 NVIDIA 高階型號。
AMD 11 月 18 日已推出 Radeon RX 6800 與 RX 6800 XT 兩款型號號,RX 6800 擁有 60 個 CU、3,840 個 Stream Processors、16GB GDDR6 容量,官方定價為 US$579美元;RX 6800 XT 則擁有 72 個 CU、4,608 個 Stream Processors、16GB GDDR6,官方定價為 US$649 美元,假想敵是GeForce RTX 3080。
今次再推出旗艦級的 Radeon RX 6900 XT,擁有完整 80 個 CU、5,120 個 Stream Processors、16GB GDDR6 容量,官方定價為 US$999 美元,由於完整 Navi 21 XTX 良率有限,AMD並不打算推出非公板型號,但 AIB 會直接賣公板卡,對手將會是定價 US$1,499 的 GeForce RTX 3090。
經改良的 RDNA 2 GPU 微架構
外間稱它為 N 卡殺手,全新的「RDNA 2」微架構是基於「RNDA」作出改良,目標是在相同的內部頻寬框架下,將 CU 單元的數目提升 100%,透過微架構的最佳化實現同時脈下 CU 單元功耗降低 50%,或是相同功耗讓時脈提升 1.3X,另一個方向是能大幅提升內部緩存命中,讓 CU 單元減低單元閒置,令 GPU 指令吞吐量能進一步提升,在 GDDR6 頻寬保持不變提升記憶體有效頻寬等,最終達至 +54% 的性能功耗比提升。
全新「RDNA 2」設計針對 Compute Unit 重新設計,「Navi 21」繪圖核心增至 4 個 Shader 引擎共享前端,每個 Shader 引擎擁有 2 組 Graphics Array 運算群,每個 GA 運算群內含 5 個 Dual Compute Unit (DCU) 並共享 L1 Cache、Rasterizer、RB+、Prim Unit 等資源,總計整顆晶片合共有 80 個 CU 單元、數目增加了 1 倍 100%。
此外,前端換上了重新設計的 RB+ 光柵化單元,每個 Shader 引擎共享 32 個 RB+ 單元,數目與上代 RDNA 相同,但每個週期能處理 8 個 32bit Pixel 指令,數目是上代的 1 倍,更重要是新增 Variable Rate Shading (VRS) 可變速率著色、 Mesh Shaders 網格著色器、Sampler Feedback 取樣器回饋等功能,以滿足 DirectX 12 Ultimate 規格要求 ,允許遊戲選擇性地降低畫面裡部分區域的細節水平來提高效能,對圖像品質幾乎沒有明顯影響但性能卻能進一步提升。
RDNA 2 微架構與 RDNA 同樣採用 Dual Compute Unit (DCU) 設計,將 2 個 CU 結合在一起並共用 Scalar Data Cache、Sahder Instruction Cache 及 Local Data Share,DCU 設計可以讓 Shader Processor 之間有更佳的並行運算能力,今代積累 Zen CPU 研發時所得出的高時脈設計經驗,RDNA 2 加入了 Streamlined Micro-Architecture 設計,DCU 的 Pipeline Logic 佈局修改後,令運作時脈可以在相同功耗下提升 1.3X。
RDNA 2 微架構在每個 CU 中加入了 Ray Accelerator (RA) 硬體加速運算單元,屬於軟硬體混合加速方式,實現支援光線追踪影像特效,它是基於 Microsoft Raytracing (DXR) API,每個 Ray Accelerator 每個時鐘可完成 4 Ray/Box 或 1 Ray/Triangle 的光線相交運算,運算速度較純軟件運算性能提升約 10x,雖然與 NVIDIA 的 RT 硬體運算單元設計仍有距離,但至少 Ray Tracing 不再是 NVIDIA 卡的專利。
AMD 全新的 Inifinity Cache 技術
有別於 NVIDIA 採用更寬的記憶體介面、更高速的 GDDR6X 記憶體顆粒,AMD 的做法明顯比 NVIDIA 聰明,在 RDNA 2 微架構中首次加入 Infinity Cache 技術在 L2 Cache 與 GDDR6 之間加入了 128MB 緩存,GPU 與 Infinity Cache 之間由 16 條 64bit 1.94GHz 的 Infinity Fabric 連結,頻寬基本上是 256bit GDDR6 記憶體的 4 倍。
據 AMD 指出,Infinity Cache 將能大幅升遊戲 Workload 資料命中率,降低讀取延遲達 34%,並減少 GDDR6 記憶體頻寬使用,實際性能表現近乎是 384bit GDDR6 的 2.17x,但卻用只需 384bit GDDR6 的0.9x 功耗, Infinity Cache 可以說是 RDNA 2 微架構最重要性能改動。
搭配 Ryzen 5000 支援 Smart Access 技術
除了 Infinity Cache 技術外,RDNA 2 微架構另一項重要的記憶體改良就是 Smart Access Memory 技術,傳統的 x86 PC 架構中受限於 PCIe 規範,只能透過 Base Address Register (BAR) 每次將 256MB 系統記憶體射映到 GPU 記憶體,這個限制嚴重影響到系統記憶體與 GPU 記憶體之間的資料傳輸效率。
AMD 在 RDNA 2 中加入了全新 Smart Access Memory 技術,當用家使用AMD 新一代 Ryzen 5000 系列處理器時,不再使用 PCIe Mapping 方式,CPU 可以直接存取 GPU 記憶體,完全解除 CPU 與 GPU 之間的讀寫瓶頸,遊戲性能平均能提升約 6%,尤其對大量使用 Texture 貼圖的遊戲,效能提升會更為明顯。
AMD Radeon RX 6800 / 6900 Family Specifications
Radeon RX 6900 XT | Radeon RX 6800 XT | Radeon RX 6800 | Radeon RX 5700 XT | |
Architecture | RNDA 2 | RNDA 2 | RNDA 2 | RNDA |
Manufacturing Process | TSMC 7nm | TSMC 7nm | TSMC 7nm | TSMC 7nm |
Transistor Count | 26.8 billion | 26.8 billion | 26.8 billion | 10.3 billion |
Die Size | 519 mm2 | 519 mm2 | 519 mm2 | 251 mm2 |
Compute Units | 80 | 72 | 60 | 40 |
Ray Accelerators | 80 | 72 | 60 | - |
Stream Processors | 5120 | 4608 | 3840 | 2560 |
Game GPU Clock | Up to 2015 MHz | Up to 2015 MHz | Up to 1815 MHz | Up to 1755 MHz |
Boost GPU Clock (Up to) | Up to 2250 MHz | Up to 2250 MHz | Up to 2105 MHz | Up to 1905 MHz |
Peak Single Precision Performamce | Up to 23.04 TFLOPS | Up to 20.74 TFLOPS | Up to 16.17 TFLOPS | Up to 9.75 TFLOPS |
Peak Half Precision Performamce | Up to 46.08 TFLOPS | Up to 41.47 TFLOPS | Up to 32.33 TFLOPS | Up to 19.5 TFLOPS |
Peak Texture Fill-Rate | Up to 720.0 GT/s | Up to 648.0 GT/s | Up to 505.2 GT/s | Up to 304.8 GT/s |
ROPs | 128 | 128 | 96 | 64 |
Peak Pixel Fill- Rate | Up to 288.0 GP/s | Up to 288.0 GP/s | Up to 202.1 GP/s | Up to 121.9 GP/s |
AMD Infinity Cache | 128 MB | 128 MB | 128 MB | - |
Memory (Up to) | 16GB GDDR6 | 16GB GDDR6 | 16GB GDDR6 | 8GB GDDR6 |
Memory Bandwidth | 512 GB/s | 512 GB/s | 512 GB/s | 448 GB/s |
Memory Interface | 256-bit | 256-bit | 256-bit | 256-bit |
Board Power | 300W | 300W | 250W | 225W |