
N 卡殺手 !! AMD 正式發布 Radeon RX 9070 XT 顯示卡,今代 AMD 完全放棄高階市場全力做好中階產品,該卡採用了全新 RDNA 4 GPU 微架構,搭載第 3 代 Ray Accelerators 光線追蹤引擎,定價 US$599 性能卻可媲美定價 US$749 的 GeForce RTX 5070 Ti,被全球媒體評為「良心之作」。究竟這張新卡能否為 NVIDIA 帶來威脅?HKEPC 編輯部找來 SAPPHIRE Pure Radeon RX 9070 XT 與 GeForce RTX 5070 Ti 進行對比測試。
第 2 代 AI 運算單元
針對 AI 運算方面,AMD 的 RDNA 4 GPU 架構升級至第 2 代 AI 運算單元,該單元移植自伺服器級的 Radeon Instinct AI 單元設計,比起以往任何一代 AMD GPU 都具備更快速、更高效的 AI 運算能力。這次的升級包括增強的 WMMA (Wave Matrix Multiply Accumulate) 運算、增加數學運算管線 (Math Pipelines) 的數目、更高效的數據寄存器,以及支援更多的數據格式。AMD 表示,與競爭對手的 GeForce GPU 相比,RDNA 4 的 AI 運算單元在稀疏性運算及低精度浮點運算方面佔有優勢,能在提升性能的同時有效降低運算成本。
第 2 代 AI 運算單元強化了 WMMA 運算能力。RDNA 4 的每個 CU 單元包含 64 個矩陣加速器,能高效處理 16 位、8 位和 4 位的張量運算,專為 AI 推理及訓練任務進行優化。FP16 的運算性能從 RDNA 3 的 512 ops 提升至 1024 ops(密集運算模式)或 2048 ops(稀疏運算模式);INT8 和 INT4 的運算性能相比 RDNA 3 也有顯著提升,INT8 增加至 2048 ops(密集運算模式)或 4096 ops(稀疏運算模式),而 INT4 更達到 4096 ops(密集運算模式)及 8192 ops(稀疏運算模式)。
此外,第 2 代 AI 運算單元新增支援 FP8、E4M3 和 E5M2 浮點數據格式,提供不同的數據範圍與精度選項,特別適用於深度學習模型推理。這項改進能在保持運算準確性的同時,顯著降低記憶體佔用。再加上 4:2 結構化稀疏性,透過張量稀疏性的利用,RDNA 4 在稀疏運算模式下的峰值性能提升至 2 倍,同時提升每瓦性能(Perf/Watt)。
RDNA 4 的數學運算單元也進一步加強,新增和改進的數學運算管線使其性能更加優越。RDNA 4 的 32 Wide FMA/SIMD 單元同時支援浮點運算(FMA)及整數運算(INT),運算能力顯著提升;8 Wide 的數學函數單元專注於處理如三角函數、指數函數等數學密集型指令,非常適合 AI 模型中的相關運算。此外,16/32 位累加器單元提供更高精度的矩陣累加操作,滿足不同 AI 工作負載的需求。
根據 AMD 的數據,RDNA 4 GPU 的 AI 性能相比上代 RDNA 3 提升顯著。在基本運算性能方面,FP16 提升了 2 倍;在結構化稀疏模式下,FP16 性能進一步提升至 4 倍。INT8 的支援性能提高了 4 倍,而在結構化稀疏模式下,性能更達到 8 倍。
此外,RDNA 4 支援 FP8 格式,而 RDNA 3 並未具備此能力。FP8 格式在 AI 模型推理和訓練中,能以更低的記憶體佔用及更高的能效處理新興的 AI 工作負載。
AMD FSR 4 AI 幀生成技術
作為 AMD RDNA 4 GPU 微架構的另一大賣點,AMD FSR 4 是一項由機器學習 (ML) 驅動的升頻技術 (Upscale),能將低解析度的遊戲幀轉換為高解析度的輸出,並透過 AI 偵生成技術顯著提升遊戲的幀數表現。為了支援 FSR 4 技術,AMD 專門設立了一個 AI 資料中心,該中心由大量 AMD Instinct AI GPU 組成的伺服器群組構成,負責針對特定遊戲訓練機器學習模型。FSR 4 技術利用這些模型進行幀的細節重建和升頻,從而實現更高品質的圖像輸出。
在用戶端方面,FSR 4 技術要求 GPU 能達到最低 779 AI TOPS 的 AI 加速吞吐量,而 Radeon RX 9070 系列顯示卡完全滿足此需求(RX 9070 提供約 1200 TOPS,RX 9070 XT 則達到約 1500 TOPS)。該升頻過程從低解析度的輸入幀開始,並結合場景的關鍵數據,例如深度、顏色及運動向量,這些數據一同提供有關物體定位、光照及幀內運動的詳細資訊。然後,利用經過訓練的 AI 模型,這些數據會交由 RDNA 4 的 AI 運算單元處理,生成最終的升頻影像。AMD 的演示顯示,FSR 4 的影像品質在大多數情況下甚至超越原始解析度的幾何細節表現,並且效果更佳。性能方面,FSR 4 可帶來 2.1 倍至 3.7 倍的性能提升。
目前,AMD FSR 4 技術作為 Radeon RX 9000 系列的獨有功能首次亮相,預計在發佈時將支援多達 30 款遊戲,而到 2025 年將擴展至至少 75 款遊戲。FSR 4 的工作方式現已更接近 NVIDIA 的 DLSS 技術。
由於 AMD FSR 4 技術需要 GPU 支援 FP8 格式的運算能力,以及需符合 779 AI TOPS 或更高的 AI 運算能力,因此 FSR 4 僅支援 Radeon RX 9000 系列 (RDNA 4) 或更新的 GPU 產品。
此外,AMD FSR 4 技術已為未來的神經渲染 (Neural Rendering) 準備就緒。遊戲業界目前正積極朝向將 AI 技術導入遊戲應用的方向發展,神經渲染技術將成為未來的重要趨勢。Microsoft 亦宣布,未來的 DirectX 將正式支援向量運算協作,應用程式可透過 DirectX API 直接訪問 GPU 上的 AI 加速硬件。雖然 AMD RDNA 4 將在不久的將來實現神經渲染,但 AMD 尚未公佈具體的時間表。