AMD 正式發布全新 Ryzen 9000 系列處理器,採用 TSMC 4nm + 6nm 制程、核心代號 Granite Ridge,採用全新 Zen 5 微架構,官方宣稱相較上代 IPC 性能提升約 16%、每瓦效能平均提高了 22%,特別針對 AVX-512 資料路徑作出強化,相較上代浮點指令吞吐量提升 1.5 倍。HKEPC 編輯部找來全新 Ryzen 5 9600X 處理器與 Intel Core i5-14600K 及 Ryzen 5 7600X 作效能對比測試。
IPC 性能提升 16%、AMD Ryzen 9000 處理器登場
天時、地利、人和 !! AMD 這次推出新 CPU 正好遇上對手 Intel 自爆,13 / 14 代 Core 處理器仍存在穩定性問題,勸退不少有意購買 Intel CPU 的消費者,AMD 這仗可謂不戰而勝,要打贏的對手就只剩下自己舊一代的 Ryzen 7000 及 7000X3D 處理器了。
今代 Zen 5 微架構 Ryzen 9000 系列處理器的 CCD 升級至 TSMC 4nm 制程,雖然未有增加核心數量,但改良了 Front-End 設計,亦提高了 L2 快取的頻寬及降低 L3 快取延遲,SMT 效能提升,變相無論是單核還是多核性能都有所提升,AMD 更宣稱 IPC 性能提升可達 16%。
根據 CPU 架構發展藍圖,AMD 已在 7 月 27 日即將發佈 4nm 制程的 Ryzen AI 300 系列行動處理器 (Strix Point) ,接著 8 月 中旬推出 4nm + 6nm 的 Ryzen 9000 系列 Desktop 處理器 ,Q4 推出具備 3D V-Cache 的 Ryzen 9000X3D 系列 Desktop 處理器,然後在 2025 年上半年推出 GPU 巨大化的 Strix Halo 行動處理器 。
AMD 同時保証 Socket AM5 接口至少可過至 2027 年,即至少 Zen 6 的繼任產品仍會採用 Socket AM5 接口,大家買 AM5 主機板時大可以放心了。
全新 AMD Zen 5 微架構
AMD Zen 5 微架構是基於現有的 Zen 4 微架構作為藍圖並作出改革,包括了 Front-End、Load Store Unit、Branch Prediction、Execution Engine 及 Cache Sub-System 都有作出改動,包括了增加內部頻寬、提升運算單元使用率、提升緩存命中率、提升單一週期指令執行數等等,主要改進及全新設計包括︰
◼️雙管道預取配合更先進的分支預測 (Dual Pipe Fetch with Advanced Branch Prediction)
→ 改進了預測分支技術,大幅減少延遲及提高精度和吞吐量。
→ 改良指令快取,提升了指令快取的延遲和帶寬。
→ 引入了雙解碼管道,提升了指令解碼的效率。
◼️更寬的發送與執行 (Wider Dispatch and Execute)
→ 8-Wide Rename/retire 提高了指令處理能力
→ 6個 ALU、3個 FMUL 增強了算術和邏輯運算能力
→ 更大的統一調度器提高了指令調度的效率。
→ 更大容量 Re-order Buffer,提升了指令重新排序的能力,增加了處理指令的靈活性。
◼️ 兩倍數據頻寬 (2x Data Bandwidth)
→ 48KiB 12-way L1 資料快取、提供 4-Cycle Load,增加了快取容量和效率。
→ 雙倍 Data Bandwidth 提升了數據傳輸效率。
→ 經改良的 Data Prefetching,提升了數據預取能力,減少了數據訪問延遲。
◼️ 512位 AI 數據通路 (512-bit AI Datapath)
→ AVX-512 新增完整支持 512bit Datapath,增強了向量處理能力。
→ 6 個 ALU 僅兩週期的延遲浮點加法 (FADD):提升了浮點運算的性能。
→ 更大的浮點指令窗口,增加了浮點指令吞吐量,提高了計算效率。
根據 AMD 提供的官方數據,在同時脈下 Zen 5 微架構相較 Zen 4,在 13 個不同應用情景下平均 IPC 提升 16%,這是 AMD 自 Zen 2 開始連續 3 代實現了雙位數 IPC 成長,不過這數值有一定水份,因為 AMD 是由過去 22 個應用減至 13 個計出來的,當中有些增長較低可能已被剔除。
再分析 Zen 5 微架構的 IPC 性能成長的貢獻比例,當中 33% 來自 Execution / Scheduler、28% 來自 Decode / Op Cache / Dispatch、26% 來自 Load/Store / Data Cache / L2 Cache、13% 來自 Instruction Cache / Branch Prediction
AMD Zen 4 vs. Zen 5 Key Capbilities
Key Capbilities | Zen 4 | Zen 5 |
L1/L2 BTB | 1.5K/7K | 16K/8K |
Return Address Stack | 32 | 52 |
ITLB L1/L2 | 64/512 | 64/2048 |
Fetched/Decoded Instruction Bytes/cycle | 32 | 64 |
Op Cache associativity | 12-way | 16-way |
Op Cache bandwidth | 9 macro-ops | 12 inst or fused inst |
Dispatch bandwidth (macro-ops/cycle) | 6 | 8 |
AGU Scheduler | 3x24 ALU/AGU | 56 |
ALU Scheduler | 1x24 ALU | 88 |
ALU/AGU | 4/3 | 6/4 |
Int PRF (reg/flag) | 224/126 | 240/192 |
Vector Reg | 192 | 384 |
FP Pre-Sched Queue | 64 | 96 |
FP Scheduler | 2x32 | 3x38 |
FP Pipes | 3 | 4 |
Vector Width | 256b | 256b/512b |
ROB/Retire Queue | 320 | 448 |
LS Mem Pipes support Load/Store | 3/1 | 4/2 |
DTLB L1/L2 | 72/3072 | 96/4096 |
L1Data Cache | 32KB/8-way | 48KB/12-way |
L2 per core | 1MB/8w | 1MB/16w |
L2 bandwidth | 32B/clk | 64B/clk |
經改良的 Front-End 引擎
全新 AMD Zen 5 微架構針對指令取用 (Instruction Fetch) 和分支預測 (Branch Prediction) 等方面作出了不少改良,加入了 零氣泡條件分支 (Zero-bubble conditional branches) 設計,它能減少分支錯誤預測帶來的延遲,使指令執行更加連續和高效,更大的 Branch Predictor Bandwidth,提早填充至 Request Queue 單元,有助降低運算延遲並優化記憶體系統並行性能。
AMD Zen 5 微架構進一步增加了 Branch Target Buffer (BTB) 緩存,L1 BTB 由 Zen 4 的 1.5K Entries 大幅增至 16K Entries,這個容量甚至比 L2 BTB 的 8K Entries 還要高,更大的 Branch Bandwidth 有助更快的分支錯誤回復,減少背靠背預測造成的預測泡沫,能加快預測分支的進行並降低分支失敗率。
此外,AMD Zen 5 微架構擁有更大的返回地址堆棧 (Return Address Stack),由上代 Zen 4 的 32 個增至 52 個,提升了函數調用和返回的預測精度;每週期可執行 2 次預測 (2 taken predictions/cycle) 及最多 3 個預測窗口 (3 prediction windows/cycle) 也大大提升了指令流水線的吞吐量。
為了減低訪問 L2 Cache和 L2 ITLB 的延 遲,AMD Zen 5 微架構大幅增加了 L2 ITLB 的容量,由 Zen 4 的 512 Entries 增大至 2048 Entries,這個改良提升了虛擬地址到物理地址的轉換效率。與此同時,AMD Zen 5 微架構將 Fetched / Decodeded 指令快取頻寬由 32B/cycle 增至 64B/cycle,並且支援同時取用兩個指令流,這大大提升了令取用速度及多執行緒環境下的指令取用效率。
全新 Dual Decoder (8-Wide) 設計
指令解碼方面,AMD Zen 5 大幅提升了 OpCache 的處理能力,增加33%的入口關聯性由 Zen 4 的 12-Way 增至 16-Way,這意味著 OpCache 現在能夠同時容納更多的指令,減少了從 L1 指令快取中重新加載指令的需求。此外,Zen 5 的 OpCache 增至雙管道設計、每個管道可以儲存 6 條 μOps 指令,相較上代 Zen 4 每個週期 9 條 μOps 指令提升至 12 條,這意味著每個周期可以解碼更多的指令,提高了整體的指令吞吐量。
AMD Zen 5 Front-End 引擎維持 4-Wide x86 Decoder 設計,不過 Decoder 數目由 Zen 4 的 1 個增至 2 個,採用 Dual Decoder 設計使得 Zen 5 可以同時處理兩條獨立的指令流,大幅提高了並行處理能力,每個 Decoder 每個週期可處理 4 個 x86 指令,總共可達到每週期 8 個指令是上代 Zen 4 的 1 倍。
受惠全新 Dual Decoder 設計,Zen 5 可以在 SMT 模式下每個執行緒分配到一個獨立的 Decoder,令 SMT 多執行緒性能處理效率得以提升,總數 8-wide dispatch 設計可以同時向整數和浮點數運算單元派發 8 條指令,這大幅提升了處理器的整體運算能力。