2024-08-07
升級 Zen 5 微架構、性能 +16% ?
AMD Ryzen 5 9600X vs. 7600X / 14600K
文: Dominic Chan / 評測中心


AMD 正式發布全新 Ryzen 9000 系列處理器,採用 TSMC 4nm + 6nm 制程、核心代號 Granite Ridge,採用全新 Zen 5 微架構,官方宣稱相較上代 IPC 性能提升約 16%、每瓦效能平均提高了 22%,特別針對 AVX-512 資料路徑作出強化,相較上代浮點指令吞吐量提升 1.5 倍。HKEPC 編輯部找來全新 Ryzen 5 9600X 處理器與 Intel Core i5-14600K 及 Ryzen 5 7600X 作效能對比測試。



IPC 性能提升 16%、AMD Ryzen 9000 處理器登場

 

Zen 5

 

 

天時、地利、人和 !! AMD 這次推出新 CPU 正好遇上對手 Intel 自爆,13 / 14 代 Core 處理器仍存在穩定性問題,勸退不少有意購買 Intel CPU 的消費者,AMD 這仗可謂不戰而勝,要打贏的對手就只剩下自己舊一代的 Ryzen 7000 及 7000X3D 處理器了。

 

今代 Zen 5 微架構 Ryzen 9000 系列處理器的 CCD 升級至 TSMC 4nm 制程,雖然未有增加核心數量,但改良了 Front-End 設計,亦提高了 L2 快取的頻寬及降低 L3 快取延遲,SMT 效能提升,變相無論是單核還是多核性能都有所提升,AMD 更宣稱 IPC 性能提升可達 16%。

 

 

Zen5

 

 

根據 CPU 架構發展藍圖,AMD 已在 7 月 27 日即將發佈 4nm 制程的 Ryzen AI 300 系列行動處理器 (Strix Point) ,接著 8 月 中旬推出 4nm + 6nm 的 Ryzen 9000 系列 Desktop 處理器 ,Q4 推出具備 3D V-Cache 的 Ryzen 9000X3D 系列 Desktop 處理器,然後在 2025 年上半年推出 GPU 巨大化的 Strix Halo 行動處理器 。

 

AMD 同時保証 Socket AM5 接口至少可過至 2027 年,即至少 Zen 6 的繼任產品仍會採用 Socket AM5 接口,大家買 AM5 主機板時大可以放心了。

 

 

 

全新 AMD Zen 5 微架構

 

AMD Zen 5 微架構是基於現有的 Zen 4 微架構作為藍圖並作出改革,包括了 Front-End、Load Store Unit、Branch Prediction、Execution Engine 及 Cache Sub-System 都有作出改動,包括了增加內部頻寬、提升運算單元使用率、提升緩存命中率、提升單一週期指令執行數等等,主要改進及全新設計包括︰

 

 

Zen5

 

 

◼️雙管道預取配合更先進的分支預測 (Dual Pipe Fetch with Advanced Branch Prediction)

→ 改進了預測分支技術,大幅減少延遲及提高精度和吞吐量。

→ 改良指令快取,提升了指令快取的延遲和帶寬。

→ 引入了雙解碼管道,提升了指令解碼的效率。

 

◼️更寬的發送與執行 (Wider Dispatch and Execute)

→ 8-Wide Rename/retire 提高了指令處理能力

→ 6個 ALU、3個 FMUL 增強了算術和邏輯運算能力

→ 更大的統一調度器提高了指令調度的效率。

→ 更大容量 Re-order Buffer,提升了指令重新排序的能力,增加了處理指令的靈活性。

 

◼️ 兩倍數據頻寬 (2x Data Bandwidth)

→ 48KiB 12-way L1 資料快取、提供 4-Cycle Load,增加了快取容量和效率。

→ 雙倍 Data Bandwidth 提升了數據傳輸效率。

→ 經改良的 Data Prefetching,提升了數據預取能力,減少了數據訪問延遲。

 

◼️ 512位 AI 數據通路 (512-bit AI Datapath)

→ AVX-512 新增完整支持 512bit Datapath,增強了向量處理能力。

→ 6 個 ALU 僅兩週期的延遲浮點加法 (FADD):提升了浮點運算的性能。

→ 更大的浮點指令窗口,增加了浮點指令吞吐量,提高了計算效率。

 

 

Zen5

 

 

根據 AMD 提供的官方數據,在同時脈下 Zen 5 微架構相較 Zen 4,在 13 個不同應用情景下平均 IPC 提升 16%,這是 AMD 自 Zen 2 開始連續 3 代實現了雙位數 IPC 成長,不過這數值有一定水份,因為 AMD 是由過去 22 個應用減至 13 個計出來的,當中有些增長較低可能已被剔除。

 

再分析 Zen 5 微架構的 IPC 性能成長的貢獻比例,當中 33% 來自 Execution / Scheduler、28% 來自 Decode / Op Cache / Dispatch、26% 來自 Load/Store / Data Cache / L2 Cache、13% 來自 Instruction Cache / Branch Prediction

 

 

AMD Zen 4 vs. Zen 5 Key Capbilities

Key CapbilitiesZen 4Zen 5
L1/L2 BTB1.5K/7K16K/8K
Return Address Stack3252
ITLB L1/L264/51264/2048
Fetched/Decoded Instruction Bytes/cycle3264
Op Cache associativity12-way16-way
Op Cache bandwidth9 macro-ops12 inst or fused inst
Dispatch bandwidth (macro-ops/cycle)68
AGU Scheduler3x24 ALU/AGU56
ALU Scheduler1x24 ALU88
ALU/AGU4/36/4
Int PRF (reg/flag)224/126240/192
Vector Reg192384
FP Pre-Sched Queue6496
FP Scheduler2x323x38
FP Pipes34
Vector Width256b256b/512b
ROB/Retire Queue320448
LS Mem Pipes support Load/Store3/14/2
DTLB L1/L272/307296/4096
L1Data Cache32KB/8-way48KB/12-way
L2 per core1MB/8w1MB/16w
L2 bandwidth32B/clk64B/clk

 

 

 

經改良的 Front-End 引擎

 

全新 AMD Zen 5 微架構針對指令取用 (Instruction Fetch) 和分支預測 (Branch Prediction) 等方面作出了不少改良,加入了 零氣泡條件分支 (Zero-bubble conditional branches) 設計,它能減少分支錯誤預測帶來的延遲,使指令執行更加連續和高效,更大的 Branch Predictor Bandwidth,提早填充至 Request Queue 單元,有助降低運算延遲並優化記憶體系統並行性能。

 

AMD Zen 5 微架構進一步增加了 Branch Target Buffer (BTB) 緩存,L1 BTB 由 Zen 4 的 1.5K Entries 大幅增至 16K Entries,這個容量甚至比 L2 BTB 的 8K Entries 還要高,更大的 Branch Bandwidth 有助更快的分支錯誤回復,減少背靠背預測造成的預測泡沫,能加快預測分支的進行並降低分支失敗率。

 

 

 Zen 5

 

 

此外,AMD Zen 5 微架構擁有更大的返回地址堆棧 (Return Address Stack),由上代 Zen 4 的 32 個增至 52 個,提升了函數調用和返回的預測精度;每週期可執行 2 次預測 (2 taken predictions/cycle) 及最多 3 個預測窗口 (3 prediction windows/cycle) 也大大提升了指令流水線的吞吐量。

 

為了減低訪問 L2 Cache和 L2 ITLB 的延 遲,AMD Zen 5 微架構大幅增加了 L2 ITLB 的容量,由 Zen 4 的 512 Entries 增大至 2048 Entries,這個改良提升了虛擬地址到物理地址的轉換效率。與此同時,AMD Zen 5 微架構將 Fetched / Decodeded 指令快取頻寬由 32B/cycle 增至 64B/cycle,並且支援同時取用兩個指令流,這大大提升了令取用速度及多執行緒環境下的指令取用效率。

 

 

全新 Dual Decoder (8-Wide) 設計

 

指令解碼方面,AMD Zen 5 大幅提升了 OpCache 的處理能力,增加33%的入口關聯性由 Zen 4 的 12-Way 增至 16-Way,這意味著 OpCache 現在能夠同時容納更多的指令,減少了從 L1 指令快取中重新加載指令的需求。此外,Zen 5 的 OpCache 增至雙管道設計、每個管道可以儲存 6 條 μOps 指令,相較上代 Zen 4 每個週期 9 條 μOps 指令提升至 12 條,這意味著每個周期可以解碼更多的指令,提高了整體的指令吞吐量。

 

 

Zen 5

 

 

AMD Zen 5 Front-End 引擎維持 4-Wide x86 Decoder 設計,不過 Decoder 數目由 Zen 4 的 1 個增至 2 個,採用 Dual Decoder 設計使得 Zen 5 可以同時處理兩條獨立的指令流,大幅提高了並行處理能力,每個 Decoder 每個週期可處理 4 個 x86 指令,總共可達到每週期 8 個指令是上代 Zen 4 的 1 倍。

 

受惠全新 Dual Decoder 設計,Zen 5 可以在 SMT 模式下每個執行緒分配到一個獨立的 Decoder,令 SMT 多執行緒性能處理效率得以提升,總數 8-wide dispatch 設計可以同時向整數和浮點數運算單元派發 8 條指令,這大幅提升了處理器的整體運算能力。

 

發表評論