2019-07-07
12 核心、全新 Zen 2 微架構
AMD Ryzen 9 3900X 處理器詳細測試
文: John Lam / 評測中心


AMD 向 Intel 投下 7nm 震撼彈 !! 全新 Zen 2 微架構、第 3 代 Ryzen 處理器正式登場,相較上代 Zen+ 微架構性能平均提升 15%、Cache 容量倍增,率先支援 PCIe 4.0 傳輸技術,優化 DDR4 記憶體控制器,加上 7nm 制程改進令時脈進一步提升,整體性能增長最高可達 21%。HKEPC 編輯部找來全新 AMD Ryzen 9 3900X 處理器,與同價位對手 Intel Core i9-9900K 作效能對比測試。



4 個 ALU 單元 + 3 個 AGU 單元

 

相較 Intel Core 微架構 Unified Reservation Station 架構,AMD Zen 2 微架構選擇分割出獨立的 INT 整數及 FP 浮點運算群,各自擁有專屬的流水線及執行端口,雖然電晶體數目及所需晶片面積增加,但卻擁有更佳的並行運算能力, 這就是為何 AMD 的 SMT 同步多線程運算性能,為何會比 Intel Hyper-Threading 更佳。

 

全新 Zen 2 微架構的 INT 整數運算群保持每個週期可處理 6 個整數 μOps 指令,不過內部針對 Instruction Scheduler 調度單元作出改良,擁有 4 個 ALQ 單元及 1 個全新的 AGQ 單元,能同時處理的 Schedule Queue 總數由上代 84 個增至 92 個,整數運算流水線亦有由上代 6 條增至 7 條。

 

為減少單元閒置造成資源浪費,AMD Zen 2 微架構將整數 Register File 暫存器數目由 168 個增至 180 個,能提升亂序執行能力避免 μOps 指令不必要地順序執行,從而提升處理器的指令層級並行運算性能。

 

3900X)

▲AMD Zen 2 微架構的 INT 整數運算群

 

AMD Zen 2 微架構擴大了 Reorder Buffer 單元,將隊列暫存數目由 192 個增至 224 個,每個週期可重排 6 個指令讓 Schedule Queue 單元可以更靈活調度,增強了指令排序操作能力,改善 SMT 同步多線程運算表現。

 

INT 整數運算群保持 4 個 ALU 整數運算單元,各個 ALU 單元支援功能大致對稱但非完全相同,當中 2 個 ALU 單元能在單一週期處理 2 個運算分支,其中 1 個 ALU 可處理 IMUL 有符號乘法,只有 1 個可執行 CRC 運算,只有 1 個可執行除法。

 

此外,AMD Zen 2 微架構增至 3 個  AGU 單元,每個週期可提供 2 個 256 bit Read 及 1 個 256 bit Write,不過這 3 個 AGU 單元的功能亦非完全相同,只有 2 個 AGU 單元支援 Load 及 Store 功能, 1 個 ALU 單元只能執行管理功能。

 

 

 

追加 256bit AVX2 浮點運算能

 

AMD Zen 2 微架構的 FP 浮點運算群設計有著明顯提升,雖然維持每個週期可處理 4 個浮點 μOps 指令,但 FP 執行單元由 128bit 提升至 256bit 並完全支援 AVX2 指令,無需再將 AVX2 指令分拆成 2 個 128bit 指令並需要 2 個週期才能完成。

 

今代保持每個週期可處理 4 個浮點 μOps 指令,設有 2 組 Instruction Scheduler 調度單元,其中 1 組不具備排序能力降低功耗需求,能同時處理的 Schedule Queue 總數由上代 96 個微增至 100 個。

 

3900X

▲ AMD Zen 微架構的 FP 浮點運算單元

 

提升 LDCVT 單元亦提升 256bit Load / Store 滿足新一代 AVX2 指令需求,在 Backup Queue 中提取 μOps 指令,能省略再經 Scheduler Queue 提前分派調度,浮點 Register File 暫存器數目保持 160 個,可直接與整數暫存器進行交換資料,增加浮點亂序執行能力。

 

此外,AMD 針對 Zen 2 的 FMA 運算作出了優化,包括記憶體分配加速、重複物理運算加速及針對音效運算的加速等等,同時 FP 單元在執行乘法時,延遲值由上代的 4 Cycles 減至 3 個 Cycles 等等。

 

設有 2 個 ADD 加法端口及 2 個 MUL 乘法端口,能夠組成 2 組 256bit FMA 浮點單元,具備 2 個 AES 運算引擎用作加密 / 解密運算,每個週期可處理 2 個 256bit AVX 或 1 個 256bit AVX2 浮點指令,相較上代 Zen+ 微架構每個週期僅可處理 1 組 256bit AVX 指令,面對 AVX2 指令更需佔用 2 個週期,Zen 2 微架構的浮點性能提升 1 倍。

分享到:
發表評論