2019-07-07
12 核心、全新 Zen 2 微架構
AMD Ryzen 9 3900X 處理器詳細測試
文: John Lam / 評測中心


AMD 向 Intel 投下 7nm 震撼彈 !! 全新 Zen 2 微架構、第 3 代 Ryzen 處理器正式登場,相較上代 Zen+ 微架構性能平均提升 15%、Cache 容量倍增,率先支援 PCIe 4.0 傳輸技術,優化 DDR4 記憶體控制器,加上 7nm 制程改進令時脈進一步提升,整體性能增長最高可達 21%。HKEPC 編輯部找來全新 AMD Ryzen 9 3900X 處理器,與同價位對手 Intel Core i9-9900K 作效能對比測試。



全新 7nm 制程、第 3 代 Ryzen 處理器登場

 

AMD 正式向 Intel 投下 7nm 核彈,推出全新 Zen 2 微架構、第 3 代 Ryzen 處理器,受惠於微架構改良 IPC 性能相較上代「Zen+」平均提升約 15%,加上全新 7nm 制程改進令核心時脈再提升 350MHz,令整體性能提升可達 21%。

 

3900X

 

更重要的是,全新 7nm 制程讓 AMD 可以在現有的 Socket AM4 封裝放進更多處理核心,以性價比及多核優勢作賣點,相同 CPU 核心數規格售價較 Intel 便宜,相同價位下 CPU 核心更多、性能更高,相信有不少用家會轉投 AMD 懷抱,進一步打破 INTEL 市場壟斷局面。

 

回顧 AMD 這三年的進步,無論是制程及微架構都按照時程表發展並準時實現,在 Socket AM4 平台實現 3 個微架構及制程改良、CPU 核心數目提升 4x、PCIe 頻寬提升 1x,記憶體頻寬提升了 33%,相較 Intel 仍保持老舊的 14nm 制程,讓 AMD 聲勢變得一時無兩。

 

 

 

全新 AMD Zen 2 微架構

 

3900X

▲ AMD Zen 2 微架構 Block Diagram

 

相較上代「Zen+」微架構屬於半代更新,僅針對 Cache 及記憶體系統作出改動,全新「Zen 2」微架構有著更明顯的改良,包括了增加內部頻寬、提升運算單元使用率、提升緩存命中率、提升單一週期指令執行數等等,主要改進及全新設計包括︰

 

→ 改用 256bit Single-Op 浮點單元

→ μOps Cache 容量倍增至 4096 byte

→ 全新的 TAGE 預測分支設計

→ 增至 3 組 AGU 單元 

→ 增加 Load/Store Bandwidth

→ L3 Cache 容量提升 1 倍

→ 改良 Fetch 及 Pre-Fetch 能力

→ 改良 ALU 及 AGU Schedulers

→ 增加 Register File 容量

→ IMC 控制器改良、提升至 DDR4-3200+

 

 

 

經改良的 Front End 引擎

 

全新 AMD Zen 2 微架構針對 Front End 引擎作出了不少改良,具備全新 TAGE Branch Predictor 單元設計,透過優化內部演算法去預測將被執行的指令,並尋找下個直接及間接目標,提早填充至 Request Queue 單元,有助降低運算延遲並優化記憶體系統並行性能。

 

AMD 擴大了 Zen 2 微架構的 Branch Target Buffer (BTB) 緩存,L1 BTB 由 256 增至 512 entries、L2 BTB 由 4096 增至 7,168 entries、ITA 增至 1024 entries,相較上代 Zen+ 有效降低約 30% 預測分支失敗率。

 

3900X

▲ AMD Zen 2 微架構的指令提取設計

 

此外, AMD Zen 2 微架構為提升 Micro-Tags 效率,將 μOps Cache 緩存的可儲存指令量由上代 2,048 增加一倍 4,096 條,讓更多解碼後的 μOps 指令可被暫存,當遇上相同的 x86 指令時不需要再 Decoder 單元進行解碼,直接由 μOps Cache 緩存單元提取 μOps 指令,為 Front-End 引擎提供更高的 x86 指令吞吐量。

 

3900X

▲ AMD Zen 2 的 Front End 引擎

 

指令解碼方面, AMD Zen 2 微架構的 Front-End 引擎沿用 1 組 4-Wide x86 Decoder ,每個週期可處理 4 個 x86 指令,但進一步改良了 Fast Path 設計,Decoder 單元支援更多 x86 操作指令可被融合成 1 個 μOps 指令,令運算效率進一步提升。

 

此外,AMD Zen 2 微架構亦將 μOps Cache 每個週期可提取的 μOps 指令數目由 4 條增至 8 條,更多的 μOps 指令會被傳送至 μOps Queue 列隊單元等待分配,進一步提升處理器的 x86 指令吞吐量,更有利於 SMT 同步多線程運算效率。

分享到:
發表評論