2012-11-12
更高時脈、8核心不鎖頻
全新AMD FX-8350 Piledriver處理器登場
文: Grove Yeung / 評測中心


雖然 Intel Ivy Bridge 處理器以出色的性能牢牢控制了中高價市場,而 AMD 則已把業務發展重點放在整合 GPU 的 APU 處理器上,不過為針對需要高效能的 AMD 用戶,在 Piledriver 架構的 Trinity APU 推出後, 隨即推出不含 GPU 的 Piledriver 架構 FX 處理器,以「 Higher Frequency, Unlocked, More Cores at every price points 」作為賣點,為 AMD 用家帶來升級機會。



技術革新︰回顧 AMD Bulldozer 創新架構

AMD FX-8350

Bulldozer 晶片及功能圖

 

在介紹全新的 FX-8350 前,先讓時間回到 2011 年 10 月 12 日, AMD 發佈 Bulldozer 的日子。當天,期待以久的全新 AMD FX 處理器家族正式登場,藉著革命性的單 Bulldozer 模組雙核心設計,雙核心可以共享一部份的電路,如共享指令解碼器、 L1 指令 Cache 、 FPU 等等,但重要的 Integer 模組卻有 2 組令效能倍增,這是一種以最少的電路爭取最大的效益的思維,一改過去每增加核心數目成本倍增的高代價做法,為業界提供一條便宜的多核心發展道路。同時,單模組雙核心在共享頻寬上可更為有效,如在多線程的數據預取上等等。

 

AMD FX-8350

每個 Bulldozer 模組除了 Integer Units 外,其餘部份均為共享設計


由於採用單 Bulldozer 共享雙核心模組設計,所以 Bulldozer 很輕易便集成了 4 個雙核心模組,一推出即成為世界上首顆 8 核心桌面處理器,超越了 Intel Core i7 Extreme 980X 創下的 6 核心紀錄。為了確保 Bulldozer 的效能, AMD 還加入了多項新技術,其中一項是在指令集方面,過去 Phenom II 因為不支援 Intel 的 SSSE3 及 SSE4.1 指令集,所以在部份測試項目遠不如 Intel 同級處理器 ( 編按︰雖然 Phenom II 也支援 SSE4a 指令集,但實際功能無法與 SSE4.1 相比 ) 。為此, AMD 甚至不惜另起爐灶,推出 SSE5 指令集,結果是 AMD 與 Intel 決定統一指令集。

 

Bulldozer 除了支援 SSSE3 與 SSE4.1 指令集外,也支援 Intel 最新的 AVX 、 AES 及 SSE4.2 指令集,甚至是 AMD 取消 SSE5 指令集計劃後,一些計劃保留的指令集如 FMA4(Fused Multiply/Add extensions) 及 XOP (eXtended Operations) 。 FMA4 主要針對 HPC 應用,而 XOP 是 AMD 希望超越 AVX 的特別指令,在 Operands 尋址上更加靈活,可針對數值應用、多媒體、 Audio/Radio Algorithms 等。

 

對於 Intel AVX 指令, Bulldozer 在 FPU 方向更特別作出了優化,由於 Intel AVX 有 128-bit 及 256-bit 指令,所以在 FP Scheduler 之下有 2 個 128-bit FMAC ,它們可以分別處理 2 條 128-bit AVX 指令,或合在一起處理 1 條 256-bit AVX 指令。

 

Bulldozer 與 Phenom II X6 及 Sandy Brdige FPU 功能的比較︰

 

 AMD Phenom II X6AMD FX-8150Sandy Bridge
Execute 128-bit FPYesYesYes
Support SSSE3, SSE4.1, SSE4.2 YesYes
Execute 128-bit or 256-bit AVX YesYes
Execute Two 128-bit AVX in 1 cycle YesYes
Execute 128-bit AVX & SSE in 1 cycle YesYes
Execute FMA operations (A=B+C*D) Yes 
Support XOP Yes 
FLOPs per cycle (double precision x87)1288
FLOPs per cycle (128-bit AVX) 6432
FLOPs per cycle (256-bit AVX) 6464

 

AMD FX-8350 Piledriver

Bulldozer 共有 2 個 128-bit FMAC ,可同時處理 2 條 128-bit AVX 或 1 條 256-bit AVX 指令

 

AMD FX-8350

Bulldozer 大大加強了 Prediction 及 Prefetch 功能

 

Bulldozer 因為採用 2 個核心共享資源的設計,所以高性能的 Front-End Unit 前端單元絕不可少。為此, AMD 也對原來 Phenom II 的 Front-End Unit 作為最大修改,包括對 Decoupled predict and fetch pipelines 及 Prediction-directed instruction prefetchers 的修改。首先是原來 Phenom II 的 3-Wide x86 Decoders 終於改為與 Intel CPU 相同 4-Wide x86 Decoder ,可在同一同期解碼更多指令。 Bulldozer 的 Prediction Queue 預測序列可以管理直接及非直接分支,並置於 L1 及 L2 分支預測記憶體 (Branch Target Buffer) 之下,可儲存目的位址。

 

Prediction Pipeline 預測管線可產生一連串的 Fetch 位址 . 使 Fetch Pipeline 不必再看指令 Cache ,以每同期 32 bytes 的速度送到 Decoders 下的 Fetch Queue 。推土機使用 physical register file (PRF) ,這是一個單一區域,儲存了執行過指令的結果,從而減少不必要的數據轉移及數據複製,僅保留一個版本,從而去減少功耗。

 

發表評論