2012-09-13
20x節能、運算性能大幅提升
Intel全新Haswell微架構設計曝光
文: John Lam / 美國舊金山報導


Intel 11 日於美國舊金山舉行首日 IDF US 2012 技術峰會,會上透露了更多下代微架構 Haswell 處理器的改進,雖然仍基於 22nm 制程,但由於微架構進一步改良,令處理器相較上代功耗有效降低 20x ,性能方面卻明顯提升,更先進的 Branch Prediction 、更強大 OODE 及 Corresponding Structures 、相較上代新增 Port 6 與 Port 7 提升 Store Address 、 Integer ALU 、 Branch 等運算單元,大幅提升平行運算,並提供了全新的 Intel Advanced Vector Extensions 2 指令集。



據 Intel 表示, Haswell 是首個微架構設計完全覆蓋 Tablet 、 Ultrabook 及 Netbook 、 Desktop 、 Workstation 及 Server 各個不同層面,模組化設計能應付不同層面的需要,單顆核心的運算能相較上代 Ivy Bridge 明顯提升,同時功耗表現亦明顯下降,並在 IDF Day 1 展示了下代 Haswell 處理器 Demo ,預計將於明年第一季正式上市。

 

Haswell
Intel IDF US 2012 大會展示了下代 Haswell 處理器 Demo

 

Front-End 強化升提平行運算

 

Haswell
大幅改良 Branch Prediction 以及減少 Cache Misses 的延遲

 

Haswell 微架構設計主體仍沿自 Sandy Bridge 與 Ivy Bridge ,例如模組化設計及 Interconnect Ring 架構等,但核心 Front-End 的設計則作出大幅修改, Haswell 微架構針對 Branch Prediction 預測分支作出大量強化,此舉有助提升運算性能並減少運算週期的浪費。

 

Haswell 微架構能同時啟始 TLB 並平行處理 Cache Misses ,此舉可大幅減低資源讀取的延遲並提升 Brandch Prediction 的效率﹐擁有更大的 Buffer Sizes 令處理器的平行運算吞吐量大幅提升,同時亦令 Haswell 在運算單線程運算時擁有更佳資源調配。

 

此外, Haswell 微架構處理器擁有更多 Execution Units ,更低的運算延遲,同時在 Load 及 Store 的 Bandwidth 亦大幅提升, L2 頻寬更是上代的一倍,而且 Pipeline 層數卻保持不變。

Haswell
Haswell 微架構在 Buffer Sizes 再進一步提升平行運算能力

 

圖上為 Haswell Buffer Size 數目,可以看到 Intel 在每一代 Core 微架構上,均針對 OOOE Windows 、 In-flight Loads & Stores 、 Scheduler Enteries 、 Integer & FP Register File 的 Buffer 均有所提升,其中升幅最明顯的是 Allocation Queue ,過去二代均保持 28 per thread ,今代則大幅提升至 56 per thread ,以上改進均令 Haswell 的平行運算能力大幅提升。

 

Execution Unit 大幅改良

 

Haswell

 

Haswell 不僅 Front-End 作出了強化,同時亦改良了 Execution Unit 的效率,新增了兩組 Dispatch Port , Port 6 專門負責 Integer ALU & Shift 、 Port 7 專門處理 Store Address 。

Port 6 作為核心的第四個 ALU ,它是專門針對 Integer 運算而生,並有效減低 Port 0 及 Port 1 的 Vector 運算負擔, Port 7 則是 AGU Stores Unit ,分負了 Port 2 及 Port 3 的 Loads 工作負擔。

 

Port 6 同時提供第二組 Branch Unit ,能減少 Port 0 出現衝突的情況,第二組 Branch Unit 針門針對高階分析程序,有效提升核心的運算性能。

 

Haswell

 

此外, Port 0 和 Port 1 右入了全新的 FMA 運算單元,令 Haswell 的 FMA 運算能力相較 Ivy Bridge 最高提升達 2X ,同時 Cache Bandwidth 亦提升了 2X 以配及 Vector 運算提升。據 Intel 表示,上代 Ivy Bridge 微架構處理器在處理 FMA 運算時,大約需要 8 個 Cycle ,主要是加法和乘法並非平行處理,但全新 Haswell 微架構處理器只需 5 個 Cycle 就能完成 FMA 運算,執行速度與 FP Multiply 運算相同。

 

分享到:
發表評論
本篇文章被 73598 人閱讀,共有 個評論