20x節能、運算性能大幅提升 Intel全新Haswell微架構設計曝光

2012-09-13

20x節能、運算性能大幅提升

Intel全新Haswell微架構設計曝光

文: John Lam / 美國舊金山報導

Intel 11 日於美國舊金山舉行首日 IDF US 2012 技術峰會，會上透露了更多下代微架構 Haswell 處理器的改進，雖然仍基於 22nm 制程，但由於微架構進一步改良，令處理器相較上代功耗有效降低 20x ，性能方面卻明顯提升，更先進的 Branch Prediction 、更強大 OODE 及 Corresponding Structures 、相較上代新增 Port 6 與 Port 7 提升 Store Address 、 Integer ALU 、 Branch 等運算單元，大幅提升平行運算，並提供了全新的 Intel Advanced Vector Extensions 2 指令集。

據 Intel 表示， Haswell 是首個微架構設計完全覆蓋 Tablet 、 Ultrabook 及 Netbook 、 Desktop 、 Workstation 及 Server 各個不同層面，模組化設計能應付不同層面的需要，單顆核心的運算能相較上代 Ivy Bridge 明顯提升，同時功耗表現亦明顯下降，並在 IDF Day 1 展示了下代 Haswell 處理器 Demo ，預計將於明年第一季正式上市。

Haswell
Intel IDF US 2012 大會展示了下代 Haswell 處理器 Demo

Front-End 強化升提平行運算

Haswell
大幅改良 Branch Prediction 以及減少 Cache Misses 的延遲

Haswell 微架構設計主體仍沿自 Sandy Bridge 與 Ivy Bridge ，例如模組化設計及 Interconnect Ring 架構等，但核心 Front-End 的設計則作出大幅修改， Haswell 微架構針對 Branch Prediction 預測分支作出大量強化，此舉有助提升運算性能並減少運算週期的浪費。

Haswell 微架構能同時啟始 TLB 並平行處理 Cache Misses ，此舉可大幅減低資源讀取的延遲並提升 Brandch Prediction 的效率﹐擁有更大的 Buffer Sizes 令處理器的平行運算吞吐量大幅提升，同時亦令 Haswell 在運算單線程運算時擁有更佳資源調配。

此外， Haswell 微架構處理器擁有更多 Execution Units ，更低的運算延遲，同時在 Load 及 Store 的 Bandwidth 亦大幅提升， L2 頻寬更是上代的一倍，而且 Pipeline 層數卻保持不變。

Haswell
Haswell 微架構在 Buffer Sizes 再進一步提升平行運算能力

圖上為 Haswell Buffer Size 數目，可以看到 Intel 在每一代 Core 微架構上，均針對 OOOE Windows 、 In-flight Loads & Stores 、 Scheduler Enteries 、 Integer & FP Register File 的 Buffer 均有所提升，其中升幅最明顯的是 Allocation Queue ，過去二代均保持 28 per thread ，今代則大幅提升至 56 per thread ，以上改進均令 Haswell 的平行運算能力大幅提升。

Execution Unit 大幅改良

Haswell

Haswell 不僅 Front-End 作出了強化，同時亦改良了 Execution Unit 的效率，新增了兩組 Dispatch Port ， Port 6 專門負責 Integer ALU & Shift 、 Port 7 專門處理 Store Address 。

Port 6 作為核心的第四個 ALU ，它是專門針對 Integer 運算而生，並有效減低 Port 0 及 Port 1 的 Vector 運算負擔， Port 7 則是 AGU Stores Unit ，分負了 Port 2 及 Port 3 的 Loads 工作負擔。

Port 6 同時提供第二組 Branch Unit ，能減少 Port 0 出現衝突的情況，第二組 Branch Unit 針門針對高階分析程序，有效提升核心的運算性能。

Haswell

此外， Port 0 和 Port 1 右入了全新的 FMA 運算單元，令 Haswell 的 FMA 運算能力相較 Ivy Bridge 最高提升達 2X ，同時 Cache Bandwidth 亦提升了 2X 以配及 Vector 運算提升。據 Intel 表示，上代 Ivy Bridge 微架構處理器在處理 FMA 運算時，大約需要 8 個 Cycle ，主要是加法和乘法並非平行處理，但全新 Haswell 微架構處理器只需 5 個 Cycle 就能完成 FMA 運算，執行速度與 FP Multiply 運算相同。

文章索引：封面故事專題報導處理器 INTEL IDF