2007-09-25
分析Intel 45奈米處理器佈局
全港首試Intel 「Yorkfield」四核心
文: John Lam / 評測中心


次世代 x86 處理器大戰即將上演,面對著 AMD K10 全新微架構產品, Intel 將以 45 奈米制程配合經強化改良的 Core 微架構應戰,為了不讓對手重奪技術主導權, Intel 防堵大計預將陸續登場 ! ? 為進一步了解 Intel 迎擊戰略, HKEPC 將分析 Intel 未來半年的桌面處理器產品佈局,並獨家找來全港首顆 45 奈米四核心 Yorkfieled ,與上代 Kensfield 作對比測試。



45 奈米「 Penryn 」桌面四核心︰ Yorkfield 2.33GHz 工程樣本

Intel Yorkfield ES Sample 
Intel Yorkfield 2.33GHz ES Sample

圖為 Intel 下一代 45 奈米「 Penryn 」家族桌面四核心處理器工程樣本,處理器序號為「 80569PJ053NL 」, 採用 Socket 775 處理器接口。「 80569 」代表核心為「 Yorkfield 」、「 P 」為桌面級主流級至效能級產品、「 J 」是 1333MHz FSB 、「 053 」代表時脈為 2.33GHz 、「 NL 」則代表 L2 Cache 容量為 12MB , Core 2 Extreme 版本的 TDP 為 130W 、 Core 2 Quad 版本的 TDP 則為 95W 。

其支援 MX 、 SSE 、 SSE2 、 SSE3 及 SSE4.1 指令集、 Intel Virtualization Technology 、 Enhanced Intel SpeedStep 、 Intel 64Bit 支援、 Execute Bit 技術及 Intel Trust Execution Technology ( TXT ) 。

「 Yorkfield 」核心其實並非單一晶片,它是把兩顆雙核心封裝在一起,好處是 Intel 無需為四核心產品重新設計晶片,由於四核心現時市場佔有率仍在 5% 以下,因此這個方法是最節省成本,並能提早問市時間。

不過,兩顆雙核心封裝在一起,兩者並沒有直接的溝通橋樑,因此當要互相傳取資料時,必需要經過 FSB ,延遲值將會略為提高。但據 Intel 表示,這個核心互相傳取動作,比 L2 Missed 然後需要傳取系統記憶體要快上 10 倍,而且 Intel Core 微架構擁有加入了 Memory Disambiguation 設計,透過 Out of Order 過程分析記憶體讀取次序,可令其讀取提早執行,降低處理器的等候時間,減少閒置及延遲值。

「 Yorkfield 」內建 8.2 億個電晶體,相比上代「 Kentsfield 」核心多出 2.38 億個,主要原因為 L2 Cache 容量提升 50% ,約佔 1.92 億個電晶體,餘下部份則為 SSE4 指令運算單元及微架構的改良部份。

雖然內建電晶體數目上升約 40% ,但由於改採 45nm 制程,晶片大小由上代的 286 平方毫米,減至只有 214 平方毫米,有助成本進一步下降。

此外, Intel 上代 65 奈米產品最高時脈約為 3GHz ,時脈超過 3GHz 後,功耗將會出現明顯增長,而 45 奈米產品最高可達約 4GHz ,在甫結束的 IDF 2007 Fall 大會上, Intel 更展示 5GHz 超頻示範,意味著 Intel 新一代 45 奈米將有一定的時脈提升空間。

由於新一代 45 奈米產品在 CPU GTLREF Ratio 設定上有所變更,因此舊有主機板可能需要更新 BIOS 才能正常啟動。

值得注意的是,儘管 Intel 一直強調只有「 3 」系列晶片組才能支援 45 奈米,但有主機板業者指出,其實 965 晶片組也能透過 BIOS 更新作出支援,不過 VTT 電壓將會被設定至 1.2V ,處理器功耗會隨之提高,減低產品壽命, 965 晶片組方案雖然可行,但並不建議採用。

Yorkfield and Kentsfield 
( 左 ) Intel 45nm Yorkfield 四核心 ( 右 ) Intel 65nm Kentsfield 四核心



非單純制程進化 微架構亦作出改進

Intel SSE4 InstructionsIntel SSE4 Instuructions


Yorkfield 支援新一代 SSE4 指令集 ( Streaming SIMD Extension 4 ) ,被視為繼 2001 年以來最重要的媒體指令集架構的改進,除擴展 Intel 64 指令集架構外,還加入有關圖形、視頻編碼及處理、三維成像及遊戲應用等指令,令涉及音頻、圖像和數據壓縮算法的應用程式大幅受益。

據了解, SSE4 將分為 4.1 版本及 4.2 版本, 4.1 版本將會首次出現於 Penryn 處理器中,共新增 47 條指令,主要針對向量繪圖運算、 3D 遊戲加速、視像編碼加速及協同處理加速動作,包括︰

Penryn SSE4 Instruction summary

Instruction Category

Instructions

Benefits

Packed DWORD Multiplies

PMULLD , PMULDQ

提升編譯器矢量運算效能

Floating Point Dot Product

DPPS , DPPD

3D立體制作及遊戲,支援CGHLSL等語言

Multi-packed sum of absolute diffs& min pos

MPSADBW , PHMINPOSUW

視訊編碼處理

Streaming Load

MOVNTDQA

視訊編碼處理、繪圖及GPU數據分享

Floating Point Round

ROUNDPS , ROUNDSS , ROUNDPD , ROUNDSD

視訊編碼處理 、繪圖、影音處理、2D/3D應用、多媒體及遊戲等

Packed Blending

BLENDPS , BLENDPD , BLENDVPS , BLENDVPD , PBLENDVB , PBLENDDW

編譯器矢量運算及影音處理、多媒體、遊戲等應用

Packed Integer Min and Max

PMINSB , PMAXSB , PMINUW , PMAXUW , PMINUD , PMAXUD , PMINDS , PMAXSD

Register Insertion/Extraction

INSERTPS , PINSRB , PINSRD , PINSRQ , EXTRACTPS , PEXTRB , PEXTRD , PEXTRW , PEXTRQ

Packed Format Conversion

PMOVSXBW , PMOVZXBW , PMOVSXBD , PMOVZXBD , PMOVSXBQ , PMOVZXBQ , PMOVSXWD , PMOVZXWD , PMOVSXWQ , PMOVZXWQ , PMOVSXDQ , PMOVZXDQ

Packed Test & Set

PTEST

Packed Compare for Equal

PCMPEQQ

Pack DWORD to Unsigned WORD

PACKUSDW



除了採用更先進的 45 奈米制程及加入全新 SSE4 指令集外, Penryn 亦基於 Intel Core 微架構設計作出多項改良,稱為「 Enhanced Intel Core Microarchitecture 」,並加入了︰

Fast Radix-16 Divider ( 快速 Radix-16 除法器 )
Super Shuffle Engine ( 超級洗牌引擎 )
Split Load Cache Enhancement ( 增強型緩存拆分負載 )
Improved Store Forwarding ( 存儲轉發 )
Faster OS Primitive Support ( 高速作業系統同步原始支援 )
Virtualization Performance Improvements ( 增強的 Intel 虛擬化技術 )
Deep Power Down Technology ( 深度節能技術 )
Enhanced Dynamic Acceleration Technology ( 增強型動態加速技術 )

據 Intel 資深工程師兼 Penryn 微架構主管 Stephen Fischer 表示,與上代處理器產品相比, Penryn 處理器在繪圖效能約超過 15% 、視訊編碼平均可提高 20% 、 3D 內容制作可提高逾 30% , 3D 遊戲效能更可高達 40% ,視乎軟件設計而定。

讀者想了解更多 Penryn 微架構更新內容,可瀏覽︰
http://www.hkepc.com/?id=96&page=1

45 奈米處理器加入 0.5x 倍頻設定

Core Frequency to FSB configuration



值得注意的是, Intel 將會在 45 奈米 Core 2 處理器中加入 0.5x 倍頻設定,根據「 Intel Yorkfield EMTS Rev 1.1 」文件中指出, 45 奈米處理器最低倍頻為 6x ,但由 7.5x 倍頻數開始擁有 0.5x 倍頻設計直至 13.5x ,最高倍頻數為 15x 。

追加 0.5x 倍頻數的主要原因為新一代處理器的外頻由 266MHz 提升至 333MHz ,如果沿用整數倍頻,則每一級產品的時脈差距亦會同樣上升,型號數目變少難以覆蓋整個產品線,加入 0.5x 倍頻後,產品線型號的設定彈性將大幅提升,同樣的做法 AMD 亦早用於 AM2 處理器中。  

分享到:
發表評論