緩存真有那麼神?Haswell GT3e架構深究

Intel集成顯卡一直是個比較糾結的話題。它佔據著全球最大的圖形市場份額(常年60%以上),
但性能卻被大多數玩家嗤之以鼻;每一代都宣傳進步神速,
但結果只是PPT制勝;硬件規格就算上來了,驅動程序卻始終糟糕透頂。

不過說實話,至少這三年來,Intel集顯的進步還是有目共睹的,規格、性能都有了長足的進步,
聯合AMD APU已經真的讓低端獨顯失去了意義。Haswell這一代更猛,
直接祭出了eDRAM嵌入式緩存,一時間被吹得神乎其神,什麼秒殺APU、媲美GT650M。



從實測成績看,帶緩存的頂級型號GT3e Iris Pro 5200的確已經具備了叫板AMD APU、GeForce GT 650M/640的資本,表現搶眼,
但問題在於,配備它的處理器目前只有區區幾款型號,
其中三款是筆記本上的Core i7-4x50HQ系列,價格高達468-657美元(約合人民幣2870-4000元),
只有高端筆記本才會用它,另一半是R系列,BGA整合封裝,僅供OEM而不零售。

這樣一來,GT3e的牛逼很大程度上就沒什麼意義了,因為一般用戶,尤其是主流級別的消費者,
根本就買不到它,或者說買不起,而捨得銀子買遊戲本的又怎麼好意思用集顯?
再者說,價格上也完全不可同日而語,APU和低端獨顯只要幾百塊錢,GT3e是它們的好幾倍。

按說低端和入門級用戶才需要更好的集顯,不過Intel的做法恰恰相反,越高端集顯越強,歷代都是如此,顯得不可理喻。
Intel對此從來沒有明確闡述過,想來是出於成本、利潤方面的考慮,
畢竟越強大的集顯越耗費晶體管、核心面積,成本也越高,
自然不可能放在奔騰、賽揚上,而在高端型號上增加一些成本可以接受(儘管GT3e據傳需要50美元),利潤空間也大得多。



好了,開始說「正事兒」。

Haswell GPU的底層架構其實和Ivy Bridge上是完全一樣的,只是做了一些增強和擴充,
尤其是執行單元數量大增。就像AMD CU(計算單元)、NVIDIA SMX(流處理器陣列)那樣,
Intel Haswell GPU也有自己的基礎模塊「Sub-Slice」(子切片),由10個執行單元(UE)組成,
每個執行單元都是雙發射的SIMD,有兩個四寬度的矢量ALU,遠遠沒有A/N的那麼寬。
而且Intel的這種架構還存在著並發(co-issue)問題,上一代的Ivy Bridge在此做了大量改進但依然存在不少侷限。


Haswell GPU架構圖


Intel、AMD、NVIDIA GPU基礎模塊對比



Haswell GPU的規模也大大擴充了。此前的HD 4000只有16個執行單元,
現在的HD 4600就有兩個子切片、20個執行單元,GT3 Iris 5200/5100、HD 4600更是翻番為四個子切片、
40個執行單元,1.3GHz加速頻率下峰值浮點性能可達832GFlops,已經超過了GeForce GT 750M。


峰值浮點性能對比


帶寬對比



但畢竟是集成顯卡,在像素填充率、紋理填充率、三角形生成率方面還是沒法和獨立顯卡相比
距離GeForce GT 650M都差距不小,不過總體上基本超過了Trinity A10-5800K。


峰值理論性能對比



【嵌入式緩存解決帶寬問題】
無論什麼整合GPU,都必須面臨內存帶寬不足的問題。這一次,Intel的終極解決方案是128MB eDRAM嵌入式緩存,
代號「Crystalwell」。這是由Intel自己設計的,採用P1271 22nm SoC工藝製造。
注意這不同於P1270 CPU工藝,因為Intel需要更低的晶體管漏電率,而不是一味的高頻率——最高為1.6GHz。



這些緩存並沒有直接和CPU整合在一起,而是一顆獨立的Die,共同封裝在一起。
這麼做的原因也很簡單,首先是工藝不完全一樣,其次是可以很容易根據需要做調整。
如果大家都很喜歡這種緩存配置,Intel就可以多造一些,反之亦然。
下一代的14nm Broadwell上仍然會有這種緩存,但可能還會是22nm SoC工藝製造,
畢竟既能利用老工廠產能,還沒必要急著擴大容量。
那麼會不會有一天跟處理器徹底整合到一起呢?Intel說現在碳這個還為時過早(84平方毫米確實不容易放進去),
可能會有16-32MB eDRAM的整合版本,用於特定目的。

但是不同於以往遊戲主機中的eDRAM,Crystalwell又是內存體系中真正的四級緩存,扮
演三級緩存替補緩衝器的角色,任何從三級緩存中被趕出來的數據都會到這裡邊來。

因為是緩存而非緩衝,Intel發現Crystalwell的命中率很少低於95%
三級緩存未命中後的訪問延遲為30-32納秒,介於三級緩存和系統內存之間。


內存延遲:GT3e確實低很多



它可以同時處理CPU、GPU緩存,還能在二者之間動態定位。如果你安裝了獨顯,
完全不需要使用整合GPU,Crystalwell就會去全力處理CPU請求。
對於Crystalwell和其它部分的互連,Intel語焉不詳,只說是一條很窄的串行總線,雙向帶寬50GB/s
再加上128-bit DDR3-1600內存的25.6GB/s,還是很可觀的。GT 650M 128-bit 5GHz GDDR5也才不過80.3GB/s。
事實上,eDRAM容量超過32MB之後就用處不是很大了(微軟Xbox One裡就是32MB eSRAM),
Crystalwell卻有多達128MB,而且就這一個版本。Intel的意圖是先翻番來應對任何可能的遊戲複雜度,
再翻番以確保萬無一失。借用Intel自己的話說就是「要麼128MB,要麼就沒有」。
至於為什麼選擇eDRAM,Intel看重了它的高帶寬和低功耗。Intel宣稱,Crystalwell的帶寬曲線非常平穩,不像GDDR5那樣依賴於負載。
待機狀態下,Crystalwell只需要簡單地刷新已存儲數據,功耗0.5-1W,全帶寬負載下則是3.5-4.5W。

它還和其它所有模塊一樣,受到了電源控制單元(PCU)的監控。根據散熱、負載甚至是eDRAM的命中率,
PCU可以在CPU、GPU、eDARM之間平衡功耗。

很可惜,Crystalwell只會搭配高端四核心,出現在H、R系列部分型號中,要是K系列也有肯定會大受追捧。
至於為何不用於低端,主要是GT1/GT2用不著那麼多帶寬。Intel還解釋說,
一旦熱設計功耗達到18W,GT3e就會很有用,但又必須顧及內核面積。


緩存/內存帶寬


【小機箱裡的移動平台】


看到這個你肯定認為不過是個普通的中塔小機箱,但事實上,它裡邊是Intel的移動客戶參考主板(CRB)
裡邊是完全針對移動平台優化的,只是為了方便測試診斷而做成了這樣。



處理器是頂級的Core i7-4950HQ 47W,圖形核心正是待緩存的Iris Pro 5200。
因為Intel對內核面積數據捂得很嚴實,AnandTech在跑完測試後就把散熱器拿了下來,
發現Intel並未使用散熱頂蓋。這就好說了,擦掉硅脂,就可以看到處理器、緩存的真容了。右邊那個小點的Die就是緩存。


經過測量,Crystalwell緩存的面積大約為7×12=84平方毫米,
而四核心加GT3的面積為16.2×16.3=264平方毫米,合計328平方毫米

Intel官方公佈的四核心加GT2的內核面積為177平方毫米,所以GT3相比於GT2多了87平方毫米,
乘以2應該就是40個執行單元GPU的大致面積了:174平方毫米。
這就意味著,四核心GT3內核裡會有大約65%的面積用在了GPU上,遠遠大於四核心GT2 33%左右
Intel對待GPU也是越來越認真了。

邊度原文架
偷人 Anandtech D 圖

TOP

提示: 作者被禁止或刪除 內容自動屏蔽

TOP

新既勁好多. 快!

TOP

咩牛逼呀? 出番香港文字啦, 一係全篇都係英文, 唔想見到呢d唔係香港中文既邪惡字

TOP

174mm^2 既 GT3
比 HD7790 仲大
而且仲要係 22nm 比 28nm 製程
同樣製程同樣大細,AMD / Nvidia 分分鐘整 ...
wilsonkf 發表於 8-6-2013 12:33 AM


我只可以話 Intel 為左贏會 好落本
A 記自家有 APU
I 記 Notebook 一係 Onboard 一係就加 Discrete 配 A/N
唔少中下價機都係鍾意配 N 記 GT740/640M 級顯卡的
究竟邊個會大鑊d , 我唔知囉

TOP

提示: 作者被禁止或刪除 內容自動屏蔽

TOP

Intel 要出平價 GT3 同 AMD 鬥,個 profit margin 都幾大鑊下...
i3 + GT3 都要 200mm^2 以上
已經唔係細 ...
wilsonkf 發表於 2013-6-8 01:17


i3+GT3係~18xmm^2

TOP

佢整大成倍但快左幾多先
老老實實佢平幾舊水好過啦
不過咁做唔符合 INTEL 個性

TOP

其實INTEL要落本,搵多幾個好既工程師返黎寫好個DISPLAY DRIVER好過啦
由865年代到而家我用NOTEBOOK i5 2410M,INTEL個DISPLAY DRIVER依然係同米田共無分別

TOP