2010-07-14
全新GF104 GPU核心
NVIDIA GeForce GTX 460繪圖卡
文: John Lam / 評測中心


受 GF100 晶片良率欠佳影響, NVIDIA DX11 產品推出時程嚴重延宕,不僅晶片成本高昂,更重要的是良率偏低令 GF100 無法完全發揮 512 CUDA Cores 威力。終於全新效能級繪圖晶片 GF104 正式登場,在簡化架構後不僅良率大幅上升、成本下降,而且在整體效能上相較採用高階 GF100 繪圖核心的 GeForce GTX 465 更優勝,定價僅 $199-229 美元的 GeForce GTX 460 繪圖卡,能否為 NVIDIA 一洗頹風成為板卡業者焦點所在。



GF104 :每組 SM 的 SFU 單元增至 8 個     共合 64 個與 GF100 看齊

 

SFU
NVIDIA GF100 GPU 每組 SM 擁有 4 個 SFU

 

GF104 承繼了 Fermi 微架構的優勢, GF104 的 SM Unit 不只是數量上的增加,它更具編程彈性及更具效率,每一個 SM 單元內擁有 48 個 CUDA Cores 是上代的 6 倍,主要是針對未來遊戲對 Shader 運算的需要而作出最大優化。

 

採用了 Scalar 架構,無論是輸入任何大小的向量數據都能以最佳性能運算,並且可在執行 Z-buffer (1D) 或 Texture Acess (2D) 均能完全使用整個核心,每個 CUDA Processor 擁有完整的完全整數運算流水線邏輯單元 (ALU) 和浮點單元 (FPU) ,並實現了全新 IEEE 754-2008 浮點標準,提供融合乘加 (FMA) 指令,包括單及 雙精度運算。

 

FMA 指令改善了 MAD 做乘法和單一最後四捨五入動作,但沒有損失運算的精密度,令緊密重疊的三角形減少渲染錯誤的機會。

 

ALU 經過重新設計,支援所有完全 32Bit Prescision 指令,以符合標準編程語言的要求。整數 ALU 也作出優化 ,令繪圖核心更有效地支持 64Bit 和擴展精度運算,更多的指令標準在 GF100 被加入支援,包括 Boolean 、 shift 、 move 、 compare 、 convert 、 bit-field extract 、 bitreverse 、 insert 及 population count 。

 

雖然 GF104 繪圖核心與 GF100 繪圖核心同樣為 Fermi 微架構產品,但在 SM Unit 設計上 NVIDIA 已作出了調整,令它更切合實際運算需要,例如 GF104 繪圖核心把每組 SM 單元擁有的特殊功能單元 (SFU) ,由 4 組提升至 8 組,故此 GF104 並沒有因為 GPC 的數目減少,而令 SFU 單元被減少,同樣保持為 64 個,這些 SFU 單元可以執行 Sin 、 Cosine 、 Reciprocal 及 Square Root ,並負責圖形插補指令,每組 SFU 每個週期可完成一個指令或 8 個週期完成 32 Warp 線程, SFU 有效解決複雜的程序,特別是受益於複雜的陰影運算等。

 

SFU
NVIDIA GF104 繪圖核心每組 SM 則增至 8 個 SFU

 

GF104 :增加 Instruction Dispatch Unit 數目以配合架構調整

 

Dispatch
NVIDIA GF100 GPU 每組 SM 擁有 2 個 Instruction Dispatch Unit

 

由於 GF104 在每組 SM Unit 內的 CUDA Core 及 SFU Unit 數目上大幅提升,為了讓這些單元不會因被浪費及閒置, GF104 增加了 Instruction Dispatch Unit 作出配合。 GF100 繪圖核心時擁有兩個 Dual Warp Scheduler Unit 及兩個 Instruction Dispatch Unit ,容許它們同時發出及執行指令, GF100 繪圖核心透過這兩個 Warp Scheduler 及 Instruction Dispatch Unit 以控制每 SM 單元內的 CUDA Core 、 16 Load/Save Units 及 4 個 SFU 。由於 Warp 執行變得完全獨立,因此 GF100 晶片不需要檢查內部指令的流向,令 GF100 的運算峰值與實際運算能力十分接近。

 

GF104 每組 SM 則擁有 4 組 Instruction Dispatch Unit ,以應付提升至 48 個 CUDA Core 及 8 個 SFU 單元的需要。值得注意的是,大部份指令均支援 Dual Issued ,包括兩個浮動的指示,或混合整數、浮點、加載、存儲和 SFU 指令均可以同時執行,僅有雙精度指令配合其他指令時,不支援 Instruction Dispatch 。

 

Dispatch
NVIDIA GF104 GPU 每組 SM 則提升至 4 個 Instruction Dispatch Unit

發表評論